读取csv文件
df = pd.read_csv('/Users/apple/Desktop/zhanglutest/ts.csv',sep=';',encoding='gbk')
read_csv函数有很多参数,本人只了解了主要的参数,记录如下:
filepath_or_buffer :str,csv文件的存放路径
sep : str, 默认为‘,’。分隔符,例如读取的csv文件的分隔符是分号,则设置sep=';'
delimiter : str, default None。定界符,备选分隔符(如果指定该参数,则sep参数失效)
delim_whitespace : boolean, default False。指定空格是否作为分隔符使用,等效于设定sep='\s+'。如果这个参数设定为Ture那么delimiter 参数失效。在新版本0.18.1支持。
header : int or list of ints, default ‘infer’。指定哪一行是列名,当csv中第一行是列名时,设置header=0,当csv中不存在列名时,设置header=None,如果设置header=[0,3],那么表示第0行和第2行数据是列名,则行索引从第3行开始计算,第1行被丢弃。详情看列子:
df = pd.read_csv('/Users/apple/Desktop/zhanglutest/ts.csv',sep=';',encoding='gbk')
name age sex address company
0 zhangsan 20.0 male chengnan xiaomi
1 lisi 22.0 female 深圳宝安区 kingdee
2 hello 12.0 male 深圳南山区 sf
3 ayry 18.0 female 广州白云区 pingan
4 srf 25.0 NaN 广州白云区 呵呵
5 ar6uu NaN male 北京海淀区 NaN
df = pd.read_csv('/Users/apple/Desktop/zhanglutest/ts.csv',sep=';',header=0,encoding='gbk')
name age sex address company
0 zhangsan 20.0 male chengnan xiaomi
1 lisi 22.0 female 深圳宝安区 kingdee
2 hello 12.0 male 深圳南山区 sf
3 ayry 18.0 female 广州白云区 pingan
4 srf 25.0 NaN 广州白云区 呵呵
5 ar6uu NaN male 北京海淀区 NaN
csv中第0行为列名,数据从第1行开始,有列名时设置header=0与不设置此参数结果一样。
df = pd.read_csv('/Users/apple/Desktop/zhanglutest/ts.csv',sep=';',header=1,encoding='gbk')
zhangsan 20.0 male chengnan xiaomi
0 lisi 22.0 female 深圳宝安区 kingdee
1 hello 12.0 male 深圳南山区 sf
2 ayry 18.0 female 广州白云区 pingan
3 srf 25.0 NaN 广州白云区 呵呵
4 ar6uu NaN male 北京海淀区 NaN
header=1表示csv中第1行为列名,第0行被丢弃,数据从第2行开始。
df = pd.read_csv('/Users/apple/Desktop/zhanglutest/ts.csv',sep=';',header=None,encoding='gbk')
0 1 2 3 4
0 name age sex address company
1 zhangsan 20 male chengnan xiaomi
2 lisi 22 female 深圳宝安区 kinked
3 hello 12 male 深圳南山区 sf
4 ayry 18 female 广州白云区 pingan
5 srf 25 NaN 广州白云区 呵呵
6 ar6uu NaN male 北京海淀区 NaN
header=None表示没有列名,数据从0行开始,pandas自动赋列名0,1,2,3,4
df = pd.read_csv('/Users/apple/Desktop/zhanglutest/ts.csv',sep=';',header=[0,2],encoding='gbk')
name age sex address company
lisi 22 female 深圳宝安区 kingdee
0 hello 12.0 male 深圳南山区 sf
1 ayry 18.0 female 广州白云区 pingan
2 srf 25.0 NaN 广州白云区 呵呵
3 ar6uu NaN male 北京海淀区 NaN
header=[0,2]表示csv的第0行、第2行都是列名,第1行数据被丢弃,数据从第3行开始。
names : array-like, default None
用于结果的列名列表,如果数据文件中没有列标题行,就需要执行header=None。通过设置names给数据设置列名。
df = pd.read_csv('/Users/apple/Desktop/zhanglutest/ts.csv',sep=';',header=None,names=['h1','h2','h3','h4','h5'],encoding='gbk')
h1 h2 h3 h4 h5
0 name age sex address company
1 zhangsan 20 male chengnan xiaomi
2 lisi 22 female 深圳宝安区 kingdee
3 hello 12 male 深圳南山区 sf
4 ayry 18 female 广州白云区 pingan
5 srf 25 NaN 广州白云区 呵呵
6 ar6uu NaN male 北京海淀区 NaN
不设置header参数时,设置了names,则任务csv中没有列名,会将第0行当做数据处理,如下例子:
df = pd.read_csv('/Users/apple/Desktop/zhanglutest/ts.csv',sep=';',names=['h1','h2','h3','h4','h5'],encoding='gbk')
h1 h2 h3 h4 h5
0 name age sex address company
1 zhangsan 20 male chengnan xiaomi
2 lisi 22 female 深圳宝安区 kingdee
3 hello 12 male 深圳南山区 sf
4 ayry 18 female 广州白云区 pingan
5 srf 25 NaN 广州白云区 呵呵
6 ar6uu NaN male 北京海淀区 NaN
encoding : str, default None
指定字符集类型,通常指定为'utf-8',当csv中存在中文时,如果设置utf-8报错,可以试试gbk。
read_csv的参数还有很多,常用的是上面这些,后续用到了其他参数再记录
分享到:
相关推荐
23.pandas_read_csv.ipynb
pandas.read_csv()遇到读进来乱码问题 1.设置encoding=’gbk’或者encoding=’utf-8’。pandas.read_csv(‘data.csv’,encoding=’gbk’) 2.如果设置encoding直接报错的话 解决方法是:用记事本打开csv文件,另存为...
### Pandas之read_csv()读取文件跳过报错行的解决方案 #### 一、问题背景及场景 在日常的数据处理工作中,我们经常会遇到需要从CSV文件中读取数据的情况。Pandas作为Python中非常强大的数据分析库之一,提供了`...
在使用Python的数据分析库pandas时,常常会用到read_csv()函数来读取CSV格式的数据文件。然而在使用这个函数的过程中,我们可能会遇到各种各样的问题,尤其是数据类型错误导致无法进行后续的数据分析处理。下面详细...
`read_csv`函数是Pandas用于读取逗号分隔值(CSV)文件的关键方法,它能够将CSV数据转化为DataFrame对象。然而,CSV文件中常常会出现缺失值,这些值通常表示为特定的字符串,如'NA'、'NaN'或空白。Pandas通过识别...
然而在实际应用中,我们可能会遇到文件路径或文件名称中包含中文字符的情况,这时使用Pandas的read_csv函数直接导入可能会遇到困难,通常会报错,导致无法正常读取数据。 原因在于Python默认的文件路径处理方式可能...
在Python的Pandas库中,`read_csv`、`rolling`和`expanding`是三个非常重要的函数,分别用于读取CSV文件、处理滑动窗口统计和计算累计扩展统计。 `read_csv`函数用于从CSV文件中加载数据到DataFrame对象。在给定的...
在Python的Pandas库中,`read_csv`函数是一个非常重要的工具,用于读取CSV(Comma Separated Values)文件并将其转换为DataFrame对象。这个功能强大且灵活,支持多种选项来定制数据加载过程,满足各种数据分析需求。...
本篇将详细讲解如何使用pandas的`read_csv`函数来读取CSV文件,并结合提供的`test.csv`文件进行实例分析。 首先,确保已经安装了pandas库。如果没有安装,可以使用以下命令进行安装: ```bash pip install pandas ...
read_csv是pandas中专门用于csv文件读取的功能,不过这并不是唯一的处理方式。pandas中还有读取表格的通用函数read_table。 接下来使用read_table功能作一下csv文件的读取尝试,使用此功能的时候需要指定文件中的...
复制代码 代码如下:pd.read_csv(filepath_or_buffer, sep=’,’, delimiter=None, header=’infer’, names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, ...