- 浏览: 168763 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (173)
- Cocos2d-X (11)
- ubuntu (17)
- ofbiz (7)
- freemarker (1)
- nginx (9)
- redHat (7)
- SpringBoot (13)
- C# (0)
- PHP (2)
- Android (0)
- 咖啡豆 (7)
- Python (21)
- IONIC (8)
- AngularJS (1)
- 大鲸鱼 (10)
- 好玩的东西 (11)
- mysql 占用 (5)
- kelude (1)
- jS (0)
- Wx (1)
- H5-M500 (3)
- 开发即运维 (4)
- ReactNative (11)
- C++ (0)
- 其他杂项 (2)
- Truffle (1)
- WebLogic (0)
- Unity3D (0)
- WeChatMiniProgram (0)
- 小程序 (3)
- OLAP (1)
- ceb (1)
- 微信小程序 (2)
- 小程序undefined (1)
- 小程序机型问题 (1)
- Olingo (1)
- Cocos Creator (2)
- kylin (1)
- docker network (1)
最新评论
-
沈寅麟:
如果:[MySQL] specified key was to ...
OFBiz使用utf8mb4保存emoji -
沈寅麟:
从主机复制文件到容器里主机–>容器1,获取容器ID使用s ...
退出不关闭容器 -
沈寅麟:
conf.d/default.config---------- ...
Nginx配置AJP -
沈寅麟:
配置完nginx,在启动的时候遇到如下问题:nginx: [e ...
Nginx配置AJP -
沈寅麟:
docker commit [OPTIONS] CONTAIN ...
退出不关闭容器
read_csv 方法
返回数据类型:
DataFrame:二维标记数据结构
列可以是不同的数据类型,是最常用的pandas对象,如同Series对象一样接受多种输入:lists/dicts/Series/DataFrame。
Series:一维标记数组
可以存储任意数据类型:int/string/float/Python对象,创建Series方法例子:
s = Series(data, index = index)
# data可以是Python字典/ndarray/标量值
调用方式:
read_csv
(*filepath_or_buffer*, *sep='*, *'*, *delimiter=None*, *header='infer'*, *names=None*, *index_col=None*,*usecols=None*, *squeeze=False*, *prefix=None*, *mangle_dupe_cols=True*, *dtype=None*, *engine=None*,*converters=None*, *true_values=None*, *false_values=None*, *skipinitialspace=False*, *skiprows=None*, *nrows=None*,*na_values=None*, *keep_default_na=True*, *na_filter=True*, *verbose=False*, *skip_blank_lines=True*,*parse_dates=False*, *infer_datetime_format=False*, *keep_date_col=False*, *date_parser=None*, *dayfirst=False*,*iterator=False*, *chunksize=None*, *compression='infer'*, *thousands=None*, *decimal='.'*, *lineterminator=None*,*quotechar='"'*, *quoting=0*, *escapechar=None*, *comment=None*, *encoding=None*, *dialect=None*, *tupleize_cols=False*,*error_bad_lines=True*, *warn_bad_lines=True*, *skipfooter=0*, *skip_footer=0*, *doublequote=True*,*delim_whitespace=False*, *as_recarray=False*, *compact_ints=False*, *use_unsigned=False*, *low_memory=True*,*buffer_lines=None*, *memory_map=False*, *float_precision=None*)
参数:
filepath_or_buffer :
字符串,或者任何对象的read()方法。这个字符串可以是URL,有效的URL方案包括http、ftp、s3和文件。可以直接写入"文件名.csv"
header :
将行号用作列名,且是数据的开头。
注意当skip_blank_lines=True时,这个参数忽略注释行和空行。所以header=0表示第一行是数据而不是文件的第一行。
例子:
import pandas as pd
obj=pd.read_csv('ceshi.csv')
print obj
print type(obj)
print obj.dtypes
Unnamed: 0 c1 c2 c3
0 a 0 5 10
1 b 1 6 11
2 c 2 7 12
3 d 3 8 13
4 e 4 9 14
<class 'pandas.core.frame.DataFrame'>
Unnamed: 0 object
c1 int64
c2 int64
c3 int64
dtype: object
上述代码中ceshi.csv中的数据为:
因为csv中的数据都是用逗号隔开的。
,c1,c2,c3
a,0,5,10
b,1,6,11
c,2,7,12
d,3,8,13
e,4,9,14
代码将有列索引但没有行索引的数据,read_csv会自动添加上行索引(即使原数据有行索引)。
read_csv读取的数据类型为Dataframe
obj.dtypes可以查看每列的数据类型
obj_2=pd.read_csv('f:/ceshi.csv',header=None,names=range(2,5))
print obj_2
2 3 4
0 c1 c2 c3
1 0 5 10
2 1 6 11
3 2 7 12
4 3 8 13
5 4 9 14
header=None
即指明原始文件数据没有列索引,这样read_csv为自动加上列索引,除非你给定列索引的名字。
obj_2=pd.read_csv('f:/ceshi.csv',header=0,names=range(2,5))
print obj_2
2 3 4
0 0 5 10
1 1 6 11
2 2 7 12
3 3 8 13
4 4 9 14
header=0
表示文件第0行(即第一行,索引从0开始)为列索引,这样加names会替换原来的列索引。
parse_dates :
布尔类型值 or int类型值的列表 or 列表的列表 or 字典(默认值为 FALSE)
TRUE:则尝试解析索引
由int类型值组成的列表(例子 [1,2,3]):作为单独数据列,分别解析原始文件中的1,2,3列
由列表组成的列表(例子[[1,3]]):将1,3列合并,作为一个单列进行解析
字典(例子{‘foo’:[1, 3]}):解析1,3列作为数据,并命名为foo
index_col:
int类型值,序列,FALSE(默认 None)
将真实的某列当做index(列的数目,甚至列名)
例子:
obj_2=pd.read_csv('ceshi.csv',index_col=0)
print obj_2
c1 c2 c3
a 0 5 10
b 1 6 11
c 2 7 12
d 3 8 13
e 4 9 14
obj_2=pd.read_csv('ceshi.csv',index_col=[0,2])
print obj_2
c1 c3
c2
a 5 0 10
b 6 1 11
c 7 2 12
d 8 3 13
e 9 4 14
index_col为指定数据中那一列作为Dataframe的行索引,也可以可指定多列,形成层次索引,默认为None,即不指定行索引,这样系统会自动加上行索引。
squeeze:
布尔值,默认FALSE
TRUE 如果被解析的数据只有一列,那么返回Series类型。
data_parser:
函数,默认None
指定将输入的字符串转换为可变的时间数据。Pandas默认数据读取格式:‘YYYY-MM-DD HH:MM:SS’,若读取的数据不是默认格式,则要人工定义。定义例子:
def parser(x):
return datetime.strptime('190'+x, '%Y-%m')
#后面的就是输入的文件的格式
返回数据类型:
DataFrame:二维标记数据结构
列可以是不同的数据类型,是最常用的pandas对象,如同Series对象一样接受多种输入:lists/dicts/Series/DataFrame。
Series:一维标记数组
可以存储任意数据类型:int/string/float/Python对象,创建Series方法例子:
s = Series(data, index = index)
# data可以是Python字典/ndarray/标量值
调用方式:
read_csv
(*filepath_or_buffer*, *sep='*, *'*, *delimiter=None*, *header='infer'*, *names=None*, *index_col=None*,*usecols=None*, *squeeze=False*, *prefix=None*, *mangle_dupe_cols=True*, *dtype=None*, *engine=None*,*converters=None*, *true_values=None*, *false_values=None*, *skipinitialspace=False*, *skiprows=None*, *nrows=None*,*na_values=None*, *keep_default_na=True*, *na_filter=True*, *verbose=False*, *skip_blank_lines=True*,*parse_dates=False*, *infer_datetime_format=False*, *keep_date_col=False*, *date_parser=None*, *dayfirst=False*,*iterator=False*, *chunksize=None*, *compression='infer'*, *thousands=None*, *decimal='.'*, *lineterminator=None*,*quotechar='"'*, *quoting=0*, *escapechar=None*, *comment=None*, *encoding=None*, *dialect=None*, *tupleize_cols=False*,*error_bad_lines=True*, *warn_bad_lines=True*, *skipfooter=0*, *skip_footer=0*, *doublequote=True*,*delim_whitespace=False*, *as_recarray=False*, *compact_ints=False*, *use_unsigned=False*, *low_memory=True*,*buffer_lines=None*, *memory_map=False*, *float_precision=None*)
参数:
filepath_or_buffer :
字符串,或者任何对象的read()方法。这个字符串可以是URL,有效的URL方案包括http、ftp、s3和文件。可以直接写入"文件名.csv"
header :
将行号用作列名,且是数据的开头。
注意当skip_blank_lines=True时,这个参数忽略注释行和空行。所以header=0表示第一行是数据而不是文件的第一行。
例子:
import pandas as pd
obj=pd.read_csv('ceshi.csv')
print obj
print type(obj)
print obj.dtypes
Unnamed: 0 c1 c2 c3
0 a 0 5 10
1 b 1 6 11
2 c 2 7 12
3 d 3 8 13
4 e 4 9 14
<class 'pandas.core.frame.DataFrame'>
Unnamed: 0 object
c1 int64
c2 int64
c3 int64
dtype: object
上述代码中ceshi.csv中的数据为:
因为csv中的数据都是用逗号隔开的。
,c1,c2,c3
a,0,5,10
b,1,6,11
c,2,7,12
d,3,8,13
e,4,9,14
代码将有列索引但没有行索引的数据,read_csv会自动添加上行索引(即使原数据有行索引)。
read_csv读取的数据类型为Dataframe
obj.dtypes可以查看每列的数据类型
obj_2=pd.read_csv('f:/ceshi.csv',header=None,names=range(2,5))
print obj_2
2 3 4
0 c1 c2 c3
1 0 5 10
2 1 6 11
3 2 7 12
4 3 8 13
5 4 9 14
header=None
即指明原始文件数据没有列索引,这样read_csv为自动加上列索引,除非你给定列索引的名字。
obj_2=pd.read_csv('f:/ceshi.csv',header=0,names=range(2,5))
print obj_2
2 3 4
0 0 5 10
1 1 6 11
2 2 7 12
3 3 8 13
4 4 9 14
header=0
表示文件第0行(即第一行,索引从0开始)为列索引,这样加names会替换原来的列索引。
parse_dates :
布尔类型值 or int类型值的列表 or 列表的列表 or 字典(默认值为 FALSE)
TRUE:则尝试解析索引
由int类型值组成的列表(例子 [1,2,3]):作为单独数据列,分别解析原始文件中的1,2,3列
由列表组成的列表(例子[[1,3]]):将1,3列合并,作为一个单列进行解析
字典(例子{‘foo’:[1, 3]}):解析1,3列作为数据,并命名为foo
index_col:
int类型值,序列,FALSE(默认 None)
将真实的某列当做index(列的数目,甚至列名)
例子:
obj_2=pd.read_csv('ceshi.csv',index_col=0)
print obj_2
c1 c2 c3
a 0 5 10
b 1 6 11
c 2 7 12
d 3 8 13
e 4 9 14
obj_2=pd.read_csv('ceshi.csv',index_col=[0,2])
print obj_2
c1 c3
c2
a 5 0 10
b 6 1 11
c 7 2 12
d 8 3 13
e 9 4 14
index_col为指定数据中那一列作为Dataframe的行索引,也可以可指定多列,形成层次索引,默认为None,即不指定行索引,这样系统会自动加上行索引。
squeeze:
布尔值,默认FALSE
TRUE 如果被解析的数据只有一列,那么返回Series类型。
data_parser:
函数,默认None
指定将输入的字符串转换为可变的时间数据。Pandas默认数据读取格式:‘YYYY-MM-DD HH:MM:SS’,若读取的数据不是默认格式,则要人工定义。定义例子:
def parser(x):
return datetime.strptime('190'+x, '%Y-%m')
#后面的就是输入的文件的格式
发表评论
-
ImportError: No module named flask 但pip list 已经安装了 centeros
2020-07-30 18:37 494删除原有的用大写开头的Flask插件 pip unins ... -
CenterOS 安装Python3.7 环境
2020-07-30 17:15 598全部操作都在root用户下执行 1.安装编译相关工具 ... -
AttributeError: 'Request' object has no attribute 'is_xhr' flask 错误 ERROR in 报错
2020-04-10 15:08 802AttributeError: 'Request' objec ... -
pip install *太慢*无法下载*卡住*
2020-04-09 16:14 633直接用阿里云Pypi pip config set globa ... -
Jupyter Notebook 快捷键汇总
2019-09-12 17:57 413Jupyter Notebook 包含两种模式。一种是命令模式 ... -
线性相关及张成空间
2019-08-21 10:31 925为了使 A−1 存在,等式 Ax=b 对每个b 值有一个解。然 ... -
plt.subplot 图
2019-07-19 23:30 1099https://matplotlib.org/api/_as_ ... -
pandas.cut
2019-06-05 14:52 817pandas.cut用来把一组数据分割成离散的区间。比如有一组 ... -
Pandas 的melt的使用
2019-05-29 00:41 1464pandas.melt(frame, id_vars=None ... -
python3调用js的库之execjs
2019-05-10 10:14 2262执行JS的类库:execjs,PyV8,selenium,no ... -
matplotlib 中文乱码
2019-05-08 00:54 531import matplotlib.pyplot as p ... -
python input 输出 “Name 'XXX' is not defined
2019-05-04 11:50 1741names = input("Enter your ... -
Mac 控制台 终端始终 出现"(base)" ?
2019-05-03 18:32 4390那是因为你安装了Anaconda Jupyter 不要担心 这 ... -
S1-jieba分词
2018-05-08 16:06 564pip install jieba 简单用 ... -
新手扒图
2018-04-19 11:51 540新手写的比较拙劣 但达到效果了。 py是个好东西 ... -
DJango表单错误CSRF verification failed. Request aborted
2016-12-01 18:01 1177Django错误: [CSRF verification f ... -
dJangoの初习3
2016-10-14 16:10 639DJango 简单的GET 方式 传值,并返回打印到页面上. ... -
dJangoの初习2
2016-10-14 15:27 586应用、请求地址、与视图. 先创建一个项目用于实验. djan ... -
dJangoの初习1
2016-10-14 02:23 619DJango是一个开源Web应用框架,由python写成的[M ... -
Windows下部署python环境及基本使用
2016-10-13 16:45 8121.安装Python,现在自己安装,注意选择的目录 ...
相关推荐
在Pandas中,我们可以使用`read_csv()`函数加载CSV文件到DataFrame中。例如: ```python import pandas as pd users = pd.read_csv('users.csv') ``` 一旦数据被加载,我们可以通过列名访问数据,进行筛选、排序、...
通过`pd.read_csv()`等函数,可以方便地导入各种格式的数据,并用`.head()`, `.describe()`等方法进行初步探索。 2. **scikit-learn**:scikit-learn是Python中最受欢迎的机器学习库,提供了大量监督和无监督的学习...
`pd.read_csv()`和`pd.read_excel()`是常用的读取函数,而`DataFrame.to_csv()`和`DataFrame.to_excel()`用于写入。 3. **数据清洗**: 处理缺失值是数据分析的重要步骤。Pandas提供了`fillna()`, `dropna()`, `is...
df = pd.read_csv('Student_Alcohol.csv') ``` 一旦数据加载成功,我们可以查看数据的前几行以了解其结构和初步了解数据质量。可以使用`head()`函数实现: ```python print(df.head()) ``` 数据预处理是数据分析...
读csv 使用pandas读取 import pandas as pd import csv if name == '__main__': ...file_dataframe = pd.read_csv('../datasets/data_new_2/csv_file_name.csv', header=0, index_col=0, squeeze=True)
### pandas秘籍——详解pandas库的高级使用技巧 #### 1. 概述 《pandas秘籍》是一份详尽的指南,旨在帮助读者深入理解Python中pandas库的强大功能及其应用方法。该指南涵盖了从基础操作到高级数据分析的各种技术...
# data = pd.read_csv(csv_path, index_col=0) ``` 3. **修改CSV文件** 读取CSV文件到DataFrame后,可以直接对DataFrame进行修改,如添加、删除或更新数据。完成后,使用`to_csv()`方法将修改后的DataFrame重新...
通过pandas的`read_csv()`函数,我们可以将CSV文件加载到DataFrame中,便于进一步的数据筛选、清洗和分析。 例如,代码可能如下所示: ```python import pandas as pd # 读取CSV文件 participants = pd.read_csv('...
书中会讲解如何使用Pandas的read_csv、read_excel等函数导入数据,以及to_csv、to_excel等函数导出数据。 3. **数据清洗**:在数据分析过程中,数据清洗是非常重要的一步。Pandas提供了处理缺失值(NaN)、重复值、...
data = pd.read_csv('Advanced_Pandas_Exercises_datasets.txt', sep='\t', header=None) ``` 这里,`pd.read_csv()`函数用于读取文本文件,`sep='\t'`指定了分隔符为制表符(tab),`header=None`表示文件中没有...
在处理学生成绩数据时,我们通常会导入CSV或Excel文件,Pandas的`read_csv()`或`read_excel()`函数可以帮助我们快速加载数据。例如: ```python import pandas as pd # 加载CSV文件 df = pd.read_csv('学生成绩....
在Python中,加载CSV文件可以使用`pandas.read_csv()`函数,如下: ```python import pandas as pd data = pd.read_csv('iris.csv') ``` 对于TXT文件,可以使用`pandas.read_table()`或`pd.read_csv()`(当分隔符...
Pandas的`read_csv`函数能够轻松读取CSV文件,并将其转化为DataFrame。我们可以查看数据集的前几行,以了解其结构: ```python pokemon_data.head() ``` **公司员工数据集**可能包括员工的个人信息、工资、部门等...
例如,可以使用`pd.read_csv()`或`pd.read_excel()`函数导入数据,通过`dropna()`删除缺失值,使用`groupby()`对数据进行分组统计,或者用`apply()`执行自定义函数。 接下来,pyecharts是一个用于生成ECharts图形的...
在Python中,我们可以使用pandas的`read_csv()`函数来读取这样的文件。例如: ```python import pandas as pd data = pd.read_csv('zhihuyonghu.csv') ``` 接着,我们对数据进行预处理。预处理是数据分析的重要...
综上所述,这个项目涉及到的关键IT知识点包括:数据读取(Pandas的`read_csv()`/`read_excel()`),数据筛选(条件索引),数据排序(`sort_values()`),数据导出(`to_excel()`/`to_csv()`),数据清洗,以及可能...
在Python中,我们常用的数据加载库是Pandas,其提供了`read_csv()`、`read_excel()`、`read_sql()`等函数用于读取不同格式的数据。在这个项目中,可能使用了`read_csv()`函数来加载商铺数据,这通常是CSV或逗号分隔...