`
eric_weitm
  • 浏览: 242133 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

pandas 小技巧

 
阅读更多

1、筛选数据

complaints[['Complaint Type', 'Borough']][:10]

 

is_noise = complaints['Complaint Type'] == "Noise - Street/Sidewalk"

in_brooklyn = complaints['Borough'] == "BROOKLYN"

complaints[is_noise & in_brooklyn][:5]

2、计数

complaint_counts = complaints['Complaint Type'].value_counts()

complaint_counts[:10]

3、分类计数

weekday_counts = berri_bikes.groupby('weekday').aggregate(sum)

4、合并

weather_2012 = pd.concat([f(x) for x in l])

5、字符串操作

 weather_2012['Weather'].str.contains('Snow')

6、修改采样频率(可以获得更宏观的图形)

weather_2012['Temp (C)'].resample('M').apply(np.median)

median:中位数 mean:均值

 

7、清理数据

http://nbviewer.jupyter.org/github/jvns/pandas-cookbook/blob/master/cookbook/Chapter%207%20-%20Cleaning%20up%20messy%20data.ipynb

 

rows_with_dashes = requests['Incident Zip'].str.contains('-').fillna(False)

long_zip_codes = requests['Incident Zip'].str.len() > 5

requests['Incident Zip'][long_zip_codes].unique()

 

zips = zips.str.slice(0, 5)

zero_zips = zips == '00000'

zips[zero_zips] = np.nan

 

zips = requests['Incident Zip']

is_close = zips.str.startswith('0') | zips.str.startswith('1')

is_far = ~(is_close) & zips.notnull()

8、时间转换

popcon['atime'] = pd.to_datetime(popcon['atime'], unit='s')

popcon = popcon[popcon['atime'] > '1970-01-01']

nonlibraries = popcon[~popcon['package-name'].str.contains('lib')]

9、与数据库交互

con = sqlite3.connect("../data/weather_2012.sqlite")

df = pd.read_sql("SELECT * from weather_2012 LIMIT 3", con, 

                 index_col=['id', 'date_time'])

con.execute("DROP TABLE IF EXISTS weather_2012")

weather_df.to_sql("weather_2012", con)

分享到:
评论

相关推荐

    11个Python Pandas小技巧让你的工作更高效(附代码实例)

    ### 11个Python Pandas小技巧让你的工作更高效(附代码实例) #### 小技巧1:使用`read_csv`的高级功能 - **简介**:`read_csv`是Pandas中最常用的功能之一,用于从CSV文件加载数据。当你面对庞大的数据集时,通过...

    【技巧】11 个 Python Pandas 小技巧让你更高效

    市面上有很多关于Pandas的经典教程,但本文介绍几个隐藏的炫酷小技巧,我相信这些会对你有所帮助。 1. read_csv这是读取数据的入门级命令。当要你所读取的数据量特别大时,试着加上这个参数 nrows = 5,就可以在...

    pandas处理excel报表

    总的来说,Pandas是处理Excel报表的强大工具,无论你是数据分析师还是科研工作者,掌握Pandas的使用技巧都能极大地提升你的工作效率。通过持续学习和实践,你可以更好地利用Pandas解决实际问题,满足不同场景的需求...

    python pandas

    最后,文档提到了一个cookbook,这通常是一个实用指南,其中可能包含了各种pandas使用的“食谱”,比如多索引、分组、时间序列、合并以及绘图等高级技巧。通过这些“食谱”,用户可以找到特定问题的解决方案,例如...

    pandas秘籍

    ### pandas秘籍——详解pandas库的高级使用技巧 #### 1. 概述 《pandas秘籍》是一份详尽的指南,旨在帮助读者深入理解Python中pandas库的强大功能及其应用方法。该指南涵盖了从基础操作到高级数据分析的各种技术...

    pandas可视化练习数据.rar

    在练习数据中,可能包含了几种不同类型的文件,每种文件可能代表不同的数据集,用于练习不同的图表类型和分析技巧。例如,你可能需要练习如何用Pandas画出频率分布的直方图,或者如何通过散点图探索两个变量之间的...

    Pandas实现数据类型转换的一些小技巧汇总

    在数据分析领域,Pandas 是一个不可或缺的工具,它提供了丰富的功能来处理和转换数据。数据类型是数据分析的基础,正确的数据类型选择能够确保计算的...通过熟练掌握这些小技巧,可以更高效地进行数据清洗和分析工作。

    Pandas表格样式设置指南

    在数据分析领域,Pandas库是Python编程语言中的一个不可或缺的工具。它提供了高效的数据结构,如DataFrame和Series,便于处理和分析数据。...通过熟练掌握这些技巧,你的数据报告将更具吸引力和影响力。

    Pandas数据分析120道训练题.pdf

    #### 一、Pandas基础知识与进阶技巧 **1. 分组填充空值** - **知识点解析**: - **分组**: 在Pandas中使用`groupby()`方法对数据进行分组。 - **填充空值**: 使用`fillna()`方法填充数据中的空值或缺失值。 - *...

    pandas 使用均值填充缺失值列的小技巧分享

    ### pandas使用均值填充缺失值列的小技巧分享 在数据预处理阶段,处理缺失值是一项非常重要的任务。缺失值的存在可能会导致模型训练不准确或预测结果偏差等问题。Python中的pandas库提供了强大的数据处理功能,其中...

    Learning Pandas 2 edition

    在具体的内容方面,书籍可能涵盖了从Pandas库的安装、基础数据结构和操作、数据清洗、数据分析、数据可视化到进阶数据处理技巧的广泛主题。此外,Jupyter Notebook的使用方法,如何在其中集成Pandas代码进行交互式...

    大数据Python数据分析处理库-pandas实战:Pandas代码

    大数据Python数据分析处理库-pandas实战:Pandas代码 新的 da ta Pandas练习题.ipynb 17-apply操作.ipynb 16-大 数据处理技巧.ipynb 16-大数据处理.ipynb 15-Pandas绘图. ipynb 14-索引2.ipynb 13-字符串操作.ipynb ...

    pandas参数设置的实用小技巧

    在日常使用pandas的过程中,由于我们所分析的数据表规模、格式上的差异,使得同样的函数或方法作用在不同数据上的效果存在差异。 而pandas有着自己的一套参数设置系统,可以帮助我们在遇到不同的数据时灵活调节从而...

    pandas.DataFrame 基本技巧

    在Python数据分析领域,pandas库中的DataFrame是处理二维表格数据的核心工具。本篇文章将深入探讨DataFrame的一些基本技巧,包括数据查看、转置、删除、对齐排序等操作。 首先,我们来看数据查看的方法。`head()`...

    pandas使用工作技能总结

    ### pandas中字符串使用技巧 #### 1. 基本介绍 Pandas 提供了一系列用于处理字符串的方法,这些方法可以帮助我们轻松地完成字符串的清洗和转换任务。 #### 2. 使用方法 **2.1 大小写转换 lower** - `df['A'].str...

    pandas-td-0.8.8.tar.gz

    6. **性能优化**:可能包含关于提高数据导入和查询速度的技巧,例如分块上传、并行处理等。 7. **新功能或改进**:查阅官方文档或 release notes,了解这个版本相较于之前的更新,可能包括新的 API、性能提升或其他...

    Python数据分析实践:Pandas数据可视化new.pdf

    在Python数据分析领域,Pandas库不仅提供了强大的数据处理能力,还内置了数据可视化功能,使得数据分析与展示变得更为直观和高效。...在实际工作中,熟练掌握这些可视化技巧能帮助我们更有效地进行数据探索和交流。

Global site tag (gtag.js) - Google Analytics