pygGTrends
为了自动得获取Google趋势搜索的结果,最初考虑国使用socket来实现,但是一直没法登录,——我是抓包之后完全模拟这个过程,很可惜这条路没走通。后来,在网上搜到一个Python的脚本文件,于是乎就开始鼓弄这些东西。
该脚本相关资料参考:
Programmatic Google Trends API
suryasev/unofficial-google-trends-api
Google趋势搜索说明文档
接下来,汇总一下这一天时间的一些收获,主要在代码上,——实实在在的只为项目,得到结果即可,不关注效率等。
第一阶段
:需要处理词语的预处理,即生成Python可读取的数组结构的二进制文件。具体过程打算用JAVA来实现,下面给出了一个实例。
词组形式:
content=['要','花','要角','得住','你追我','故地重游']
对应的二进制文件形式:
(lp1
S'\xe8\xa6\x81'
p2
aS'\xe8\x8a\xb1'
p3
aS'\xe8\xa6\x81\xe8\xa7\x92'
p4
aS'\xe5\xbe\x97\xe4\xbd\x8f'
p5
aS'\xe4\xbd\xa0\xe8\xbf\xbd\xe6\x88\x91'
p6
aS'\xe6\x95\x85\xe5\x9c\xb0\xe9\x87\x8d\xe6\xb8\xb8'
p7
a.
读取该文件的部分代码为:
import cPickle as p
f=file('testxu')
storedfile=p.load(f)
#print storedfile
for word in storedfile:
#输出数组
print word
第二阶段
:读入预处理后的文件,进行后续处理,处理结果保存在文件中
调试代码如下:
import cPickle as p
from pyGTrends import pyGTrends
words=['奥兰','奥利萨德贝','奥卡姆','奥卡姆剃刀','奥古斯丁','奥古斯都','奥地利','奥地利帝国','奥塞罗','奥塞罗特']
for i in words:
print '**********************************************'
connector = pyGTrends('tdk.xumm@gmail.com','******') connector.download_report((i),date='ytd',scale=0)
#print connector.csv()
resultfile =i
result=connector.csv()
#
f=file(resultfile,'w')
p.dump(result,f)
f.close()
del result
#
f=file(resultfile)
storedfile = p.load(f)
print storedfile
print '**********************************************'
第三阶段
:解析第二阶段获取的数据,做进一步处理,该部分使用java实现
保存结果格式如下所示:
S'ea\xc6,ea\xc6 (std error),ea\xc6C\x00,ea\xc6C\x00 (std error)\nApr 6 2008 , 0 , >10% , 0 , >10%\nApr 13 2008 , 0 , >10% , 0 , >10%\nApr 20 2008 , 0 , >10% , 0 , >10%\nApr 27 2008 , 0 , >10% , 0 , >10%\nMay 4 2008 , 0 , >10% , 0 , >10%\nMay 11 2008 , 0 , >10% , 0 , >10%\nMay 18 2008 , 0 , >10% , 0 , >10%\nMay 25 2008 , 0 , >10% , 0 , >10%\nJun 1 2008 , 0 , >10% , 0 , >10%\nJun 8 2008 , 0 , >10% , 0 , >10%\nJun 15 2008 , 0 , >10% , 0 , >10%\nJun 22 2008 , 0 , >10% , 0 , >10%\nJun 29 2008 , 0 , >10% , 0 , >10%\nJul 6 2008 , 0 , >10% , 0 , >10%\nJul 13 2008 , 0 , >10% , 0 , >10%\nJul 20 2008 , 0 , >10% , 0 , >10%\nJul 27 2008 , 0 , >10% , 0 , >10%\nAug 3 2008 , 0 , >10% , 0 , >10%\nAug 10 2008 , 0 , >10% , 0 , >10%\nAug 17 2008 , 0 , >10% , 0 , >10%\nAug 24 2008 , 0 , >10% , 0 , >10%\nAug 31 2008 , 0 , >10% , 0 , >10%\nSep 7 2008 , 0 , >10% , 0 , >10%\nSep 14 2008 , 0 , >10% , 0 , >10%\nSep 21 2008 , 0 , >10% , 0 , >10%\nSep 28 2008 , 0 , >10% , 0 , >10%\nOct 5 2008 , 0 , >10% , 0 , >10%\nOct 12 2008 , 0 , >10% , 0 , >10%\nOct 19 2008 , 0 , >10% , 0 , >10%\nOct 26 2008 , 0 , >10% , 0 , >10%\nNov 2 2008 , 0 , >10% , 0 , >10%\nNov 9 2008 , 0 , >10% , 0 , >10%\nNov 16 2008 , 0 , >10% , 0 , >10%\nNov 23 2008 , 0 , >10% , 0 , >10%\nNov 30 2008 , 0 , >10% , 0 , >10%\nDec 7 2008 , 0 , >10% , 0 , >10%\nDec 14 2008 , 0 , >10% , 0 , >10%\nDec 21 2008 , 0 , >10% , 0 , >10%\nDec 28 2008 , 0 , >10% , 0 , >10%\nJan 4 2009 , 0 , >10% , 0 , >10%\nJan 11 2009 , 0 , >10% , 0 , >10%\nJan 18 2009 , 0 , >10% , 0 , >10%\nJan 25 2009 , 0 , >10% , 0 , >10%\nFeb 1 2009 , 0 , >10% , 0 , >10%\nFeb 8 2009 , 0 , >10% , 0 , >10%\nFeb 15 2009 , 0 , >10% , 0 , >10%\nFeb 22 2009 , 0 , >10% , 0 , >10%\nMar 1 2009 , 0 , >10% , 0 , >10%\nMar 8 2009 , 0 , >10% , 0 , >10%\nMar 15 2009 , 0 , >10% , 0 , >10%\nMar 22 2009 , 0 , >10% , 0 , >10%\nMar 29 2009 , 0 , >10% , 0 , >10%\nApr 5 2009 , 0 , >10% , 0 , >10%'
p1
.
注:以上文件是UTF-8编码的二进制内容,检索词是“奥卡姆”和“奥卡姆剃刀”。
需要说明的几个问题:
1、每次查询都要登录,怀疑Google是否会有相关限制,——待测试;
2、每次查询提交的关键词应该大于1个,否则返回结果会有误,可能会将每个字节作为关键词进行查询,这应该是代码中的一个bug;
3、各查询参数还需要再研究。
添加:
:20090408
第一阶段不用这样做了,可以采用以下代码段,实现逐行读取文件到一个元组中:
import re
filename='sohu_women.dict'
fp = open(filename, "r")
content = fp.readlines()
for i in content:
print i
分享到:
相关推荐
python编程资料,实用,可自行学习.除此之外还可学习机器学习算法。
【Python机器学习基础】 Python作为机器学习的首选语言,因其简洁的语法和强大的库支持而备受推崇。在开始机器学习之旅之前,首先需要掌握Python的基础编程技能。这包括理解变量、数据类型、控制结构(如if-else,...
在本文中,我们将深入探讨"Python机器学习案例"这一主题,包括Logistic回归、K-均值聚类和随机森林等重要算法的应用。这些技术在数据科学领域具有广泛的应用,帮助我们从数据中发现模式、预测未来趋势以及进行决策。...
小白必备 ,从0开始学PYTHON教程 ,PYTHON学习教程, 小白必备 ,从0开始学PYTHON教程 ,PYTHON学习教程 小白必备 ,从0开始学PYTHON教程 ,PYTHON学习教程 小白必备 ,从0开始学PYTHON教程 ,PYTHON学习教程 小白...
基于python强化学习与深度强化学习的游戏AI训练源码.zip基于python强化学习与深度强化学习的游戏AI训练源码.zip基于python强化学习与深度强化学习的游戏AI训练源码.zip基于python强化学习与深度强化学习的游戏AI训练...
cifar-10-pythonPython深度学习基于PyTorchcifar-10-pythonPython深度学习基于PyTorchcifar-10-pythonPython深度学习基于PyTorchcifar-10-pythonPython深度学习基于PyTorchcifar-10-pythonPython深度学习基于...
python机器学习资料小合集,包括机器学习十大算法以及python机器学习等资料指导,一些训练常用的代码和数据集
【Python学习小项目】 在编程世界中,Python以其简洁易读的语法和强大的库支持而备受青睐,尤其适合初学者入门。"Python学习小项目"是专为刚刚接触编程或Python语言的人设计的一系列实践练习,旨在帮助他们巩固基础...
总的来说,《零基础入门学习Python》结合小甲鱼在B站的视频教程,提供了一个全面且易懂的学习路径,让初学者能够轻松踏入Python的世界,开启编程之旅。无论是为了个人兴趣,还是为了职业发展,这都是一个很好的起点...
Python中,进行机器学习研究和应用的库非常丰富。Numpy提供了高效的多维数组运算,是许多科学计算的基础。Scipy是科学计算工具集,包含了统计、信号处理、线性代数等模块,Scikit-learn依赖于Scipy的sparse函数。...
《Python学习手册(第3版)》讲述...除了有许多详实说明和每章小结之外,每章还包括一个头脑风暴:这是《Python学习手册(第3版)》独特的一部分,配合以实用的练习题和复习题,让读者练习新学的技巧并测试自己的理解程度。
"零基础学python"这个压缩包很可能是针对初学者设计的一系列学习资料,旨在帮助没有编程背景的人逐步掌握Python编程。 在学习Python的过程中,以下几个关键知识点是必不可少的: 1. **基础语法**:Python的基础...
Python深度学习课程大作业;Python深度学习课程大作业;Python深度学习课程大作业;Python深度学习课程大作业;Python深度学习课程大作业;Python深度学习课程大作业;Python深度学习课程大作业;Python深度学习课程...
pandas-data-pythonPython深度学习基于PyTorchpandas-data-pythonPython深度学习基于PyTorchpandas-data-pythonPython深度学习基于PyTorchpandas-data-pythonPython深度学习基于PyTorchpandas-data-pythonPython深度...
基于python深度学习的水果识别系统代码.zip基于python深度学习的水果识别系统代码.zip基于python深度学习的水果识别系统代码.zip基于python深度学习的水果识别系统代码.zip基于python深度学习的水果识别系统代码.zip...
torchvision_data-pythonPython深度学习基于PyTorchtorchvision_data-pythonPython深度学习基于PyTorchtorchvision_data-pythonPython深度学习基于PyTorchtorchvision_data-pythonPython深度学习基于PyTorch...
python机器学习实战文档代码,python机器学习实战文档代码
netG_streetview-pythonPython深度学习基于PyTorchnetG_streetview-pythonPython深度学习基于PyTorchnetG_streetview-pythonPython深度学习基于PyTorchnetG_streetview-pythonPython深度学习基于PyTorchnetG_street...
这个"Python学习资料整理"压缩包包含了一系列的学习资源,旨在帮助初学者和进阶者提升Python编程技能。 首先,Python的基础知识是理解其语法结构,包括变量、数据类型(如整型、浮点型、字符串、布尔型、列表、元组...
机器学习python源代码