需求是:为了知道搜索引擎通过哪些关键词到达站点,需要对url进行反编码,google了一下(怕没机会用了),看到可可熊的链接:http://cocobear.info/blog/2008/08/11/tool-of-python-url-encode/,还有其他不错链接,在此表示感谢。
借鉴了转码方法,主要针对国内几个主流搜索引擎,代码如下,留作纪念:
import urllib
import sys,getopt,re
searchEngines = {'http://www.google.com': 'q=',
'http://www.google.cn': 'q=',
'http://www.baidu.com': 'wd=',
'http://www.soso.com': 'w=',
'http://www.youdao.com': 'q='}
def getQueryString(url):
queryStr = ''
for k, v in searchEngines.items():
index = url.find(k)
if index == 0:
print k
startIndex = url.find(v)
print startIndex
if startIndex > 0:
endIndex = url.find('&', startIndex)
print endIndex
if endIndex == -1:
queryStr = url[startIndex+len(v):]
else:
queryStr = url[startIndex+len(v):endIndex]
return queryStr
def url2read(s):
s = urllib.unquote(s)
try:
print '11111111111111\n'
s = s.decode('utf-8')
except UnicodeDecodeError:
print '2222222222222\n'
s = s.decode('gbk')
if __name__ == "__main__":
# url2read('%C0%F6%BD%AD')
# url2read('%E4%B8%BD%E6%B1%9F')
s1 = getQueryString(r'http://www.google.com/search?hl=en&source=hp&q=%E4%B8%BD%E6%B1%9F&aq=f&oq=&aqi=');
s2 = getQueryString(r'http://www.baidu.com/s?wd=%C0%F6%BD%AD')
url2read(s1)
url2read(s2)
分享到:
相关推荐
本项目"基于Python的搜索引擎设计与实现"聚焦于利用Python技术来创建一个功能完备的搜索系统,涵盖从数据抓取、预处理到索引建立、查询处理等多个关键步骤。 1. **数据抓取**:搜索引擎的第一步是获取网页数据。...
总之,通过Python编写Bing搜索引擎的搜索结果抓取脚本,涉及到了网络请求、HTML解析、反爬策略、爬虫框架以及可能的人工智能应用等多个IT领域的知识点。通过实践,不仅可以提升编程技能,还能对互联网数据有更深入的...
Python分布式爬虫是现代互联网数据抓取的重要技术,它结合了Python编程语言的强大功能和分布式系统的高效处理能力,用于构建自定义的搜索引擎。本压缩包包含的资源是关于使用Python实现分布式爬虫以及构建搜索引擎的...
在这个百度网盘搜索引擎中,Python扮演着核心角色,负责实现爬虫逻辑、数据解析以及结果展示等功能。 3. **人工智能**:虽然这里的“人工智能”可能不是指复杂的机器学习模型,但搜索引擎的优化和智能化趋势意味着...
音乐搜索引擎是一种在线工具,它允许用户通过输入特定关键词来查找并播放他们喜欢的音乐。基于Python开发的音乐搜索引擎利用了Python的强大功能和丰富的库资源,为用户提供了一个高效、便捷的音乐搜索平台。 ...
对于Bing和百度的搜索引擎爬虫,Spider需要构造相应的请求URL,携带搜索关键词,然后解析返回的HTML或JSON数据,提取出搜索结果的相关信息,如标题、链接、摘要等。 在Scrapy中,Item是定义要抓取的数据结构,类似...
主页展示新闻搜索引擎的入口,用户可以通过搜索框输入关键词,开始查询。 4.2 搜索结果展示 搜索结果按照相关性、时间和热度排序,每个新闻条目包括标题、摘要、来源和发布时间等信息。 4.3 词条正文展示 点击新闻...
【基于Python的搜索引擎设计与实现】是一篇专为专科和本科毕业生编写的原创毕业论文,旨在探讨如何利用Python语言构建一个搜索引擎。论文详尽地介绍了搜索引擎的基本原理、Python编程基础以及实际开发过程中的关键...
"Python-becausemoe动漫流媒体搜索引擎"是一个利用Python技术构建的专门针对动漫流媒体内容的搜索引擎项目。这个项目的核心是帮助用户快速、方便地找到他们感兴趣的动漫资源,通过高效检索算法,提供个性化的搜索...
北邮人论坛全站搜索引擎是基于Python编程语言开发的一个高效、便捷的信息检索工具,它能够帮助用户快速在北邮人论坛的海量数据中找到所需信息。这个搜索引擎的实现结合了计算机科学中的信息检索理论和Python的技术...
爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...
标题中的“Python脚本,百度关键词挖掘拓展脚本,无限循环爬取”表明这是一个使用Python编程语言编写的脚本,其主要功能是针对百度搜索引擎进行关键词的挖掘与扩展,并且具备无限循环爬取的能力。这样的脚本在SEO...
5. **查询处理**:当用户输入查询时,搜索引擎会解析查询、扩展关键词,并在索引中查找匹配的文档。 6. **结果排序**:最后,搜索引擎会根据某种排名算法(如TF-IDF,PageRank等)对搜索结果进行排序,以便最相关的...
3. 用户在qBittorrent中输入关键词进行搜索,插件将搜索请求转化为对应的搜索引擎API调用。 4. 搜索结果返回后,插件将结果显示在qBittorrent的界面上,用户可以一键选择并添加种子到下载队列,无需手动复制粘贴磁力...
在本项目中,我们将深入探讨一个使用Python编写的百度搜索引擎的源代码案例。这个案例旨在帮助开发者理解如何利用Python进行网络爬虫开发以及如何构建简单的搜索引擎。以下是对该项目的关键知识点的详细说明: 1. *...
在搜索引擎中,用户可能通过表单输入关键词进行搜索。 7. **部署**:完成开发后,Flask应用可以通过Gunicorn或uWSGI等WSGI服务器,配合Nginx反向代理进行部署。 结合以上知识点,本项目实现了从51job网站爬取职位...
标题中的“人工智能-项目实践-搜索引擎-定期从搜索引擎获取关键词相关信息”揭示了这是一个关于人工智能应用的项目,具体涉及搜索引擎的使用,目标是周期性地抓取与特定关键词相关的网络信息。这个项目可能涉及到...
一个Python模块用于抓取几个搜索引擎bd,gg,soso 实现一个Python模块用于抓取几个搜索引擎,可以按照以下概念进行设计: 1. **搜索引擎选择:** 选择几个目标搜索引擎,如Google、Bing、Baidu等。 2. **构建搜索...
### Python解析URL中关键字资料 #### 知识点概述 在Web开发与数据抓取过程中,经常需要对URL进行解析,以获取其中的关键字参数。本篇内容将围绕一段用于测试目的的URL集合,深入探讨如何使用Python语言来解析这些...
7. **前端展示**:最后,设计一个简单的前端界面,用户可以通过输入关键词,从搜索引擎中检索已爬取的文章。 总结来说,通过Python的Scrapy框架,结合分布式爬虫技术,我们可以构建出一个高效的网页数据抓取系统。...