由于想抓一些网页..
完成以下动作:
进入网站, 搜索关键字,把搜索的结果抓取出来,再进入结果页面抓取数据
but发现上述关键字进行了编码处理.
在javaeye 找到相关介绍:
原文:
http://www.iteye.com/topic/286240
http://www.iteye.com/topic/286810
但是是java实现. .
经过努力,转为Python代码:
#conding:utf-8
#码表[a-z, 2-7]
KEY = "abcdefghijklmnopqrstuvwxyz234567"
#16进制转为2进制,不够8位, 前面补0
def bin(x):
result = ''
while x > 0:
mod = x % 2
x /= 2
result = str(mod) + result
while len(result) != 8: result = '0%s' % result
print result
return result
def enCode(keys):
encode = ''
for char in keys:
encode = "%s%s" % (encode, bin(ord(char)))
encode = list(encode)
fols = []
for i in range(len(encode)/5 +1):
bstr = ''.join(encode[:5])
while len(bstr) < 5 : bstr = '%s0' % bstr
fols.append(int(bstr, 2))
del encode[:5]
return map(lambda x : KEY[x], fols)
if '__main__' == __name__:
print ''.join(enCode('中文'))
....呵呵,还是PYthon 强大!!!
这是更改后的代码, 看了一些pythoner,徐诶的代码,
差距还是很大啊...呵呵, 加油
分享到:
相关推荐
3. **处理百分号编码**:当从URL中解析出关键字时,需要注意解码百分号编码,以便得到正确的字符串。可以使用`urllib.parse.unquote`函数来实现这一点。 4. **不同搜索引擎的URL差异**:不同的搜索引擎其URL的结构...
淘宝URL中常见的编码场景包括商品ID、店铺ID、搜索关键词等,这些都可能包含特殊字符,需要进行编码以确保URL的正确解析。例如,商品ID可能是一个数字与字母混合的字符串,如果直接包含在URL中,可能会导致解析错误...
网上也有一些代码,大部分都是通过输入的关键字来识别编码,并解码。但是搜索引擎得到的referer来源地址上的关键字是通过URLencode编码过的,而且各个网站的关键字Urlencode编码都不一样,gbk,utf-8,gb2312等等。
在JavaScript中,"&"字符是分隔URL参数的关键字,但它是URL编码的一部分,可能导致解析错误。因此,在JavaScript中,通常使用`encodeURI()`或`encodeURIComponent()`函数,并在服务器端使用相应的解码函数来正确处理...
主要用于百度统计关键词的的小工具,他可以把关键词编入访问页面中的url中 ,进行编码,可以统计到具体用户是通过搜索哪个关键词进入我们网站咨询的。
还有就是保留字符和保留关键字,它们在URL中有特殊含义,必须在使用时进行编码,以避免混淆。 总的来说,“小工具URL编码”是一个实用的开发辅助工具,对于处理URL中的特殊字符问题非常有帮助。通过开源的源码,...
1. "关键字编码转换.exe":这是主程序,负责执行关键字的编码和解码操作。 2. "config.ini":配置文件,可能包含了用户的设置,如编码方式、关键字列表等。 3. "复件 转换后的网址.txt":可能是转换后实际发布的网址...
在本文中,我们将深入探讨如何使用Java调用Bing Search API来搜索关键字。Bing Search API是微软提供的一个服务,允许开发者集成Bing搜索引擎的功能,从而在程序中进行网络搜索。我们将通过一个简单的Java示例代码来...
研究了不同的url规则发现:只要在搜索关键字是用=嫁接的,查询的关键在解析后的query里 如果不是用=嫁接,查询的关键在解析后的path里。 解析的规则都是一样的,正则如下:(6中不同情况的组合) 另外host为‘s....
《易语言百度关键字提示》是一款基于易语言编程的软件,主要功能是提供百度搜索引擎的关键字提示服务。通过读取网页内容,实现对用户输入的关键词进行联想和补充,以帮助用户快速找到想要搜索的信息。这款软件的核心...
通过给定的不同搜索引擎的测试URL,可以验证函数是否能正确提取出关键字。 ### 4. 安全性考虑 虽然文档中未明确提及安全性问题,但在实际应用中需要注意以下几点: - **防止XSS攻击**:确保处理后的关键字不会被...
- 文档提到可以使用回车符(chr(13)&chr(10))作为空格的替代,其URL编码形式为%0d%0a。 - 此外,还可以仅使用%0d或%0a单独作为分割符,在MSSQL、MySQL和Access等数据库中均有效。 2. **多语句问题**: - 传统上...
在iOS开发中,URL编码和解码是处理网络请求时必不可少的部分。URL(统一资源定位符)有时会包含特殊字符,这些字符在HTTP协议中可能具有特殊含义,因此需要进行编码以确保数据的正确传输。本文将详细讲解如何在...
最后,为了增强安全性,可以结合其他安全技术,如参数化查询、输入验证、输出编码等,共同构建一套完整的防御体系。 总之,`BadWordsFilter.cs`文件中的`BadWordsFilter`类实现了ASP.NET(C#)的关键字过滤功能,通过...
关于中文URL已经是老话题了,到目前为止依然有很大一部分SEOer都会说不要使用中文URL,对搜索引擎不友好。 不过,那已经是以前的事了,谷歌很早就支持了中文URL,当时百度技术没有跟上,URL中会出现乱码。 在谷歌的...
开发者通过构造特定的URL请求,模拟用户搜索行为,然后解析返回的HTML页面,提取出关键词的排名信息。 关键词排名查询的核心在于如何准确、高效地解析百度搜索结果的HTML。由于旧版本的网页编码可能存在GBK2312的...
在当今信息网络时代,URL编码与解码是网络编程中的一项基础而关键的操作。它主要解决的是将含有特殊字符的字符串转换为安全的网络传输格式,并能在接收端还原为原始格式的技术问题。随着互联网的普及,对于这类问题...