URL编码解析python

Ryee

浏览: 286937 次
性别:
来自: 上海

最近访客更多访客>>

faxMonkey

kt007time

u010833547

祥之北漂

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

SEO技术

Python 脚本 Linux 搜索引擎 F#

解析编码的python脚本，我们经常看到从搜索引擎过来的referr带有很长的一串编码，如果能将其转化成我们可以看得懂的汉字呢，下面是一个小的脚本来完成这样的事情。感谢cocobear的提供。

import urllib
import sys,getopt,re
__doc__ = """Usage:
           ./url2read.py -h
           ./url2read.py -r ftp://cocobear.info/中国
           ./url2read.py http://cocobear.info/%E4%B8%AD%E5%9B%BD
       """

 
def url2read(s):

    s = urllib.unquote(s)
    try: 
            s = s.decode('utf-8')
    except UnicodeDecodeError:
            s = s.decode('gbk')
    finally:
            print s.encode(sys.stdin.encoding)


def read2url(s):
    head = ''
    g = re.search('^(http|ftp://)(.*)',s)
    if g:
        head = g.group(1)
        s = g.group(2)
    gbk = urllib.quote(s.decode(sys.stdin.encoding).encode('gbk'))

    utf8 = urllib.quote(s.decode(sys.stdin.encoding).encode('utf-8'))
    if gbk == utf8:
        print head+gbk
        return 0
    else:
        print "UTF8:\n"+head+utf8
        print "GBK:\n"+head+gbk
        return 0

def main(argv=None):
    f = False
    if len(sys.argv) < 2:
        print __doc__
        return 1
    try:
        opts,args = getopt.getopt(sys.argv[1:],"h,r",["help","reverse"])
    except getopt.error,msg:
        print msg
        print __doc__
        return 1
    for o,a in opts:
        if o in ("-h","--help"):
            print __doc__
            return 0
        if o in ("-r","--reverse"):
            f = True
    for arg in args: 
        if f:
            return read2url(arg)
        else:
            return url2read(arg)
    
    
if __name__ == "__main__":
    sys.exit(main())

做个示例,使用该程序在命令行下获取“\”的URL 编码：
[cocobear@cocobear sn]$ ./url2read.py -r ""'\'""
GBK:
%5C
UTF8:
%5C

注意这里由于存在shell的解释，需要这样把“\”围起来。

这个脚本可以很好的在Linux与Windows下使用，贴代码：

分享到：

一个检测百度关键字网站排名的python 程序 ... | 搜索引擎批量查询控制脚本

2010-10-18 15:09
浏览 1373
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

URL编码解析python

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

URL编码解析python

评论

发表评论

相关推荐

js和css的合并

关键词分析方法TDK

SEO中的图片优化

bing外链查询工具

页头/页脚的优化

seo工作list

新建网站SEO的checklist

长尾词优化的过程控制和方法

竞争对手研究-qunar.com 酒店业务URL结构

多个搜索引擎联合打造更丰富的网络

title和文本内容的seo要求

SEO过程中Url友好建设的方法

短时间内提升SEO的表现方法

搜索引擎优化工作内容

URL唯一的重要性

不带前缀www的域名转向到带www.域名的Apache 301转向配置样例

SEO的定位

细说Google Analytics中的流量来源

网站性能优化视频详解

分页导航-网站分类属性

最近访客更多访客>>