`
chembo
  • 浏览: 938434 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

python 正则表达式使用笔记

阅读更多
import os,urllib,urllib2
import re,sys

url = "http://www.iteye.com"
page = urllib.urlopen(url).read()

str = re.compile('<script([\S\s]*?)<\/script>')
b = str.sub('',page)
str = re.compile('<.*?>')
b = str.sub('',b)
wordlist = re.findall('[a-zA-Z]{3,}',b)
for aword in wordlist:
    print aword
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics