浏览 4445 次
精华帖 (0) :: 良好帖 (1) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2009-02-13
filename=raw_input('input a filename,please ') s=file(filename).read() ss=s.replace('\n','') ss=ss.replace(' ','') ss=ss.replace('»','') ss=re.sub("<!--.+?-->",' ',ss) tem=re.sub("<.*?>",'',ss) w=open('zip.txt','w') w.write(tem) w.close() 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2009-02-18
只能去掉标签吧,格式怎么办? 转换为文本空格
|
|
返回顶楼 | |
发表时间:2009-05-14
也可以用BeautifulSoup来处理
soup = BeautifulSoup.BeautifulSoup(html) text = soup.findAll(text=True) |
|
返回顶楼 | |