`
ipython
  • 浏览: 295332 次
  • 性别: Icon_minigender_1
  • 来自: 佛山
社区版块
存档分类
最新评论

html to text用正则表达式将HTML文件转换为TXT文件

阅读更多
import re
filename=raw_input('input a filename,please  ')
s=file(filename).read()
ss=s.replace('\n','')
ss=ss.replace(' ','')
ss=ss.replace('»','')
ss=re.sub("<!--.+?-->",' ',ss)
tem=re.sub("<.*?>",'',ss)
w=open('zip.txt','w')
w.write(tem)
w.close()

分享到:
评论
2 楼 lvscar 2009-05-14  
也可以用BeautifulSoup来处理
soup = BeautifulSoup.BeautifulSoup(html)
text = soup.findAll(text=True)
1 楼 cris_jxg 2009-02-18  
只能去掉标签吧,格式怎么办?&nbsp转换为文本空格

相关推荐

    精通正则表达式~~~

    Text-to-HTML转换... 67 回到单词重复问题... 77 第3章:正则表达式的特性和流派概览.... 83 在正则的世界中漫步... 85 正则表达式的起源... 85 最初印象... 91 正则表达式的注意事项和处理方式... 93 集成...

    正则表达式

    对正则表达式功能字符的还原,如"*"匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了"\"后,/a\*/将只匹配"a*"。 ^ 匹配一个输入或一行的开头,/^a/匹配"an A",而不匹配"An a" $ 匹配一个输入或一行的结尾,/a...

    经典JavaScript正则表达式实战

    #### 用正则表达式获得文件名 - **应用场景**:从文件路径中提取文件名。 - **正则表达式**:`/(.*?)[\\\/](.*?)$/` - `/(.*?)[\\\/](.*?)$/`:`.*?` 表示非贪婪模式匹配任意字符直到遇到路径分隔符(`[\\\/]`),`...

    C# WinForm RTF TO HTML

    - 转换过程可能涉及到对RTF二进制流的解析,使用正则表达式或自定义解析器来提取信息。 - 图片处理可能涉及读取RTF内的图像数据,保存为磁盘上的文件,并生成对应的HTML `&lt;img&gt;` 标签。 - 结果HTML的生成可能使用...

    字幕格式转换工具包v1

    8. **技术实现**:字幕转换工具背后可能涉及到的编程技术包括文件I/O操作、正则表达式用于解析字幕文件、时间戳处理和格式转换算法等。 总的来说,"字幕格式转换工具包v1"是为了解决跨平台或跨应用的字幕兼容问题而...

    打开文本文档并且读取其中的内容

    这些功能可能需要用到正则表达式、自然语言处理库(如NLTK或spaCy)等工具。 综上所述,这个程序的核心是实现文本文件的打开和读取,同时提供了修改文件路径的功能,使得用户可以根据需要读取任意位置的文本文件。...

    css批量图片路径替换

    - **转换为绝对路径**:如果新环境要求使用绝对路径,需将所有路径转换。 7. **自动化流程** 使用Git或版本控制系统可以自动化处理部分工作,例如,预设好新环境的URL前缀,通过钩子函数在提交时自动处理路径。 ...

    简单通讯录的xml代码

    5. 可以使用XSLT或Linq-to-XML的Transform方法将XML数据转换为易于阅读的格式显示在窗体上。 为了提高输入数据的正确性,如描述中提到的,可以使用正则表达式进行验证。例如,对于电话号码,可以使用如`^\d{10,11}$...

    python爬虫获取疫情各地区确诊人数,实现数据可视化

    # 使用正则表达式筛选并解析数字等数据 result = re.search(r'(\d+)', cols[-1]) if result: confirmed = int(result.group(1)) data.append(confirmed) # 保存数据到CSV文件 with open('data.csv', 'w', ...

    文本操作模块-易语言

    - 在日志分析系统中,使用文本读取和正则表达式分析日志内容,找出异常或错误。 - 在文本编辑器软件中,利用字符串处理和格式化功能实现文本的编辑和显示。 易语言的文本操作模块强大而全面,无论是初学者还是...

    Pages怎么制作ePub格式电子书.docx

    此外,如果你手头有HTML文件,可以通过ClipMenu的Strip Tags功能将其转换为纯文本,去掉HTML标签,使内容更易于导入Pages。 进入制作过程,首先要创建文档目录。在Pages中,目录通常是通过设置段落样式来自动生成的...

    【Java】将Markdown格式文本转换为纯文本

    总结起来,将Markdown格式文本转换为纯文本在Java中可以通过正则表达式或者使用专门的解析库来实现。尽管直接的解决方案可能较少,但通过理解和利用Markdown的规则,我们可以构建自己的转换逻辑,或者选择现有的库来...

    WebHarvest中文文档

    `html-to-xml`元素则将HTML清理并转换为合法的XML格式,方便后续的XML处理。`regexp`使用正则表达式进行搜索和替换操作,`xpath`则在XML源中查找XPath表达式,而`xquery`执行在XML源上的查询。`xslt`则应用XSL转换对...

    Web-Harvest手册

    `html-to-xml`将HTML内容清理并转换为有效的XML,`regexp`执行正则表达式搜索/替换,`xpath`则在XML源中查找XPath表达式,`xquery`在XML源上执行查询,`xslt`则应用XSL转换。`script`元素允许使用基于Java的脚本语言...

    html学习文档.pdf

    - `match(regexp)`和`search(regexp)`用于正则表达式匹配 - `toLowerCase()`和`toUpperCase()`用于转换字符串大小写 ### 基本事件及其含义 JavaScript中常用的一些事件包括: - `onclick`:鼠标单击 - `onchange`...

    用C#实现网页文本转语音的例子

    4. 转换文本到语音:使用Speak方法将文本转化为语音。 ```csharp synthesizer.Speak("这是一段示例文本,将被转化为语音播放。"); ``` 5. 处理事件:为了更好地控制语音合成过程,可以监听SpeakCompleted事件,当...

    What is RedCloth

    RedCloth可能使用正则表达式和其他文本处理技术来识别和转换Textile的语法元素。 **工具集成** RedCloth可以与各种Ruby框架和工具集成,如Rails、Jekyll等,用于生成博客文章、文档或其他需要格式化的文本内容。它...

    web程序设计试卷整理.pdf

    - `a%3`为1,`x+y`为7.2,转换为整数7,`7%2`为1,`1/4`为0。 - 整个表达式结果为`2 + 1 + 0 = 3`,所以`k`等于3。 这些知识点涵盖了HTML、CSS、ASP.NET控件、C#编程基础以及程序设计的基本概念,是Web程序设计...

    python实现获取链家租房信息

    另外,为了提高数据的准确性,还可以考虑使用正则表达式进行进一步的文本清洗和格式化。例如,去除不必要的空格、换行,或者将价格转换为数字格式等。 最后,获取到的数据可以存储到CSV、JSON或数据库中,以便后续...

Global site tag (gtag.js) - Google Analytics