昨天在写爬虫的时候需要在html文件中对中文进行匹配,在网上找了找都不是我要的,后面就自己写了个,呵呵,还行。o(∩_∩)o...
import re
s=""//document.getElementById("zoom").innerHTML = document.getElementById("zoom").innerHTML.replace(/topview/gi,"TopView(<a href='http://topview.eastmoney.com/regfm.html' target='_blank' class='blue'>我们是中国人</a>)");"""
s=s.__repr__()
w=re.findall(r'\\\w+',s,re.DOTALL|re.IGNORECASE)
w
可以得到结果是:
['\\xce', '\\xd2', '\\xc3', '\\xc7', '\\xca', '\\xc7', '\\xd6', '\\xd0', '\\xb9', '\\xfa', '\\xc8', '\\xcb']
这样我们就得到了中文的一个集合,在python中一个中文用两个16进制的字符表示,所以上面集合的元素有12个。
另外还有一种方法就是:
import re
s=""//document.getElementById("zoom").innerHTML = document.getElementById("zoom").innerHTML.replace(/topview/gi,"TopView(<a href='http://topview.eastmoney.com/regfm.html' target='_blank' class='blue'>我们是中国人</a>)");"""
rc=re.compile(r'\\\w+',re.DOTALL|re.IGNORECASE)
li=list(s)
lis=[x for x in li if rc.search(x.__repr__())]
cn=reduce(lambda x,y:x+y,lis)
print cn
#结果:我们是中国人
另外我又想了想觉得可以写写其他比较有用的
比如
1、匹配网站名
s='http://it.chinabyte.com/269/8344769.shtml'
w=re.search(r'\.(\w+)\.',s)
w.group(1)
输出:chinabyte
2、匹配ip地址
s='202.115.5.250'
w=re.search('(\d+).(\d+).(\d+).(\d+)',s)
w.group(1)--w.group(4)就是匹配到的4个分段
这个有更简单的就是
s.split('.')
得到的输出是['202', '115', '5', '250']
如果要取出这个4个数,注意进行转化int('202')就可以转为整数了
分享到:
相关推荐
例如,Python中的`re`模块提供了编译、匹配和搜索等函数,通过这些函数,你可以构建并执行正则表达式,从而找到视频链接。JavaScript的`match()`、`search()`和`replace()`方法也是常用的正则表达式工具。 在实际...
4. **代码生成**:对于多种编程语言(如Java、Python、JavaScript等),工具可能会自动生成匹配正则表达式的代码片段,方便用户将其集成到项目中。 5. **文档和教程**:内置的帮助文档和教程将帮助初学者理解和学习...
在IT行业中,正则表达式(Regular Expression)是一种强大的文本处理工具,用于匹配、查找、替换等操作。在网页采集领域,正则表达式扮演着至关重要的角色,它可以帮助我们从大量的网页数据中提取出我们需要的信息。...
在"xregex正则表达式查找"这个主题中,可能涉及到如何在特定的编程语言(如Python的`re`模块,JavaScript的`RegExp`对象等)中使用正则表达式的具体语法和方法,例如`search()`、`match()`、`findall()`等。...
在这个名为“常用正则表达式Pdf”的资源中,通常会包含一系列常见且实用的正则表达式模式,帮助用户快速理解和应用这一强大的工具。 1. **基础概念** - **字符类**:如`[abc]`表示匹配a、b或c中的任意一个字符。 ...
Python正则表达式是Python语言中用于处理字符串的强大工具,尤其在数据提取和文本处理方面。在本教程中,我们将探讨如何使用Python正则表达式从Google搜索结果中提取站点地址。 首先,我们需要理解问题的核心:从...
正则表达式的语法复杂且功能强大,包括通配符、字符类、量词和分组等概念,学习和掌握正则表达式能够极大地提高文本处理的能力。 在使用正则表达式时,需要注意一些常见的错误,比如在`LastIndexOf`和`...
在我们的案例中,我们可能会编写正则表达式模式,用于匹配电影下载链接的常见特征,如".torrent"或".rar"等文件扩展名。通过使用正则表达式,我们可以从HTML源码中精准地找到并提取出这些链接。 正则表达式的使用...
在这个名为“使用正则表达式提取某站点读书信息”的PPT中,主要讲解了如何运用爬虫技术,特别是正则表达式,来抓取特定网站上的书籍信息。爬虫技术是一种自动化获取网页数据的方法,而正则表达式则是用于在文本中...
正则表达式(Regular Expression,简称regex)是用于匹配字符串的一种模式,广泛应用于文本处理、数据提取、数据验证等场景。在本项目“正则表达式抓取网页数据制作小词典”中,我们将探讨如何利用正则表达式从网页...
正则表达式是这个过程中的一种强大工具,它用于在文本中进行模式匹配和数据提取。在本场景中,我们将探讨如何使用正则表达式来采集网页数据,并将其有效地存储到SQL数据库。 首先,我们需要了解正则表达式的基本...
在这个案例中,我们将讨论如何使用Python来爬取“糗百”网站的段子,这是一个流行的中文幽默社区。首先,我们需要理解爬虫的基本原理以及如何结合正则表达式(RegEx)和BeautifulSoup库来实现这一目标。 Python爬虫...
本文将详细探讨Django如何查找项目根目录,以及如何在Django项目中使用正则表达式进行URL模式匹配。 ### Django查找项目根目录 在Web开发中,了解项目根目录的概念至关重要。项目根目录通常指的是服务器上存储网站...
正则表达式(Regular Expression)是编程领域中用于处理文本字符串的一种强大工具,它通过预定义的模式来匹配、查找、替换或者分析文本。在IT行业中,正则表达式广泛应用于数据验证、文本搜索和数据提取等多个场景。...
通过这个案例,我们不仅学习了正则表达式的概念和基本语法,还掌握了如何在Python中使用`re`模块进行匹配操作。同时,我们还学会了如何根据具体需求定制正则表达式来满足邮箱验证的要求。这在实际编程中是非常实用的...
元字符是构成正则表达式的特殊字符,字符转义用于匹配那些在正则表达式中有特殊含义的字符。重复、字符类、分枝条件、分组、反义和后向引用都是正则表达式的基本组件。零宽断言和负向零宽断言用于匹配位置而不是字符...
本章节主要介绍了Python中正则表达式的使用方法,并通过一系列练习加深了对正则表达式匹配规则的理解。 ### 1. 字符串匹配练习 **目标**:识别特定字符串。 **例子**: - `bat,` - `bit,` - `but,` - `hat,` - `...
Python爬虫是网络数据采集的重要工具,而正则表达式则是爬虫中处理网页文本的强大武器。本篇文章将深入探讨如何使用Python结合正则表达式爬取网站数据,以爬取豆瓣电影Top250为例,展示具体实现过程。 首先,我们...
正则表达式是用于匹配字符串的强大工具,可以用于匹配网页中的信息。例如,我们可以使用正则表达式来匹配网页中的用户名、真实姓名、性别、年龄、学历、月收入这些直观信息。 在设计网络爬虫时,我们还需要了解...
在Python中,正则表达式(patterns)是处理字符串的强大工具,特别是在网页数据抓取中,我们经常使用它来匹配和提取特定格式的文本。例如,我们可以定义一个模式来找到URL、邮箱地址或者特定的HTML标签。Python的`re...