`
f002489
  • 浏览: 271655 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

用python正则表达式提取网页的url

阅读更多

http://edu.codepub.com/2010/0429/22416.php

 

import
 re
import urllib
url="http://www.itokit.com"
s=urllib.urlopen(url).read()
ss=s.replace(" " ,"" )
urls=re.findall(r"<a.*?href=.*?<\/a>" ,ss,re.I)
for i in urls:
print i
else :
print 'this is over'

分享到:
评论

相关推荐

    python使用正则表达式提取网页URL的方法

    本文实例讲述了python使用正则表达式提取网页URL的方法。分享给大家供大家参考。具体实现方法如下: import re import urllib url=//www.jb51.net s=urllib.urlopen(url).read() ss=s.replace( ,) urls=re.findall...

    python正则表达式_深入浅出

    ### Python正则表达式详解 #### 一、概述 Python中的正则表达式(re)模块提供了与Perl类似的正则表达式功能。无论是正则表达式本身还是被搜索的字符串,都可以是Unicode字符,这意味着该模块能够很好地处理各种字符...

    VB用正则表达式提取网页中的链接

    ### 标题解读:“VB用正则表达式提取网页中的链接” 此标题明确指出了使用VB编程语言和正则表达式技术进行网页链接提取的技术方案。在Web页面中,链接通常以`&lt;a href="..."&gt;`的形式存在,通过正则表达式的匹配功能...

    Python正则表达式操作指南 Python正则表达式操作指南

    Python正则表达式是文本处理的重要工具,理解并熟练掌握其使用能够极大地提升处理文本数据的效率。通过`re`模块提供的各种函数,我们可以方便地进行字符串匹配、搜索、替换等操作,灵活应对各种文本处理需求。在...

    python 正则表达式

    Python正则表达式是Python编程语言中的一个强大工具,用于处理和分析文本字符串。它在网页编写、文本索引和爬虫技术等场景中扮演着重要角色。掌握Python的正则表达式能帮助开发者高效地查找、替换或提取特定模式的...

    Python正则表达式全面指南:从基础到实战

    内容概要:本文详细介绍了Python正则表达式的基础概念和用法,包括特殊字符、匹配规则、常用函数以及编译正则表达式的技巧。通过多个实际案例展示了如何验证邮箱地址、提取URL中的域名、替换敏感词、分割字符串、...

    aaa.rar_提取网页_正则_正则表达式_网页_邮件提取

    在本主题“aaa.rar_提取网页_正则_正则表达式_网页_邮件提取”中,主要涉及到如何利用正则表达式从网页中提取特定信息,如URL地址和电子邮件E-mail地址。以下将详细介绍这一过程。 首先,了解正则表达式的概念。...

    基于Python正则表达式的彩票信息爬取.pdf

    - **正则表达式提取数据**: 一旦确定了目标数据的位置,就可以使用正则表达式来精确匹配并提取所需数据。例如,若要从网页中提取出奖池余额,可以设计一个适当的正则表达式来匹配包含奖池余额的字符串。 ```python ...

    正则表达式 正则表达式 正则表达式

    - 在JavaScript、Python、Java、C#等编程语言中,正则表达式都有内置的支持,提供了构造、匹配、替换、查找等功能。 8. **实例应用**: - 验证邮箱地址:`/^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$/` ...

    正则表达式学习资料以及练习项目代码很多

    - **网页抓取**:在网页源码中使用正则表达式查找特定信息,辅助网络爬虫工作。 - **文本替换**:使用`re.sub()`可以批量替换字符串中的特定模式,实现格式化和转换。 6. **进阶话题** - **正则表达式性能优化**...

    正则表达式综合练习

    9. **文件爬虫与网络爬虫中的应用**:在文件爬虫中,正则表达式常用于从文本文件中提取所需信息,如URL、邮箱地址等。在网络爬虫中,它可以用于解析HTML或XML文档,提取链接、文本内容等。 10. **编程语言支持**:...

    python正则表达式regex_python_

    Python正则表达式是Python编程语言中的一个强大工具,它用于处理字符串,执行模式匹配和文本搜索、替换等任务。在Python中,正则表达式主要通过`re`模块来实现,提供了丰富的函数来处理各种复杂的字符串操作。下面将...

    正则表达式的妙用

    例如,你可以用正则表达式来匹配电子邮件地址、电话号码,甚至是从URL中提取主机名或路径。在本例中,可能使用的正则表达式会针对视频链接的常见格式,如"http(s)://开头,后接域名和视频ID"。 在实现这个功能时,...

    精通正则表达式&正则表达式经典实例

    9. **实例应用**:正则表达式广泛应用于文本编辑器(如vim、emacs)、编程语言(如JavaScript、Python、Java)和搜索引擎(如grep、findstr)。例如,用于验证邮箱格式、手机号码、提取URL等。 通过《精通正则...

    Python 正则表达式.docx

    本文将详细介绍如何在Python中使用正则表达式,并通过具体的代码示例来解释各个概念。 #### 二、基本概念与语法 ##### 2.1 正则表达式基础 正则表达式由一系列的字符和符号组成,用于定义需要匹配的模式。下面介绍...

    常用的正则表达式.txt

    例如,在网页表单验证中,使用正则表达式可以确保用户输入的数据格式正确,避免无效提交;在数据清洗和处理中,正则表达式可以帮助我们快速定位和修改特定格式的数据;在文本分析领域,正则表达式的强大功能更是得到...

    python基础教程:基于Python正则表达式提取搜索结果中的站点地址

    下面是一段简单的Python代码示例,展示了如何读取文本文件并使用正则表达式提取URL: ```python import re # 编译正则表达式模式 pattern = re.compile(r'([^\/].+?)') # 打开并读取文件内容 with open("e:/t3....

Global site tag (gtag.js) - Google Analytics