python抓取指定网址链接并返回网址列表 - - ITeye博客

`

a564941464

浏览: 182460 次
性别:
来自: 武汉

最近访客更多访客>>

xieyonn

hy1314200

时间的煮雨non

85756399

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

a564941464：一样
Initializers －－ object-c中的alloc init的解释
pj7670623：幸好有~~~有道！！不然咋看的懂哦！
Initializers －－ object-c中的alloc init的解释
higherzjm： [flash=200,200][/flash][url][/u ...
用jdb调试Java程序

python抓取指定网址链接并返回网址列表

博客分类：

python

urllib2 python re

阅读更多

import urllib2, re
def fetch_links(furl,burl,stag,etag):
    '''
    抓取网页新闻
    @param furl 抓取网页地址
    @param burl 网页链接的baseurl,比如凤凰网的链接:<a href="/news/guoji/dir?cid=14&amp;mid=7sdLRL">国际</a>, 根据baseurl可返回<a href="http://i.ifeng.com/news/guoji/dir?cid=14&amp;mid=7sdLRL">国际</a>
    @param stag 抓取网页链接的开始标签
    @param etag 抓取网页链接的结束标签
    @return 加了baseurl的链接列表
    说明: 正则表达式中 '.*?', 采用非贪婪模式匹配多个字符
    '''
    req = urllib2.Request(furl)
    fd = urllib2.urlopen(req)
    content = fd.read()
    fd.close()
    m = re.findall(stag+'.*?'+etag,content)
    return  [j.replace('<a href="', '<a href="'+burl) for j in m]

0
顶

0
踩

分享到：

django 1.3+ 静态资源的访问 | URL长度的限制

2012-03-28 17:39
浏览 3735
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python抓取百度搜索的数据: 在本篇教程中，我们将详细介绍如何使用Python抓取百度搜索引擎返回的结果数据。此过程涉及到网络爬虫的基本概念和技术，包括HTTP请求、正则表达式匹配以及网页内容解析等。 #### 知识点一：Python环境搭建与库安装 ...

python抓取网页图片: 以上就是Python抓取网页图片的核心知识点。在实际应用中，可能还需要考虑其他因素，比如反爬策略、多线程/异步处理提高效率、图片质量优化等。在`reptile`这个文件或项目中，很可能包含了实现这些功能的代码。通过...

Phantomjs抓取渲染JS后的网页（Python代码）: ### Phantomjs抓取渲染JS后的网页（Python代码） #### 一、Phantomjs简介 Phantomjs被定义为一个无头浏览器（headless browser），它实际上是一个基于WebKit引擎的脚本可控制的“浏览器”。虽然它无法显示网页内容...

python爬取第一PPT爬虫PPT: 标题中的“python爬取第一PPT爬虫PPT”指的是使用Python编程语言编写网络爬虫程序，目标是抓取特定网站上的PPT资源。描述提到的“附带详细教程，合适新手学习python”表明这是一个适合初学者的教程，旨在教授如何...

网络爬虫之简单链接抓取: 《网络爬虫之简单链接抓取》这篇文章及配套的源码`spider.py`主要讲述了如何构建一个基础的网络爬虫来抓取网页中的链接。网络爬虫是自动化浏览Web并提取信息的一种程序，它是大数据分析和搜索引擎的重要组成部分。...

Python爬虫抓取指定网页图片代码实例: 以下介绍了两种方法实现抓取指定网页中图片（1）方法一：使用正则表达式过滤抓到的 html 内容字符串 # 第一个简单的爬取图片的程序 import urllib.request # python自带的爬操作url的库 import re # 正则表达式 # ...

python实现下载指定网址所有图片的方法: ### Python 实现下载指定网址所有图片的方法在本篇文章中，我们将详细介绍如何使用 Python 编程语言来实现从指定网址下载所有图片的功能。这个过程包括了网页内容的抓取、图片链接的解析以及图片文件的实际下载等...

10个线程的Python多线程爬虫（采集新浪数据）.rar: 一个Python多线程爬虫，在工作时，开10个线程来抓取新浪网页的数据，抓取并保存页面, 并且根据deep返回页面链接，根据key确定是否保存该页面,其中: 　deep == 0时，是抓取的最后一层深度，即只抓取并保存页面，不...

Python 语言实现的抓取网页内容与列文件目录: 本篇将重点讲解如何利用Python抓取网页内容以及如何列文件目录。首先，让我们深入理解Python中的Web Scraping。Web Scraping是指通过编程方式自动提取网页上的信息。Python中有多个强大的库来支持这项工作，如...

python 抓取知乎指定回答下视频的方法: 本文将详细介绍如何利用Python抓取知乎指定回答下的视频，并提供完整的代码示例。 #### 前言：问题背景与解决思路在知乎平台上，用户经常遇到想要下载某个回答中的视频的情况，但由于官方没有提供相应的下载选项...

Python下载指定页面上图片的方法: 然后使用`re.compile`编译正则表达式，`re.findall`查找所有匹配项，并将结果存储在列表`imglist`中。 ```python def getImg(html): reg = r'src="(.*?\.jpg)" ' # 正则表达式，匹配以src="开头，以.jpg"结尾的...

从某个网页（这里以假想的网页httpexample.com为例）抓取标题和链接列表.docx: 接下来，详细介绍如何使用Python编写一个简单的网络爬虫，该爬虫可以抓取指定网页中的标题和链接列表。 ##### 1. 获取网页内容为了获取网页内容，我们需要向指定的URL发送HTTP GET请求。这可以通过`requests.get...

python抓取最新博客内容并生成Rss: ### Python抓取最新博客内容并生成RSS #### 一、背景与目的随着互联网技术的发展，RSS（Really Simple Syndication）作为一种聚合多个网站更新内容的标准格式，在信息获取方面发挥着重要作用。RSS允许用户通过RSS...

python scrapy爬虫爬取虎扑NBA新闻前十页，以及所有现役球星信息虎扑: Python的Scrapy框架是用于网页抓取和数据提取的强大工具，尤其在处理结构化数据时。在这个项目中，我们利用Scrapy爬取了虎扑NBA新闻的前十页内容，同时收集了所有现役NBA球员的信息。Flask则被用作后端Web服务器，将...

Python给html文件的a标签添加属性: 在Python编程中，处理HTML文件是一项常见的任务，特别是在网页抓取和数据解析领域。BeautifulSoup是一个强大的库，它使得解析HTML和XML文档变得极其简单。本篇将详细讲解如何使用BeautifulSoup来为HTML文件中的a标签...

网页链接抓取工具（源码）: 在网页链接抓取过程中，工具通常会模拟浏览器发送GET请求到服务器，请求指定的网页内容。接着，我们探讨正则表达式，这是该工具的关键部分。正则表达式（Regular Expression）是一种模式匹配语言，用于查找、替换...

Python大作业--爬虫（完美应付大作业）.zip: 程序功能：爬取指定公众号的微信文章标题、作者、链接、图标文件，暂不支持保存成pdf（时间有限，保存完整网页为pdf难度有点高）接口说明：仅提供一个对外接口spider(self,count=10,offset=-10)，调用接口便会...

《Python程序设计实验》计算机工程学院指导书: - **抓取网页内容**：编写一个简单的爬虫程序，抓取指定网站上的新闻标题。 - **数据提取**：利用BeautifulSoup解析抓取到的HTML文档，提取文章标题和链接。通过以上实验，不仅可以掌握Python的基础知识，还能...

python爬虫学习基础教程，批量抓取.docx: - 使用正则表达式从网页源码中匹配出图片链接，并将其存储到列表中返回。 3. **定义函数`download(down_url)`**： - 功能：下载图片。 - 定义图片的保存名称。 - 使用`urllib.urlretrieve(down_url, "D:\\TEMP\...

Global site tag (gtag.js) - Google Analytics