使用 python 抓一个网页 - - ITeye博客

`

2014马年

浏览: 122625 次
性别:
来自: 晋中

最近访客更多访客>>

ymitxiavj

muyuan

benpao412

thinking

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

guduxing890：好东西! 速度超快
android sdk manager 无法下载
guduxing890：好东西..
android sdk manager 无法下载
liubey：把<scope>system</scope& ...
使用maven打war，本地的jar包没有被包含
2014马年： liubey 写道额。。。你这用法太奇特了，你会maven吗 ...
使用maven打war，本地的jar包没有被包含
liubey：额。。。你这用法太奇特了，你会maven吗你知道<sc ...
使用maven打war，本地的jar包没有被包含

使用 python 抓一个网页

博客分类：

python

python 爬虫 beautifulsoup

阅读更多

要抓取一个网站,要解决下面几个问题

beautiful soup 文档：http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

1.用python模拟useragent为android的浏览器：

useragent = "Mozilla/5.0 (Linux; U; Android 2.2; en-gb; GT-P1000 Build/FROYO) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1"
url = "http://xxx"
request = urllib2.Request(url)
request.add_header('User-Agent',useragent)
html = urllib2.urlopen(request,timeout=5).read()

#url编码
urllib.quote(‘abc edf')

2.beautiful soup 用的最多的一些方法

soup = BeautifulSoup(html)
print soup.strong.string
print soup.find("div",class_='xxx').string
print soup.find("span",class_='pos').next_sibling.string
oneDiv.next_sibling.a.get("href")

获取一个div，并且class='xxx' 的一个div，.string 为获取这个div里的文本。

.next_sibling 下一个同级节点。

3.正则提取文本中以http开头和以html结尾的文本：

p=re.compile(r"""(http://.*.html)""").search(oneString)
if p:
        return p.group(1)

4.下载文件

urllib.urlretrieve("http://xxx/asd.jpg",'apple.jpg')

抓取就可以开始了，然后对应上出现的一场来解决问题就行。

分享到：

spring mvc 3 国际化（上）——基础使用

2014-01-05 00:26
浏览 1029
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Web-Scraping-with-Python_Python网页信息抓取_Python抓取网页_jupyter_Python抓: 网页抓取的另一个关键方面是处理JavaScript渲染的页面。许多现代网站使用AJAX技术动态加载内容，这些内容在原始HTML中不可见。为了抓取这种内容，可以使用`Selenium`库，它允许模拟浏览器行为。安装`Selenium`（通常...

秀动网页端python自动购票: 5. `__pycache__`：这是一个Python编译缓存目录，包含Python源码编译后的字节码文件，用于提高程序的运行速度。这些文件通常不需直接操作，但它们的存在表明项目是用Python编写的。综上所述，这个项目是一个针对...

手把手教你用python抓网页数据: python抓取网页数据入门知识，资料来源于网上共享

fiddler4_3259_python抓包_fildder结合python_fiddler_python开发工具_fiddle: **Fiddler4_3259：Python抓包与Fiddler结合的实战指南** 在互联网开发过程中，网络请求的调试与分析是一项至关重要的任务。`Fiddler4`是一款强大的HTTP抓包工具，它可以帮助开发者查看、修改、甚至断点任何HTTP(S)...

python爬虫项目——自动批量抓取m3u8网页视频: 本项目专注于自动批量抓取m3u8网页视频，这是一个非常实用的技能，特别是对于那些需要收集网络视频数据的人来说。m3u8是一种基于HLS（HTTP Live Streaming）的多媒体播放列表文件格式，常见于流媒体服务，如在线直播...

python 抓取网页中所有图片: python代码抓取网页中所有图片,用于网页中抓取所有图片信息。

Stackless python 好用之处的一个简单演示：并发抓网页: Stackless Python 是 Python 的一个分支，它在标准 Python 解释器的基础上添加了一些额外的功能，特别是对并发编程的支持。这个简单的演示将向我们展示 Stackless Python 如何帮助我们更有效地抓取网页，同时利用其...

用Python爬虫抓站的一些技巧: 用Python爬虫抓站的一些技巧，主要介绍怎么利用PYTHON来抓取网页的数据

Python实现抓取网页生成Excel文件的方法示例: Python抓网页，主要用到了PyQuery，这个跟jQuery用法一样，超级给力示例代码如下： #-*- encoding:utf-8 -*- import sys import locale import string import traceback import datetime import urllib2 from ...

python抓取网页到本地实例程序: 1. **requests库**：Python的requests库是一个非常方便的库，可以让我们轻松地向服务器发送GET或POST等HTTP请求。在爬虫中，通常用GET方法获取网页内容。例如： ```python import requests response = requests.get...

使用Python3编写抓取网页和只抓网页图片的脚本: ### 使用Python3编写抓取网页和只抓网页图片的脚本 #### 一、概述在互联网技术快速发展的今天，网络爬虫作为一种重要的数据采集工具，被广泛应用于多个领域，如数据分析、搜索引擎优化等。本文将详细介绍如何使用...

Python-从Amazon抽取商品信息的Python3脚本: 在Python编程领域，Amazon商品信息抓取是一个常见的需求，用于数据挖掘、市场分析或价格比较。这个名为"Python-从Amazon抽取商品信息的Python3脚本"的项目，旨在利用Python3来实现这一功能。该项目可能包含了一系列...

Python-京东618抢券工具: 本项目“Python-京东618抢券工具”就是一个很好的实例，展示了如何利用Python进行网页自动化操作，特别是在电商促销活动期间，如京东的618大促，自动抢购优惠券。 1. **网络爬虫基础**：首先，这个工具的基础是网络...

基于Python爬虫技术的网页解析与数据获取研究.pdf: 总体而言，网络爬虫技术的主要实现步骤包括：了解网页基本结构、使用直观的网页分析工具对网页进行抓包分析、掌握如何使用正则表达式获取准确的字符串信息、以及通过Python实现简单的页面数据获取。通过这些技术的...

在windows下python2.7抓包分析页面需要库httplib2: 在Windows环境下，使用Python进行网页抓取和分析是一项常见的任务，尤其对于数据挖掘、网络爬虫和自动化测试等领域。在Python 2.7版本中，`httplib2`是一个非常重要的库，它提供了HTTP客户端的功能，支持HTTP/1.1...

Python 抓取图片下载地址: 为了批量下载，我们可以把上述代码整合起来，形成一个完整的过程： ```python def crawl_and_download_images(base_url, output_dir): response = requests.get(base_url) soup = BeautifulSoup(response.text, '...

Global site tag (gtag.js) - Google Analytics