`
2014马年
  • 浏览: 122233 次
  • 性别: Icon_minigender_1
  • 来自: 晋中
社区版块
存档分类
最新评论

使用 python 抓一个网页

阅读更多

要抓取一个网站,要解决下面几个问题

beautiful soup 文档:http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

 

1.用python模拟useragent为android的浏览器:

 

useragent = "Mozilla/5.0 (Linux; U; Android 2.2; en-gb; GT-P1000 Build/FROYO) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1"
url = "http://xxx"
request = urllib2.Request(url)
request.add_header('User-Agent',useragent)
html = urllib2.urlopen(request,timeout=5).read()

#url编码
urllib.quote(‘abc edf')

 

 

2.beautiful soup 用的最多的一些方法

 

soup = BeautifulSoup(html)
print soup.strong.string
print soup.find("div",class_='xxx').string
print soup.find("span",class_='pos').next_sibling.string
oneDiv.next_sibling.a.get("href")

获取一个div,并且class='xxx' 的一个div,.string 为获取这个div里的文本。

.next_sibling 下一个同级节点。

 

3.正则提取文本中以http开头和以html结尾的文本:

 

p=re.compile(r"""(http://.*.html)""").search(oneString)
if p:
        return p.group(1)

 

4.下载文件

urllib.urlretrieve("http://xxx/asd.jpg",'apple.jpg')

 

抓取就可以开始了,然后对应上出现的一场来解决问题就行。

 

 

分享到:
评论

相关推荐

    Web-Scraping-with-Python_Python网页信息抓取_Python抓取网页_jupyter_Python抓

    网页抓取的另一个关键方面是处理JavaScript渲染的页面。许多现代网站使用AJAX技术动态加载内容,这些内容在原始HTML中不可见。为了抓取这种内容,可以使用`Selenium`库,它允许模拟浏览器行为。安装`Selenium`(通常...

    秀动网页端python自动购票

    5. `__pycache__`:这是一个Python编译缓存目录,包含Python源码编译后的字节码文件,用于提高程序的运行速度。这些文件通常不需直接操作,但它们的存在表明项目是用Python编写的。 综上所述,这个项目是一个针对...

    手把手教你用python抓网页数据

    python抓取网页数据入门知识,资料来源于网上共享

    fiddler4_3259_python抓包_fildder结合python_fiddler_python开发工具_fiddle

    **Fiddler4_3259:Python抓包与Fiddler结合的实战指南** 在互联网开发过程中,网络请求的调试与分析是一项至关重要的任务。`Fiddler4`是一款强大的HTTP抓包工具,它可以帮助开发者查看、修改、甚至断点任何HTTP(S)...

    python爬虫项目——自动批量抓取m3u8网页视频

    本项目专注于自动批量抓取m3u8网页视频,这是一个非常实用的技能,特别是对于那些需要收集网络视频数据的人来说。m3u8是一种基于HLS(HTTP Live Streaming)的多媒体播放列表文件格式,常见于流媒体服务,如在线直播...

    python 抓取网页中所有图片

    python代码抓取网页中所有图片,用于网页中抓取所有图片信息。

    Stackless python 好用之处的一个简单演示:并发抓网页

    Stackless Python 是 Python 的一个分支,它在标准 Python 解释器的基础上添加了一些额外的功能,特别是对并发编程的支持。这个简单的演示将向我们展示 Stackless Python 如何帮助我们更有效地抓取网页,同时利用其...

    用Python爬虫抓站的一些技巧

    用Python爬虫抓站的一些技巧,主要介绍怎么利用PYTHON来抓取网页的数据

    Python实现抓取网页生成Excel文件的方法示例

    Python抓网页,主要用到了PyQuery,这个跟jQuery用法一样,超级给力 示例代码如下: #-*- encoding:utf-8 -*- import sys import locale import string import traceback import datetime import urllib2 from ...

    python抓取网页到本地实例程序

    1. **requests库**:Python的requests库是一个非常方便的库,可以让我们轻松地向服务器发送GET或POST等HTTP请求。在爬虫中,通常用GET方法获取网页内容。例如: ```python import requests response = requests.get...

    使用Python3编写抓取网页和只抓网页图片的脚本

    ### 使用Python3编写抓取网页和只抓网页图片的脚本 #### 一、概述 在互联网技术快速发展的今天,网络爬虫作为一种重要的数据采集工具,被广泛应用于多个领域,如数据分析、搜索引擎优化等。本文将详细介绍如何使用...

    Python-从Amazon抽取商品信息的Python3脚本

    在Python编程领域,Amazon商品信息抓取是一个常见的需求,用于数据挖掘、市场分析或价格比较。这个名为"Python-从Amazon抽取商品信息的Python3脚本"的项目,旨在利用Python3来实现这一功能。该项目可能包含了一系列...

    Python-京东618抢券工具

    本项目“Python-京东618抢券工具”就是一个很好的实例,展示了如何利用Python进行网页自动化操作,特别是在电商促销活动期间,如京东的618大促,自动抢购优惠券。 1. **网络爬虫基础**:首先,这个工具的基础是网络...

    基于Python爬虫技术的网页解析与数据获取研究.pdf

    总体而言,网络爬虫技术的主要实现步骤包括:了解网页基本结构、使用直观的网页分析工具对网页进行抓包分析、掌握如何使用正则表达式获取准确的字符串信息、以及通过Python实现简单的页面数据获取。通过这些技术的...

    在windows下python2.7抓包分析页面需要库httplib2

    在Windows环境下,使用Python进行网页抓取和分析是一项常见的任务,尤其对于数据挖掘、网络爬虫和自动化测试等领域。在Python 2.7版本中,`httplib2`是一个非常重要的库,它提供了HTTP客户端的功能,支持HTTP/1.1...

    Python 抓取 图片 下载地址

    为了批量下载,我们可以把上述代码整合起来,形成一个完整的过程: ```python def crawl_and_download_images(base_url, output_dir): response = requests.get(base_url) soup = BeautifulSoup(response.text, '...

Global site tag (gtag.js) - Google Analytics