`

最近写了个Python爬虫,记录一下学到的东西

阅读更多
  1. urllib2 是针对文本的 urllib 是针对二进制文件的
  2. 下载文件最简单的写法
    urllib.urlretrieve(url, filePath + fileName)
  3. 如果需要访问非英文页面文字,自行 decode
    html.decode('euc-jp').encode('utf-8')
  4. 使用 BeautifulSoup 处理 html 非常方便,但是在 Jython 下速度超级慢!
  5. 可以直接使用正则在 BeautifulSoup 中查找需要的标签
    links = soup.findAll('a', href=re.compile('^.+?$') 
  6. try except else 的应用
  7. 强制抛出异常 raise
  8. 使用格式化文本实现数字补零
    fileName = '%03d.jpg' %(time)
  9. 新建文件夹
    if not os.path.isdir(filePath):
                os.mkdir(filePath)
  10. 字符串和数字无法相加 需要讲数字转化为字符串 str(num)
  11. cmp 可以用来比较两个字符串,完全相同返回 0
  12. # -*- coding: utf-8 -*- 非常重要,不光影响代码中的注释,还会影响到处理文本。起初忘记加这个,导致日文无法正常处理。
分享到:
评论
5 楼 sunny3super 2012-07-30  
是的,python 爬虫的部分,我也做过记录:
http://www.yihaomen.com/article/python/210.htm (这是爬 CSDN 的内容)
还有一个记录下载的,必须登录先:
http://www.yihaomen.com/article/python/216.htm
4 楼 小白·菜 2010-02-26  
慢慢来,现在还只是针对两三个网站抓取特定资源。
慢慢扩展。
3 楼 chenzehe 2010-02-26  
我是来看二楼的
2 楼 lsc20051426 2010-02-24  
LZ,不用使用代理么?应该把设置代理的部分也加上
1 楼 tlze 2010-02-22  
谢谢经验分享,这个要收藏起来认真学习。

相关推荐

    python爬虫从入门到精通(模块)

    这份文档旨在帮助想要学习Python爬虫的初学者,从入门到精通逐步提升自己的技能。以下是我们将要涵盖的主题: ## 入门篇 1. Python爬虫简介 2. Requests库的使用 3. Beautiful Soup库的使用 4. 爬虫实战:爬取百度...

    81个Python爬虫源代码

    81个Python爬虫源代码,内容包含新闻、视频、中介、招聘、图片资源等网站的爬虫资源

    python爬虫:Python 爬虫知识大全

    python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识...

    Python爬虫框架Scrapy教程 完整版PDF

    《Python爬虫框架Scrapy教程》主要是针对学习python爬虫的课程,又基础的python爬虫框架scrapy开始,一步步学习到最后完整的爬虫完成,现在python爬虫应用的非常广泛,本文档详细介绍了scrapy爬虫和其他爬虫技术的...

    python爬虫课件+代码.zip

    总之,"python爬虫课件+代码.zip"提供的学习资源涵盖了Python爬虫的基础到进阶,包括请求与响应处理、HTML解析、数据提取、数据存储等多个方面,结合实际代码操作,有助于你快速上手并掌握爬虫技术。在跟随路飞学城...

    Python爬虫框架Scrapy教程《PDF文档》

    《Python爬虫框架Scrapy教程》主要是针对学习python爬虫的课程,又基础的python爬虫框架scrapy开始,一步步学习到最后完整的爬虫完成,现在python爬虫应用的非常广泛,本文档详细介绍了scrapy爬虫和其他爬虫技术的...

    小白学 Python 爬虫(25):爬取股票信息

    小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Linux基础入门 小白学 Python 爬虫(4):前置准备(三)Docker基础入门 小白学 ...

    python 爬虫入门学习资料

    python 爬虫入门学习资料/python 爬虫入门学习资料/python 爬虫入门学习资料/python 爬虫入门学习资料 网盘资源

    Python爬虫JS逆向进阶课程

    这门课程是Python爬虫JS逆向进阶课程,将教授学员如何使用Python爬虫技术和JS逆向技术获取网站数据。学习者将学习如何分析网站的JS代码,破解反爬虫机制,以及如何使用Selenium和PhantomJS等工具进行模拟登录和数据...

    python爬虫20个案例

    讲诉python爬虫的20个案例 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

    python爬虫,拉勾网爬虫

    python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫...

    Python爬虫教学视频-最全的Python爬虫视频教程全集

    本Python爬虫教学视频,全集共51天课程,整套课程以Python语言为核心,通过各种经典案例的讲解,很好的演示了python爬虫如何抓取数据的全过程,非常值得Python爬虫工程师和想掌握python爬虫技术的同学借鉴学习。...

    81个Python爬虫源代码+九款开源爬虫工具.doc

    Python爬虫技术是数据获取和分析领域的重要工具,尤其在互联网信息海量的今天,爬虫可以帮助我们自动化地从网站上抓取大量数据。以下是一些关于Python爬虫的知识点,以及提到的一些开源爬虫工具: 1. **Python爬虫...

    Python爬虫

    Python爬虫是编程领域中一个重要的知识点,尤其在数据挖掘和信息分析中广泛应用。本项目主要涉及了Python语言、网络爬虫技术、HTML解析库BeautifulSoup以及数据库管理系统MySQL。 首先,Python作为一门强大的脚本...

    Python爬虫项目合集(源代码)

    Python爬虫项目合集是一个包含了多种Python爬虫技术与实践案例的资源集合,它为学习者提供了丰富的实战素材,帮助他们深入理解网络数据抓取、处理和分析的过程。在这个项目合集中,我们可以找到多种不同类型的爬虫源...

    Python爬虫JS逆向进阶课程-课程网盘链接提取码下载 .txt

    这门课程是Python爬虫JS逆向进阶课程,将教授学员如何使用Python爬虫技术和JS逆向技术获取网站数据。学习者将学习如何分析网站的JS代码,破解反爬虫机制,以及如何使用Selenium和PhantomJS等工具进行模拟登录和数据...

    Python爬虫教程文档

    Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档...

    【python爬虫】python爬虫基础知识及简单实践

    【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识...

    简单的python爬虫,代码完整

    本资源提供了一个完整的Python2.7版本的简单网络爬虫代码,旨在帮助学习者理解和实践爬虫的基本原理。 首先,我们要了解Python爬虫的基本构成。一个基础的Python爬虫通常包括以下部分: 1. **URL管理器**:负责...

    Python爬虫小案例

    python爬虫案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫...

Global site tag (gtag.js) - Google Analytics