`

最近写了个Python爬虫,记录一下学到的东西

阅读更多
  1. urllib2 是针对文本的 urllib 是针对二进制文件的
  2. 下载文件最简单的写法
    urllib.urlretrieve(url, filePath + fileName)
  3. 如果需要访问非英文页面文字,自行 decode
    html.decode('euc-jp').encode('utf-8')
  4. 使用 BeautifulSoup 处理 html 非常方便,但是在 Jython 下速度超级慢!
  5. 可以直接使用正则在 BeautifulSoup 中查找需要的标签
    links = soup.findAll('a', href=re.compile('^.+?$') 
  6. try except else 的应用
  7. 强制抛出异常 raise
  8. 使用格式化文本实现数字补零
    fileName = '%03d.jpg' %(time)
  9. 新建文件夹
    if not os.path.isdir(filePath):
                os.mkdir(filePath)
  10. 字符串和数字无法相加 需要讲数字转化为字符串 str(num)
  11. cmp 可以用来比较两个字符串,完全相同返回 0
  12. # -*- coding: utf-8 -*- 非常重要,不光影响代码中的注释,还会影响到处理文本。起初忘记加这个,导致日文无法正常处理。
分享到:
评论
5 楼 sunny3super 2012-07-30  
是的,python 爬虫的部分,我也做过记录:
http://www.yihaomen.com/article/python/210.htm (这是爬 CSDN 的内容)
还有一个记录下载的,必须登录先:
http://www.yihaomen.com/article/python/216.htm
4 楼 小白·菜 2010-02-26  
慢慢来,现在还只是针对两三个网站抓取特定资源。
慢慢扩展。
3 楼 chenzehe 2010-02-26  
我是来看二楼的
2 楼 lsc20051426 2010-02-24  
LZ,不用使用代理么?应该把设置代理的部分也加上
1 楼 tlze 2010-02-22  
谢谢经验分享,这个要收藏起来认真学习。

相关推荐

    python爬虫从入门到精通(模块)

    这份文档旨在帮助想要学习Python爬虫的初学者,从入门到精通逐步提升自己的技能。以下是我们将要涵盖的主题: ## 入门篇 1. Python爬虫简介 2. Requests库的使用 3. Beautiful Soup库的使用 4. 爬虫实战:爬取百度...

    81个Python爬虫源代码

    81个Python爬虫源代码,内容包含新闻、视频、中介、招聘、图片资源等网站的爬虫资源

    python爬虫:Python 爬虫知识大全

    python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识...

    Python爬虫框架Scrapy教程 完整版PDF

    《Python爬虫框架Scrapy教程》主要是针对学习python爬虫的课程,又基础的python爬虫框架scrapy开始,一步步学习到最后完整的爬虫完成,现在python爬虫应用的非常广泛,本文档详细介绍了scrapy爬虫和其他爬虫技术的...

    python爬虫课件+代码.zip

    总之,"python爬虫课件+代码.zip"提供的学习资源涵盖了Python爬虫的基础到进阶,包括请求与响应处理、HTML解析、数据提取、数据存储等多个方面,结合实际代码操作,有助于你快速上手并掌握爬虫技术。在跟随路飞学城...

    python 爬虫入门学习资料

    python 爬虫入门学习资料/python 爬虫入门学习资料/python 爬虫入门学习资料/python 爬虫入门学习资料 网盘资源

    python爬虫淘宝京东拼多多

    python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python...

    python爬虫20个案例

    讲诉python爬虫的20个案例 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

    python爬虫,拉勾网爬虫

    python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫...

    Python爬虫教学视频-最全的Python爬虫视频教程全集

    本Python爬虫教学视频,全集共51天课程,整套课程以Python语言为核心,通过各种经典案例的讲解,很好的演示了python爬虫如何抓取数据的全过程,非常值得Python爬虫工程师和想掌握python爬虫技术的同学借鉴学习。...

    81个Python爬虫源代码+九款开源爬虫工具.doc

    Python爬虫技术是数据获取和分析领域的重要工具,尤其在互联网信息海量的今天,爬虫可以帮助我们自动化地从网站上抓取大量数据。以下是一些关于Python爬虫的知识点,以及提到的一些开源爬虫工具: 1. **Python爬虫...

    Python爬虫

    Python爬虫是编程领域中一个重要的知识点,尤其在数据挖掘和信息分析中广泛应用。本项目主要涉及了Python语言、网络爬虫技术、HTML解析库BeautifulSoup以及数据库管理系统MySQL。 首先,Python作为一门强大的脚本...

    零基础Python爬虫从入门到精通-视频教程网盘链接提取码下载 .txt

    针对零基础的同学可以从头学起,具备Python基础的同学建议直接从第52集开始学习爬虫部分视频。教程中示例了多种网站的爬取,包括设计类网站、招聘类网站、图书类网站、图片素材类网站等,还讲解了验证码的破解和常见...

    简单的python爬虫,代码完整

    本资源提供了一个完整的Python2.7版本的简单网络爬虫代码,旨在帮助学习者理解和实践爬虫的基本原理。 首先,我们要了解Python爬虫的基本构成。一个基础的Python爬虫通常包括以下部分: 1. **URL管理器**:负责...

    Python爬虫小案例

    python爬虫案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫...

    python爬虫教程系列、从0到1学习python爬虫

    python爬虫教程系列、从0到1学习python爬虫 python爬虫教程系列、从0到1学习python爬虫,包括浏览器抓包,手机APP抓包,如 fiddler、mitmproxy,各种爬虫涉及的模块的使用,如:requests、beautifulSoup、selenium、...

    Python爬虫开发:从入门到实战(微课版).pptx

    《Python爬虫开发:从入门到实战》是一本详尽介绍Python爬虫技术的书籍,适合初学者和有一定编程基础的读者。通过本书,读者将系统地学习爬虫开发的各个方面,从基础知识到实战技巧。 首先,书中涵盖了Python的基础...

    2024年的必考python爬虫面试题10个.zip

    每个问题都配有详细答案,帮助求职者全面掌握Python爬虫技术,提升面试成功率。 适用人群: 想要从事Python爬虫工作的开发者 准备Python爬虫技术面试的求职者 对Python爬虫感兴趣,希望深入学习的技术爱好者 使用...

    python爬虫,简陋的pixabay图片下载器

    python爬虫,简陋的pixabay图片下载器python爬虫,简陋的pixabay图片下载器python爬虫,简陋的pixabay图片下载器python爬虫,简陋的pixabay图片下载器python爬虫,简陋的pixabay图片下载器python爬虫,简陋的pixabay...

    Python爬虫:爬取网页内容

    python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例...

Global site tag (gtag.js) - Google Analytics