最近写了个Python爬虫，记录一下学到的东西 - 小白·菜 - ITeye博客

`

小白·菜

浏览: 204722 次
性别:
来自: 长沙

最近访客更多访客>>

China_yl

yoaan

a19905522

hanwei1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

yingzhixing： zqb666kkk 写道HSSFDateUtil.isCell ...
[原创]JexcelApi和POI导入Excel日期识别成数字的解决方案
yingzhixing：哈哈完美解决poi~~~
[原创]JexcelApi和POI导入Excel日期识别成数字的解决方案
zqb666kkk： HSSFDateUtil.isCellDateFormatte ...
[原创]JexcelApi和POI导入Excel日期识别成数字的解决方案
sunny3super：是的，python 爬虫的部分，我也做过记录：http://w ...
最近写了个Python爬虫，记录一下学到的东西
Rexwong：
[转]UML类图中的关联、聚合、组合

最近写了个Python爬虫，记录一下学到的东西

博客分类：

Python

Python OS Jython HTML

阅读更多

urllib2 是针对文本的 urllib 是针对二进制文件的

下载文件最简单的写法

urllib.urlretrieve(url, filePath + fileName)

如果需要访问非英文页面文字，自行 decode
```
html.decode('euc-jp').encode('utf-8')
```
使用 BeautifulSoup 处理 html 非常方便，但是在 Jython 下速度超级慢！
可以直接使用正则在 BeautifulSoup 中查找需要的标签
```
links = soup.findAll('a', href=re.compile('^.+?$') 
```
try except else 的应用
强制抛出异常 raise
使用格式化文本实现数字补零
```
fileName = '%03d.jpg' %(time)
```

新建文件夹

if not os.path.isdir(filePath):
            os.mkdir(filePath)

字符串和数字无法相加需要讲数字转化为字符串 str(num)
cmp 可以用来比较两个字符串，完全相同返回 0
# -*- coding: utf-8 -*- 非常重要，不光影响代码中的注释，还会影响到处理文本。起初忘记加这个，导致日文无法正常处理。

分享到：

地图编辑器几种实现的总结 | 地图编辑器开发中的心得

2010-02-22 10:28
浏览 3405
评论(5)
论坛回复 / 浏览 (2 / 8178)
分类:编程语言
查看更多

评论

5 楼 sunny3super 2012-07-30

是的，python 爬虫的部分，我也做过记录：
http://www.yihaomen.com/article/python/210.htm (这是爬 CSDN 的内容)
还有一个记录下载的，必须登录先：
http://www.yihaomen.com/article/python/216.htm

4 楼小白·菜 2010-02-26

慢慢来，现在还只是针对两三个网站抓取特定资源。
慢慢扩展。

3 楼 chenzehe 2010-02-26

我是来看二楼的

2 楼 lsc20051426 2010-02-24

LZ,不用使用代理么？应该把设置代理的部分也加上

1 楼 tlze 2010-02-22

谢谢经验分享，这个要收藏起来认真学习。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python爬虫从入门到精通（模块）: 这份文档旨在帮助想要学习Python爬虫的初学者，从入门到精通逐步提升自己的技能。以下是我们将要涵盖的主题： ## 入门篇 1. Python爬虫简介 2. Requests库的使用 3. Beautiful Soup库的使用 4. 爬虫实战：爬取百度...

81个Python爬虫源代码: 81个Python爬虫源代码，内容包含新闻、视频、中介、招聘、图片资源等网站的爬虫资源

python爬虫：Python 爬虫知识大全: python爬虫：Python 爬虫知识大全； python爬虫：Python 爬虫知识大全； python爬虫：Python 爬虫知识大全； python爬虫：Python 爬虫知识大全； python爬虫：Python 爬虫知识大全； python爬虫：Python 爬虫知识...

Python爬虫框架Scrapy教程完整版PDF: 《Python爬虫框架Scrapy教程》主要是针对学习python爬虫的课程，又基础的python爬虫框架scrapy开始，一步步学习到最后完整的爬虫完成，现在python爬虫应用的非常广泛，本文档详细介绍了scrapy爬虫和其他爬虫技术的...

python爬虫课件+代码.zip: 总之，"python爬虫课件+代码.zip"提供的学习资源涵盖了Python爬虫的基础到进阶，包括请求与响应处理、HTML解析、数据提取、数据存储等多个方面，结合实际代码操作，有助于你快速上手并掌握爬虫技术。在跟随路飞学城...

Python爬虫框架Scrapy教程《PDF文档》: 《Python爬虫框架Scrapy教程》主要是针对学习python爬虫的课程，又基础的python爬虫框架scrapy开始，一步步学习到最后完整的爬虫完成，现在python爬虫应用的非常广泛，本文档详细介绍了scrapy爬虫和其他爬虫技术的...

小白学 Python 爬虫（25）：爬取股票信息: 小白学 Python 爬虫（1）：开篇小白学 Python 爬虫（2）：前置准备（一）基本类库的安装小白学 Python 爬虫（3）：前置准备（二）Linux基础入门小白学 Python 爬虫（4）：前置准备（三）Docker基础入门小白学 ...

python 爬虫入门学习资料: python 爬虫入门学习资料/python 爬虫入门学习资料/python 爬虫入门学习资料/python 爬虫入门学习资料网盘资源

Python爬虫JS逆向进阶课程: 这门课程是Python爬虫JS逆向进阶课程，将教授学员如何使用Python爬虫技术和JS逆向技术获取网站数据。学习者将学习如何分析网站的JS代码，破解反爬虫机制，以及如何使用Selenium和PhantomJS等工具进行模拟登录和数据...

python爬虫20个案例: 讲诉python爬虫的20个案例。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

python爬虫，拉勾网爬虫: python爬虫，拉勾网爬虫python爬虫，拉勾网爬虫python爬虫，拉勾网爬虫python爬虫，拉勾网爬虫python爬虫，拉勾网爬虫python爬虫，拉勾网爬虫python爬虫，拉勾网爬虫python爬虫，拉勾网爬虫python爬虫，拉勾网爬虫...

Python爬虫教学视频-最全的Python爬虫视频教程全集: 本Python爬虫教学视频，全集共51天课程，整套课程以Python语言为核心，通过各种经典案例的讲解，很好的演示了python爬虫如何抓取数据的全过程，非常值得Python爬虫工程师和想掌握python爬虫技术的同学借鉴学习。...

81个Python爬虫源代码+九款开源爬虫工具.doc: Python爬虫技术是数据获取和分析领域的重要工具，尤其在互联网信息海量的今天，爬虫可以帮助我们自动化地从网站上抓取大量数据。以下是一些关于Python爬虫的知识点，以及提到的一些开源爬虫工具： 1. **Python爬虫...

Python爬虫: Python爬虫是编程领域中一个重要的知识点，尤其在数据挖掘和信息分析中广泛应用。本项目主要涉及了Python语言、网络爬虫技术、HTML解析库BeautifulSoup以及数据库管理系统MySQL。首先，Python作为一门强大的脚本...

Python爬虫项目合集（源代码）: Python爬虫项目合集是一个包含了多种Python爬虫技术与实践案例的资源集合，它为学习者提供了丰富的实战素材，帮助他们深入理解网络数据抓取、处理和分析的过程。在这个项目合集中，我们可以找到多种不同类型的爬虫源...

Python爬虫JS逆向进阶课程-课程网盘链接提取码下载 .txt: 这门课程是Python爬虫JS逆向进阶课程，将教授学员如何使用Python爬虫技术和JS逆向技术获取网站数据。学习者将学习如何分析网站的JS代码，破解反爬虫机制，以及如何使用Selenium和PhantomJS等工具进行模拟登录和数据...

Python爬虫教程文档: Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档...

【python爬虫】python爬虫基础知识及简单实践: 【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识...

简单的python爬虫，代码完整: 本资源提供了一个完整的Python2.7版本的简单网络爬虫代码，旨在帮助学习者理解和实践爬虫的基本原理。首先，我们要了解Python爬虫的基本构成。一个基础的Python爬虫通常包括以下部分： 1. **URL管理器**：负责...

Python爬虫小案例: python爬虫案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫...

Global site tag (gtag.js) - Google Analytics