- 浏览: 3422590 次
- 性别:
- 来自: 珠海
文章分类
- 全部博客 (1633)
- Java (250)
- Android&HTML5 (111)
- Struts (10)
- Spring (236)
- Hibernate&MyBatis (115)
- SSH (49)
- jQuery插件收集 (55)
- Javascript (145)
- PHP (77)
- REST&WebService (18)
- BIRT (27)
- .NET (7)
- Database (105)
- 设计模式 (16)
- 自动化和测试 (19)
- Maven&Ant (43)
- 工作流 (36)
- 开源应用 (156)
- 其他 (16)
- 前台&美工 (119)
- 工作积累 (0)
- OS&Docker (83)
- Python&爬虫 (28)
- 工具软件 (157)
- 问题收集 (61)
- OFbiz (6)
- noSQL (12)
最新评论
-
HEZR曾嶸:
你好博主,这个不是很理解,能解释一下嘛//左边+1,上边+1, ...
java 两字符串相似度计算算法 -
天使建站:
写得不错,可以看这里,和这里的这篇文章一起看,有 ...
jquery 遍历对象、数组、集合 -
xue88ming:
很有用,谢谢
@PathVariable映射出现错误: Name for argument type -
jnjeC:
厉害,困扰了我很久
MyBatis排序时使用order by 动态参数时需要注意,用$而不是# -
TopLongMan:
非常好,很实用啊。。
PostgreSQL递归查询实现树状结构查询
看这里的回复 http://www.v2ex.com/t/62657
42 回复 | 直到 2013-03-18 23:08:21 PM
1
for4 200 天前 ♥ 3
Python
+requests
+lxml
+celery
2
xdeng 200 天前
@for4 -.-! 要学这么多东西啊
3
for4 200 天前
@xdeng
第一个是编程语言
后面三个是可能需要用到的库
这是我认为的写一个爬虫最简单易学的搭配
4
xieren58 200 天前
Node + jquery
5
liuxurong 200 天前
我是 requests + pyquery
另外
@for4 celery通常用来做什么
6
xdeng 200 天前
@xieren58
@liuxurong 这个网站里的全都是 做网页的么
7
shinwood 200 天前 ♥ 2
试过python + Scrapy,感觉不错。
http://scrapy.org/
8
greatghoul 200 天前
@shinwood 这个用起来的确骚爽。
9
colincat 200 天前 via Android
java
10
for4 200 天前 ♥ 1
@liuxurong
我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做.
还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑
11
wingoo 200 天前
scrapy
12
twm 200 天前
JAVA PHP
13
dulao5 200 天前
PHP + curl_multi_*
不过以后应该尝试nodejs了,并发容易实现,解析页面里的js更有优势。
14
xjay 200 天前
scrapy
不解释
15
PrideChung 200 天前
ruby+norogiri
http://nokogiri.org/
16
amxku 199 天前
Python
+curl
+celery
17
1up 199 天前
http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/ Web Scraping 101 with Python
18
cloverstd 199 天前
Python: urllib, urllib2, re
19
sobigfish 199 天前
前几天 用nodejs写个玩,但不知道怎么部署在只有web服务的 PaaS上-,-
cheerio很好用阿,完全是jQuery的语法。
require('http');require('cheerio');require('iconv').Iconv;require('mongodb');
20
chuck911 199 天前
还有人写个爬虫还非要用芹菜...
Scrapy爽是因为它基于事件驱动的Twisted,我以前也很爱Scrapy,后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒
21
atom 199 天前
@twm
@colincat
同为javaer,能否推荐下是哪个库?
22
sohoer 199 天前
@atom
JAVA?
HttpURLConnection + Regex = Spider
23
Linxing 199 天前 via Android
python beautifulsoup urlib爬文章
24
liuxurong 199 天前
@for4 谢谢。有没有celery的中文资料
25
crazybubble 199 天前 ♥ 1
@atom 用regex来做html parsing不推荐,我推荐用jsoup。
26
colincat 199 天前 via iPhone
@sohoer htmlparse httpclient
27
workaholic 199 天前 ♥ 1
php+snoopy
28
akalanala 199 天前
@crazybubble 同推荐.
29
binux 199 天前
python + tornado AsyncHTTPClient + PyQuery
30
sonicwu 199 天前
Java
+ jsoup
Python
+ Beautiful Soup
+ urllib
+ lxml
31
dingyaguang117 199 天前
Python
+ Beautiful Soup
+ lxml
+ Scrapy
32
atom 199 天前
@crazybubble
是个很棒的库,看到 http://try.jsoup.org/ 我就喜欢上它了
33
zoran 198 天前
Java 可以试试这个 https://github.com/zhuoran/crawler4j
34
yangxin0 198 天前
看过别人用C
35
Xrong 198 天前
希望大家给推荐PHP的,毕业设计打算用这玩意写;都说用PHP写不大方便,但是还是希望大伙有写过的,提供源码参考下,有在线资源的也行。
36
zdwalter 197 天前
phantomjs, casperjs
37
zhouquanbest 196 天前
python + pyquery 是个好东西
会jquery就能写
38
nojt7Zm 194 天前
php
39
kingwkb 194 天前
之前用python,现在换到ruby
http://s.yanghao.org/
40
gameending 194 天前
python跟java都写过,python很简洁,java的话我觉得也还不错
41
lbj96347 194 天前
node.js or python. :-)
42
kdepp 82 天前
node + cheerio
42 回复 | 直到 2013-03-18 23:08:21 PM
1
for4 200 天前 ♥ 3
Python
+requests
+lxml
+celery
2
xdeng 200 天前
@for4 -.-! 要学这么多东西啊
3
for4 200 天前
@xdeng
第一个是编程语言
后面三个是可能需要用到的库
这是我认为的写一个爬虫最简单易学的搭配
4
xieren58 200 天前
Node + jquery
5
liuxurong 200 天前
我是 requests + pyquery
另外
@for4 celery通常用来做什么
6
xdeng 200 天前
@xieren58
@liuxurong 这个网站里的全都是 做网页的么
7
shinwood 200 天前 ♥ 2
试过python + Scrapy,感觉不错。
http://scrapy.org/
8
greatghoul 200 天前
@shinwood 这个用起来的确骚爽。
9
colincat 200 天前 via Android
java
10
for4 200 天前 ♥ 1
@liuxurong
我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做.
还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑
11
wingoo 200 天前
scrapy
12
twm 200 天前
JAVA PHP
13
dulao5 200 天前
PHP + curl_multi_*
不过以后应该尝试nodejs了,并发容易实现,解析页面里的js更有优势。
14
xjay 200 天前
scrapy
不解释
15
PrideChung 200 天前
ruby+norogiri
http://nokogiri.org/
16
amxku 199 天前
Python
+curl
+celery
17
1up 199 天前
http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/ Web Scraping 101 with Python
18
cloverstd 199 天前
Python: urllib, urllib2, re
19
sobigfish 199 天前
前几天 用nodejs写个玩,但不知道怎么部署在只有web服务的 PaaS上-,-
cheerio很好用阿,完全是jQuery的语法。
require('http');require('cheerio');require('iconv').Iconv;require('mongodb');
20
chuck911 199 天前
还有人写个爬虫还非要用芹菜...
Scrapy爽是因为它基于事件驱动的Twisted,我以前也很爱Scrapy,后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒
21
atom 199 天前
@twm
@colincat
同为javaer,能否推荐下是哪个库?
22
sohoer 199 天前
@atom
JAVA?
HttpURLConnection + Regex = Spider
23
Linxing 199 天前 via Android
python beautifulsoup urlib爬文章
24
liuxurong 199 天前
@for4 谢谢。有没有celery的中文资料
25
crazybubble 199 天前 ♥ 1
@atom 用regex来做html parsing不推荐,我推荐用jsoup。
26
colincat 199 天前 via iPhone
@sohoer htmlparse httpclient
27
workaholic 199 天前 ♥ 1
php+snoopy
28
akalanala 199 天前
@crazybubble 同推荐.
29
binux 199 天前
python + tornado AsyncHTTPClient + PyQuery
30
sonicwu 199 天前
Java
+ jsoup
Python
+ Beautiful Soup
+ urllib
+ lxml
31
dingyaguang117 199 天前
Python
+ Beautiful Soup
+ lxml
+ Scrapy
32
atom 199 天前
@crazybubble
是个很棒的库,看到 http://try.jsoup.org/ 我就喜欢上它了
33
zoran 198 天前
Java 可以试试这个 https://github.com/zhuoran/crawler4j
34
yangxin0 198 天前
看过别人用C
35
Xrong 198 天前
希望大家给推荐PHP的,毕业设计打算用这玩意写;都说用PHP写不大方便,但是还是希望大伙有写过的,提供源码参考下,有在线资源的也行。
36
zdwalter 197 天前
phantomjs, casperjs
37
zhouquanbest 196 天前
python + pyquery 是个好东西
会jquery就能写
38
nojt7Zm 194 天前
php
39
kingwkb 194 天前
之前用python,现在换到ruby
http://s.yanghao.org/
40
gameending 194 天前
python跟java都写过,python很简洁,java的话我觉得也还不错
41
lbj96347 194 天前
node.js or python. :-)
42
kdepp 82 天前
node + cheerio
发表评论
-
Htmlunit使用
2015-04-11 20:12 1096http://my.oschina.net/u/852445/ ... -
垂直爬虫 webmagic
2014-09-05 20:24 3032新版文档地址 http://webmagic.io/docs/ ... -
python Tkinter的一些记录
2013-10-14 11:06 17871. Label里面的文本对齐方式:http://www.hi ... -
Python中执行外部命令并捕获双向输出
2013-10-12 15:08 2428原文:http://my.oschina.net/qihh/b ... -
python: 界面开发Tkinter
2013-10-10 16:38 1676python GUI开发 工具选择 http://blog.c ... -
Python多线程学习
2013-10-08 09:39 1443http://www.cnblogs.com/tqsummer ... -
问题: Max retries exceeded with url
2013-10-07 11:36 29383解决一: http://stackoverflow.com/q ... -
python + request + lxml的几个例子
2013-10-06 22:09 4474例子没有加入失败后重做的功能,这个也可以考虑增加。 第三个例子 ... -
python对文件的创建等处理
2013-10-06 21:24 1171http://www.qttc.net/201209207.h ... -
python: json,base64 的使用
2013-10-06 19:12 2980JSON 1. import json 2. json.dum ... -
python requests 下载图片和数据库读取
2013-10-02 15:56 18553python requests 下载图片 de ... -
python类型转换
2013-10-01 14:12 1065http://jayzotion.iteye.com/blog ... -
python字符串编码判断
2013-09-30 14:13 2218Python 字符编码判断 http://blog.sina. ... -
Python:数组、列表(list)、字典(dict)、字符串(string)常用基本操作小结
2013-09-30 13:07 13706连接 list 与分割字符串h ... -
Python模块学习 ---- datetime
2013-09-30 09:39 2206[Python Tip]如何计算时间 ... -
python html parser库lxml的介绍和使用
2013-09-30 09:39 7405使用由 Python 编写的 lxml 实现高性能 XML 解 ... -
用Python操作Mysql和中文问题
2013-09-29 13:55 2639http://www.iteye.com/topic/5730 ... -
Python 字符串操作(截取/替换/查找/分割)
2013-09-29 13:01 6223python字符串连接 先介绍下效率比较低的,有些新手朋友就会 ... -
Python中使用中文
2013-09-29 10:25 1148http://blog.csdn.net/kernelspir ... -
Beautiful Soup 中文教程
2013-09-29 09:36 2775http://www.pythonclub.org/modul ...
相关推荐
【描述】:“爬取小说代码,希望大家能够快速入门爬虫”表明这个资源是为初学者设计的,目的是帮助他们迅速掌握爬虫技术。通常,爬虫的学习会涉及Python编程语言,因为Python拥有丰富的库支持,如BeautifulSoup、...
虽然开始决定选用Heritrix来执行爬虫操作,但是后来发现用它来做还是存在一定的问题,比如需要程序生成相应的XML文件,对于同一个Job,怎样才能保证重复运行该Job时文件夹始终是同一个(Heritrix为Job创建文件夹的...
这些资料对于初学者和有经验的开发者来说都是宝贵的资源,通过学习和实践,你可以提升自己的爬虫技能,更好地应对实际工作中的数据获取需求。所以,无论是个人兴趣还是职业发展,投资在爬虫技术的学习上都是非常值得...
在实际使用中,上述两种数据库各有利弊,都能够用做数据存储,大家可以根据自己的需求进行相应的选择。 01 数据存储简介 02 MongoDB数据库简介 03 使用PyMongo库存储到数据库 MongoDB是一款基于分布式文件存储的...
这是一个小型爬虫 可以帮助大家更好的理解什么是爬虫 爬虫可以用来做什么
python写的tumblr爬虫~~~~~~~~~~~~~~~~~~。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。~~~~好东西
此处资源与我的博客相关,大家可以互相参考:) 网络爬虫系列之一:通过URL下载网页 http://blog.csdn.net/huzhengnan/article/details/22288897 网络爬虫系列之二:对下载页面进行链接解析 ...网络爬虫系列之三:简单...
在这个项目中,开发者用易语言编写了一段简单的爬虫代码,用于抓取一个特定的PPT模板下载网站的所有数据。 爬虫,全称网络爬虫,是一种自动化地从互联网上搜集信息的程序或脚本。在本案例中,这个爬虫可能是通过...
5. **学习与交流**:作为一个适合新手学习的项目,"自写Python爬虫壁纸软件"鼓励大家动手实践,并通过分享与讨论提升技能。你可以尝试优化爬虫的效率,增加功能,如按颜色、分辨率筛选壁纸,或者设计更个性化的用户...
用Python爬虫抓站的一些技巧,希望对大家有用,谢谢。
# 大家说的Python爬虫是指什么?学会Python爬虫需要了解的五大方面 Python爬虫是一种自动化程序,它可以模拟人类在互联网上的行为,从而自动收集互联网上的信息。因此,Python爬虫在各个领域都非常有用,比如信息...
大家把 RPA 和爬虫联系在一起也不奇怪。当RPA被用来展示功能的时候,方便起见,通常就是设定一个 RPA 采集某个网站特定信息的自动化工作流程,生成一个表单,用以演示资料整理工作自动化的迅速高效。这项工作和爬虫...
8. **深度学习与爬虫**:近年来,深度学习在爬虫中的应用日益增多,如使用神经网络模型预测网页结构,提高解析效率,或通过机器学习方法识别验证码,提升爬虫的生存能力。 9. **分布式爬虫**:对于大规模数据抓取,...
我会将抓取到的数据(近9万商品详情页URL)提供给大家,如果大家需要真正的商品信息,而你们又没有什么好的办法,那么就花半天时间阅读一下此项目的源码吧,最后只要在这个代码的框架上稍作修改,这个多线程爬虫系统...
《零基础:21天搞定Python分布爬虫》这个课程针对初学者,旨在通过21天的学习,帮助大家掌握Python爬虫的基础知识以及分布式爬虫的实现。下面,我们将深入探讨该课程可能涵盖的一些关键知识点。 首先,Python爬虫的...
糗事百科的爬虫,是主要用来介绍爬虫的一些基本知识,方便大家爬取简单的糗事百科的内容,利用的是beautifulsoup
电影评论爬虫程序,从豆瓣网爬取电影评论。欢迎大家使用。
爬虫之反爬防御selenium.zip selenium这个爬虫利器,想必大家都用过.那作为网站一方如何反爬防御它呢?
Java爬虫代码,例子十分简单,很容易接入,希望能帮助到大家。
基于Python的网络爬虫,爬虫目标网站为智联招聘,爬取内容为各职业的薪资、技能要求、工资地点等信息,爬取信息转换为散点图和柱状图,并加入了tkinter图形操作界面以增加毕业设计的工作量。...可以做毕业设计用