`

你们都用什么来做爬虫的

 
阅读更多
看这里的回复 http://www.v2ex.com/t/62657

42 回复  |  直到 2013-03-18 23:08:21 PM
     1
for4   200 天前   ♥ 3
Python
+requests
+lxml
+celery

     2
xdeng   200 天前
@for4 -.-! 要学这么多东西啊
     3
for4   200 天前
@xdeng
第一个是编程语言
后面三个是可能需要用到的库

这是我认为的写一个爬虫最简单易学的搭配
     4
xieren58   200 天前
Node + jquery
     5
liuxurong   200 天前
我是 requests + pyquery

另外
@for4 celery通常用来做什么
     6
xdeng   200 天前
@xieren58
@liuxurong 这个网站里的全都是 做网页的么
     7
shinwood   200 天前   ♥ 2
试过python + Scrapy,感觉不错。

http://scrapy.org/
     8
greatghoul   200 天前
@shinwood 这个用起来的确骚爽。
     9
colincat   200 天前 via Android
java
     10
for4   200 天前   ♥ 1
@liuxurong
我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做.
还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑
     11
wingoo   200 天前
scrapy
     12
twm   200 天前
JAVA PHP
     13
dulao5   200 天前
PHP + curl_multi_*

不过以后应该尝试nodejs了,并发容易实现,解析页面里的js更有优势。
     14
xjay   200 天前
scrapy
不解释

     15
PrideChung   200 天前
ruby+norogiri
http://nokogiri.org/
     16
amxku   199 天前
Python
+curl
+celery

     17
1up   199 天前
http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/ Web Scraping 101 with Python
     18
cloverstd   199 天前
Python: urllib, urllib2, re
     19
sobigfish   199 天前
前几天 用nodejs写个玩,但不知道怎么部署在只有web服务的 PaaS上-,-
cheerio很好用阿,完全是jQuery的语法。

require('http');require('cheerio');require('iconv').Iconv;require('mongodb');
     20
chuck911   199 天前
还有人写个爬虫还非要用芹菜...

Scrapy爽是因为它基于事件驱动的Twisted,我以前也很爱Scrapy,后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒
     21
atom   199 天前
@twm
@colincat
同为javaer,能否推荐下是哪个库?
     22
sohoer   199 天前
@atom
JAVA?
HttpURLConnection + Regex = Spider

     23
Linxing   199 天前 via Android
python beautifulsoup urlib爬文章
     24
liuxurong   199 天前
@for4 谢谢。有没有celery的中文资料
     25
crazybubble   199 天前   ♥ 1
@atom 用regex来做html parsing不推荐,我推荐用jsoup。
     26
colincat   199 天前 via iPhone
@sohoer htmlparse httpclient
     27
workaholic   199 天前   ♥ 1
php+snoopy
     28
akalanala   199 天前
@crazybubble 同推荐.
     29
binux   199 天前
python + tornado AsyncHTTPClient + PyQuery
     30
sonicwu   199 天前
Java
+ jsoup

Python
+ Beautiful Soup
+ urllib
+ lxml

     31
dingyaguang117   199 天前
Python
+ Beautiful Soup
+ lxml
+ Scrapy

     32
atom   199 天前
@crazybubble
是个很棒的库,看到 http://try.jsoup.org/ 我就喜欢上它了
     33
zoran   198 天前
Java 可以试试这个 https://github.com/zhuoran/crawler4j
     34
yangxin0   198 天前
看过别人用C
     35
Xrong   198 天前
希望大家给推荐PHP的,毕业设计打算用这玩意写;都说用PHP写不大方便,但是还是希望大伙有写过的,提供源码参考下,有在线资源的也行。
     36
zdwalter   197 天前
phantomjs, casperjs
     37
zhouquanbest   196 天前
python + pyquery 是个好东西
会jquery就能写
     38
nojt7Zm   194 天前
php
     39
kingwkb   194 天前
之前用python,现在换到ruby

http://s.yanghao.org/
     40
gameending   194 天前
python跟java都写过,python很简洁,java的话我觉得也还不错
     41
lbj96347   194 天前
node.js or python. :-)
     42
kdepp   82 天前
node + cheerio
分享到:
评论

相关推荐

    爬虫代码(爬虫小说代码)

    【描述】:“爬取小说代码,希望大家能够快速入门爬虫”表明这个资源是为初学者设计的,目的是帮助他们迅速掌握爬虫技术。通常,爬虫的学习会涉及Python编程语言,因为Python拥有丰富的库支持,如BeautifulSoup、...

    一个简单的java爬虫产品

    虽然开始决定选用Heritrix来执行爬虫操作,但是后来发现用它来做还是存在一定的问题,比如需要程序生成相应的XML文件,对于同一个Job,怎样才能保证重复运行该Job时文件夹始终是同一个(Heritrix为Job创建文件夹的...

    爬虫资料论文 对学习爬虫很有帮助

    这些资料对于初学者和有经验的开发者来说都是宝贵的资源,通过学习和实践,你可以提升自己的爬虫技能,更好地应对实际工作中的数据获取需求。所以,无论是个人兴趣还是职业发展,投资在爬虫技术的学习上都是非常值得...

    大数据爬虫技术第9章 存储爬虫数据.ppt

    在实际使用中,上述两种数据库各有利弊,都能够用做数据存储,大家可以根据自己的需求进行相应的选择。 01 数据存储简介 02 MongoDB数据库简介 03 使用PyMongo库存储到数据库 MongoDB是一款基于分布式文件存储的...

    小爬虫(爬取网站的数据)

    这是一个小型爬虫 可以帮助大家更好的理解什么是爬虫 爬虫可以用来做什么

    tumblr爬虫

    python写的tumblr爬虫~~~~~~~~~~~~~~~~~~。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。~~~~好东西

    简单网络爬虫20140416

    此处资源与我的博客相关,大家可以互相参考:) 网络爬虫系列之一:通过URL下载网页 http://blog.csdn.net/huzhengnan/article/details/22288897 网络爬虫系列之二:对下载页面进行链接解析 ...网络爬虫系列之三:简单...

    易语言超简单爬虫代码【开源】

    在这个项目中,开发者用易语言编写了一段简单的爬虫代码,用于抓取一个特定的PPT模板下载网站的所有数据。 爬虫,全称网络爬虫,是一种自动化地从互联网上搜集信息的程序或脚本。在本案例中,这个爬虫可能是通过...

    自写python爬虫壁纸软件

    5. **学习与交流**:作为一个适合新手学习的项目,"自写Python爬虫壁纸软件"鼓励大家动手实践,并通过分享与讨论提升技能。你可以尝试优化爬虫的效率,增加功能,如按颜色、分辨率筛选壁纸,或者设计更个性化的用户...

    用Python爬虫抓站的一些技巧

    用Python爬虫抓站的一些技巧,希望对大家有用,谢谢。

    大家说的Python爬虫是指什么?学会Python爬虫需要了解的五大方面.docx

    # 大家说的Python爬虫是指什么?学会Python爬虫需要了解的五大方面 Python爬虫是一种自动化程序,它可以模拟人类在互联网上的行为,从而自动收集互联网上的信息。因此,Python爬虫在各个领域都非常有用,比如信息...

    详解爬虫与 RPA 的工作原理和差异

    大家把 RPA 和爬虫联系在一起也不奇怪。当RPA被用来展示功能的时候,方便起见,通常就是设定一个 RPA 采集某个网站特定信息的自动化工作流程,生成一个表单,用以演示资料整理工作自动化的迅速高效。这项工作和爬虫...

    网络爬虫论文资料,其中有很多论文,足够大家研究了

    8. **深度学习与爬虫**:近年来,深度学习在爬虫中的应用日益增多,如使用神经网络模型预测网页结构,提高解析效率,或通过机器学习方法识别验证码,提升爬虫的生存能力。 9. **分布式爬虫**:对于大规模数据抓取,...

    人工智能-项目实践-多线程-多线程爬虫-抓取淘宝商品详情页URL.zip

    我会将抓取到的数据(近9万商品详情页URL)提供给大家,如果大家需要真正的商品信息,而你们又没有什么好的办法,那么就花半天时间阅读一下此项目的源码吧,最后只要在这个代码的框架上稍作修改,这个多线程爬虫系统...

    《零基础:21天搞定Python分布爬虫》课件

    《零基础:21天搞定Python分布爬虫》这个课程针对初学者,旨在通过21天的学习,帮助大家掌握Python爬虫的基础知识以及分布式爬虫的实现。下面,我们将深入探讨该课程可能涵盖的一些关键知识点。 首先,Python爬虫的...

    python爬虫爬取糗事百科内容

    糗事百科的爬虫,是主要用来介绍爬虫的一些基本知识,方便大家爬取简单的糗事百科的内容,利用的是beautifulsoup

    电影评论爬虫程序

    电影评论爬虫程序,从豆瓣网爬取电影评论。欢迎大家使用。

    爬虫之反爬防御selenium.zip

    爬虫之反爬防御selenium.zip selenium这个爬虫利器,想必大家都用过.那作为网站一方如何反爬防御它呢?

    Java 网络爬虫代码例子

    Java爬虫代码,例子十分简单,很容易接入,希望能帮助到大家。

    毕业设计:基于Python的网络爬虫及数据处理(智联招聘)

    基于Python的网络爬虫,爬虫目标网站为智联招聘,爬取内容为各职业的薪资、技能要求、工资地点等信息,爬取信息转换为散点图和柱状图,并加入了tkinter图形操作界面以增加毕业设计的工作量。...可以做毕业设计用

Global site tag (gtag.js) - Google Analytics