0 0

想写一个爬虫程序,用什么框架比较好0

RT 想用java写个爬虫 主要想爬取微博的数据 求指教
2012年5月27日 16:22

4个答案 按时间排序 按投票排序

2 0

采纳的答案

1、页面请求使用httpclient比较好,如果涉及多线程最好使用4.x版本
2、页面解析,推荐使用jsoup,功能比较强大

另外,针对网络爬虫上面两点是基本的,但是微博数据是需要登录才能获取的,所以需要考虑模拟登录

2012年5月27日 19:21
0 0

这个基本上只能自己做的玩玩,大规模的访问任何微博应该都有ip或者次数限制的,用httpclient+htmlparser就ok了

2012年5月28日 10:32
0 0

apache natch

2012年5月28日 00:26
0 0

用httppaser好像有这方面的功能吧

2012年5月27日 18:00

相关推荐

    不同语言实现的爬虫程序和爬虫框架.zip

    本资源“不同语言实现的爬虫程序和爬虫框架.zip”包含了一个名为"awesome-crawler-master"的开源项目,这个项目汇集了多种编程语言实现的爬虫程序和爬虫框架,旨在为开发者提供丰富的参考和学习材料。 首先,我们来...

    Python网页爬虫程序框架

    Python网页爬虫程序框架 常用的Python网页爬虫程序框架包括: Scrapy:Scrapy是一个强大的开源网络爬虫框架,提供了完整的爬虫流程管理,包括异步IO操作、多线程管理、反爬虫策略等功能。它支持XPath和CSS选择器...

    完整版Python网络爬虫之Scrapy爬虫框架使用案例教程含源代码共18页.pdf

    小刮刮是一个为遍历爬行网站、分解获取数据而设计的应用程序框架,它可以应用在广泛领域:数据挖掘、信息处理和或者历史片(历史记录)打包等等。 尽管小刮刮原本是设计用来屏幕抓取(更精确的说,是网络抓取)的...

    网络爬虫程序-网络爬虫程序

    网络爬虫程序是一种自动化浏览互联网并抓取网页信息的程序,它是数据分析、搜索引擎优化和大量信息获取的重要工具。网络爬虫通过模拟人类浏览器的行为,遵循HTTP/HTTPS协议,逐个请求网页,解析其中的数据,然后按照...

    12个蜘蛛程序爬虫程序集合

    标签进一步揭示了相关技术细节,如“C#”,这表明至少有一个或多个爬虫程序是使用C#语言编写的。C#是一种面向对象的编程语言,尤其适合开发Windows平台的应用,包括网络爬虫。此外,“NET编程”可能指的是这些爬虫...

    python爬虫框架python爬虫框架python爬虫框架

    Python爬虫框架是用于自动化网页数据抓取的工具,它为开发者提供了便利的接口和功能,使得编写网络爬虫程序变得更加高效和简单。在Python中,有多个知名的爬虫框架,如Scrapy、BeautifulSoup、PyQuery、Selenium等,...

    SSM框架实现爬虫

    在本项目中,"SSM框架实现爬虫"是指利用这些技术来构建一个可以抓取并处理网页数据的程序。下面将详细阐述如何通过SSM框架来实现一个网页爬虫。 首先,**Spring**作为核心容器,负责管理应用中的所有bean,提供依赖...

    一个用java语言编写的网络爬虫程序

    Java编程语言在网络爬虫开发中占据着重要地位,它的强大功能和灵活性使得开发者能够构建复杂的爬虫系统。...对于有兴趣深入学习的人来说,这个Java编写的网络爬虫程序将是一个很好的实践和学习素材。

    Java网络爬虫程序

    Java网络爬虫程序是一种利用Java编程语言开发的自动化工具,用于从互联网上抓取大量信息。这个特定的项目提供了一个完整的实现,具有较强的实用性,可以作为开发者构建自定义爬虫的参考。 首先,我们来看看标签:...

    java开源爬虫框架

    Java开源爬虫框架,如标题所示,主要涉及的是利用Java编程语言进行网络数据抓取的工具,其中WebMagic是一个常见的选择。WebMagic是一个轻量级、可扩展的Java爬虫框架,它允许开发者以简洁的代码实现复杂的网络爬取...

    多网站图片爬虫框架

    “GalleryCrawler”可能是该图片爬虫框架的名称,暗示其可能具有展示或管理抓取到的图片的功能,就像一个画廊一样。用户可能可以通过此框架生成的目录或数据库浏览和管理抓取的图片,方便进一步处理和分析。 综合...

    简易爬虫程序源码

    【简易爬虫程序源码】是一种基础的网络爬虫实现,它主要利用.NET框架中的`WebRequest`和`HttpWebResponse`类来与服务器进行交互,获取网页的HTML源代码。在这个过程中,开发者通常会编写代码来模拟用户浏览网页的...

    Python-一个简单的糗百段子爬虫程序

    在这个"Python-一个简单的糗百段子爬虫程序"中,我们将深入探讨如何使用Python编写一个爬虫来抓取糗事百科网站上的段子数据。 首先,我们需要了解网络爬虫的基本概念。网络爬虫是自动遍历互联网并抓取网页信息的...

    Python程序设计:Scrapy爬虫框架的使用.pptx

    新建项目 (scrapy startproject xxx):新建一个新的爬虫项目 明确目标 (编写items.py):明确你想要抓取的目标 制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页 存储内容 (pipelines.py):设计管道存储...

    爬虫scrapy框架小实例

    在这个"爬虫scrapy框架小实例"中,我们将探讨如何在DOS命令行环境下使用Scrapy来创建并运行一个简单的爬虫。 首先,我们需要确保已经安装了Python和Scrapy。在Python环境中,可以使用`pip install scrapy`命令来...

    爬虫框架是什么?常见的Python爬虫框架有哪些?.docx

    Scrapy 是一个功能强大且广泛使用的爬虫框架,可以满足简单的页面爬取需求,如爬取 Amazon 商品信息等。它具有灵活的架构,可以轻松地爬取数据。但是,对于复杂页面的爬取,如微博页面信息,Scrapy 框架可能就不够用...

    Python-一个订制的爬虫框架

    【Python-一个订制的爬虫框架】 在Python开发领域,Web爬虫是获取大量网络数据的重要工具。自定义爬虫框架允许开发者根据特定需求构建高效、可维护的爬虫项目,以适应不同网站的数据抓取挑战。本教程将深入探讨如何...

    Java爬虫框架(20210809123939).pdf

    这些组件分别负责任务的调度、执行、内容提取和解析等关键功能,是一个爬虫程序的基本组成部分。 2. 任务队列管理:在爬虫框架中,任务队列的管理非常关键。任务队列确保了爬取任务的有序执行,并且根据不同的策略...

    网络爬虫程序源码 c++写的

    标题 "网络爬虫程序源码 c++写的" 描述了一个使用C++编程语言实现的网络爬虫项目。网络爬虫是自动浏览互联网并提取网页信息的程序,它们在网络数据挖掘、搜索引擎索引等方面发挥着重要作用。这个项目在Microsoft ...

Global site tag (gtag.js) - Google Analytics