`

Larbin 网络爬虫在Linux下的配置 ---终于搞定了

阅读更多

我主机是Windows XP系统,又装了ReaHat虚拟机在上边(Labin目前好像还不支持Windows,不得已而为之)

1. labin-2.6.2解压缩 (on Windows XP)


2. options.h 注释掉options.h中的这行:#define DEFAULT_OUTPUT // do nothing... 让SIMPLE_SAVE :生效 (on Windows XP using VC6.0)


3. ./adns/internal.h 568-571行注释掉;
   #include <sys/poll.h>//added by chuyanli for struct pollfd on line 303
   注释掉PRINTFFORMAT(4,5) on line 323 325 327

4. larbin.conf 在这个文件中可以修改starturl Proxy 连接数等等(on Windows XP using VC6.0)

5. VM->settings->share->add this file "larbin" in

6. on RedHat VM terminal
->cd /
->cd mnt
->cd hgfs
->cd larbin
->./configure (编译会有2个左右的error,没关系,继续往下进行)
->make (如果成功,则生成larbin文件)
->./larbin ()
中止 ->ctrl + c
重起 ->./larbin -scratch

 

我当时是第3条的最后一步没做好,导致编译了半天,也郁闷个半死。。。还好还好,爬虫开始爬了!

 

爬到的网页放在larbin->save文件夹中,每1000个网页为一个子文件夹,里边有index索引文件,记录了爬过的url序列,正好为我所用哈哈!

分享到:
评论

相关推荐

    larbin-高效网络爬虫

    **larbin-高效网络爬虫** larbin是一个高效且开源的网络爬虫,主要用于Linux操作系统。这个工具在互联网数据抓取领域中具有显著的地位,尽管随着时间的推移,它的使用可能已被其他更现代的爬虫如Nutch所取代,但...

    larbin2.6.3爬虫程序

    2. **编译安装**:解压下载的larbin-2.6.3压缩包,然后执行`./configure`、`make`和`make install`进行编译和安装。 3. **配置文件**:larbin的配置文件`larbin.conf`允许用户定制爬虫的行为,如设置抓取速度、保存...

    larbin 网络爬虫

    **larbin网络爬虫详解** ...总之,larbin是一个实用的网络爬虫工具,通过灵活的配置和高效的爬取能力,能够满足不同场景下的数据抓取需求。对于想了解和实践网络爬虫技术的人来说,larbin是一个很好的学习起点。

    larbin网络爬虫的体系结构[参照].pdf

    **larbin网络爬虫概述** larbin是一款开源的、高效的Web爬虫软件,主要用于抓取互联网上的网页数据。它的设计目标是快速、可扩展,并且能够处理大量的URL。larbin由孟时和王彦等人开发,它在哈尔滨工业大学计算机...

    larbin源码 c++的网络爬虫

    在深入理解larbin源码之前,我们首先需要对网络爬虫的基本原理有所了解。 网络爬虫,也称为网络蜘蛛或Web爬虫,是一种自动化程序,它遍历互联网并收集网页信息。爬虫通过跟踪网页上的超链接来发现新的页面,并将...

    如何配置Larbin - 翻译

    Larbin是一款高效、灵活的网络爬虫工具,能够帮助用户抓取网络上的信息。本文将详细介绍如何配置Larbin,使其更好地满足用户的个性化需求。 #### 用户输出文件(User Output File) 在定制Larbin的过程中,最关键的...

    网络爬虫larbin

    larbin是一款经典的网络爬虫,它以其高效和易用性在开源社区中广受好评。 **larbin的核心特性** 1. **异步域名解析(ASDN)**:larbin采用了ASDN(Asynchronous DNS Name Resolution)技术,意味着在解析域名时,...

    larbin-2.6.3

    【larbin-2.6.3】是一款开源的网络爬虫软件,由一位国外开发者创建。这个项目在互联网上广泛传播,为其他开发者提供了一个学习和研究网络爬虫技术的平台,具有一定的教学和实践价值。它展示了如何设计并实现一个能够...

    从Larbin看互联网爬虫设计

    Larbin是一个开源的网络爬虫项目,其设计思路体现了爬虫开发中的关键要素。 **1. 效率优化** 在设计爬虫时,首要考虑的是效率。Larbin提供了三种不同的网络通信策略: - **单线程阻塞**:这是最基础的方法,但...

    Larbin

    Larbin 是一个开源的、高度可配置的网络爬虫软件,主要用于在网络中抓取网页内容。它能够遍历互联网上的链接,收集网页信息,为数据分析、搜索引擎索引或其他相关应用提供原始数据。Larbin 的设计目标是高效、快速地...

    larbin开源代码

    larbin是一个开源的网络爬虫工具,主要用于在Linux环境下抓取互联网上的资源。它的设计目标是高效、灵活,并且易于使用。larbin以其强大的抓取能力和对多种网络环境的适应性获得了广泛的认可。此工具能够帮助用户...

    larbin的头文件可用于网络爬虫

    这个是larbin的头文件,其实这个在哪都可以找到,我只想要赚点积分。各位乡亲父老好不好啊?

    网络爬虫设计与实现毕业设计论文.pdf

    10. 相关技术工具:文档还列出了在设计网络爬虫时可能使用到的工具和框架,例如Nutch、Larbin和Heritrix。这些工具和框架各有特点,能够帮助开发者更高效地实现网络爬虫的功能。 综上所述,网络爬虫的设计与实现是...

    著名的网络爬虫程序+源代码

    "larbin-2.6.3" 是一个具体的网络爬虫项目,名为Larbin。Larbin是一款开源、高效、可配置的网络爬虫,由C语言编写,适用于大规模网页抓取。它能够并行抓取网页,具有良好的扩展性和性能。Larbin的特点包括: 1. **...

    网络爬虫调研报告样本.doc

    网络爬虫在选择下一个要访问的链接时,通常会依据某种“重要性”或“价值”标准,这涉及到链接的评价算法。例如,PageRank算法是Google搜索引擎早期的一种链接评价方法,它考虑了一个页面被其他页面链接的数量和质量...

    修改好的larbin源代码

    总结来说,这个"修改好的larbin源代码"提供了一个在Ubuntu 8.10上运行良好的网络爬虫解决方案,涵盖了网络爬虫的基本要素,包括URL管理、网络I/O、页面解析、数据存储和用户配置。用户需要熟悉这些模块的原理和用法...

    larbin编译环境及在scanner中搭建交叉编译环境

    本篇文章将详细介绍如何在Linux环境下搭建larbin的编译环境以及将其应用于扫描器(Scanner)的交叉编译。 **一、编译环境搭建** 1. **安装基础构建工具** 在开始编译larbin之前,首先需要确保系统安装了`build-...

Global site tag (gtag.js) - Google Analytics