`
carlwu
  • 浏览: 1468 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

行业垂直搜索引擎网页抓取项目

阅读更多
公司有一个搜索引擎项目,希望各路高人有空来帮忙指导,谢谢!
这是详细需求:
(1) 通过提供的网站地址(大概100-200个网站),网页抓取程序能不断抓取网页和其它类型的文件(如Excel、PDF、Word、ppt及zip类型),并且程序能够根据事先提供的规则,过滤掉不相干的下载内容。
(2) 程序能够搜索这些抓取的内容,并能对这些抓取文件按照油田名进行分类,然后放到服务器不同的目录中。
(3) 系统最好用Java开发,可以使用HttpClient, Nutch, Heritrix等一些开源软件。需要提供能维护的、可读的源代码;
(4) 系统要求在一周内要遍历所有给定的网址,搜索速度要求能够接受。并且系统能够根据我们提供的用户名和口令自动登录某些网站进行有目的的抓取,要支持https及其他协议;要求支持英文和汉语及其它语言。
(5) 开发费用12000元,按照项目进展程度支付。
分享到:
评论

相关推荐

    综合搜索引擎与垂直搜索引擎的比较研究

    综合搜索引擎与垂直搜索引擎作为互联网信息服务的两大主要工具,正日益成为人们检索和获取信息的重要途径。在本文中,我们将探讨两者在...同时,综合搜索引擎与垂直搜索引擎之间的竞合关系也将是行业持续关注的焦点。

    垂直搜索引擎抓取数据的采集系统

    垂直搜索引擎是一种针对特定领域、行业或主题的搜索引擎,与通用搜索引擎相比,它具有更高的专业性和针对性。本系统设计的核心目标是高效地从互联网上抓取特定领域的数据,并将其存储到数据库中,以便后续的索引和...

    垂直搜索引擎的抓取技术研究

    本文首先介绍了垂直搜索抓取系统的体系结构,提出了一种分布式和基于可展插件的垂直搜索抓取系统框架,其分布式特性和插件模式都便于将来的扩。然后讨论了垂直搜索抓取系统中隐蔽网抓取的三个问题,并针对隐蔽网抓取...

    heritrix与Lucene的垂直搜索引擎研究

    网页爬虫是垂直搜索引擎的基础,它负责从互联网上抓取网页。爬虫从一组预定义的URL开始,自动地访问这些网页,并从中提取链接,继续访问链接指向的新网页。这一过程不断重复,直到达到预定的目标或者满足某个停止...

    前程无忧垂直搜索引擎项目实战

    《前程无忧垂直搜索引擎项目实战》是一门深度探讨如何构建高效、针对性强的搜索引擎的实践课程。本项目主要聚焦在Java技术栈上,利用DWR(Direct Web Remoting)进行前后端交互,同时结合了Lucene和Heritrix这两款...

    基于Java的垂直搜索引擎的设计与实现.pdf

    - **垂直搜索引擎定义**:垂直搜索引擎是一种专门针对某一特定领域或主题的搜索引擎,例如医疗、法律或购物等领域。它与通用搜索引擎不同之处在于,后者覆盖广泛的主题,而前者则专注于某一细分领域。 - **垂直搜索...

    利用开源工具搭建小型搜索引擎

    以抓取结果作为数据库,建立垂直搜索引擎,实现这些网站信息的抽取、索引和检索。网页数目不少于1万条。 3)搜索测试:搭建web平台(建议通过Tomcat实现),通过web平台实现垂直搜索引擎系统的搜索功能。

    垂直搜索引擎网络爬虫的研究与实现.pdf

    ### 垂直搜索引擎网络爬虫的研究与实现 #### 概述 《垂直搜索引擎网络爬虫的研究与实现》是一篇由苏州大学计算机应用技术专业的硕士研究生刘忠撰写的硕士学位论文,指导教师为刘全教授。该论文主要研究了基于强化...

    垂直搜索引擎源代码

    垂直搜索引擎是一种针对特定领域、行业或主题的搜索引擎,与通用搜索引擎如Google或Bing不同,它们专注于提供某一专业领域的深度信息检索。这个源代码可能是实现这样一个定制化搜索系统的基石,旨在提供高效、高并发...

    垂直搜索引擎的研究与设计

    垂直搜索引擎专注于某一特定行业领域,为用户提供更加精准的信息和服务。本文将重点探讨垂直搜索引擎中的关键技术,并介绍一个具体的垂直搜索引擎设计案例。 #### 二、垂直搜索引擎的关键技术 ##### 2.1 网络爬虫 ...

    基于Lucene+webmagic实现的垂直搜索引擎

    在这个项目中,我们探索了如何结合Apache Lucene和WebMagic这两个强大的工具来构建一个专门针对交通领域的垂直搜索引擎。Apache Lucene是一个开源全文搜索引擎库,它提供了高级文本分析和索引功能,而WebMagic则是一...

    基于Lucene_Heritrix的垂直搜索引擎的研究与应用

    1. **定义爬取范围**:首先确定垂直搜索引擎的目标领域,并配置Heritrix以抓取该领域的网页数据。 2. **数据预处理**:对抓取到的数据进行清洗和预处理,例如去除HTML标签、提取关键信息等。 3. **建立索引**:使用...

    基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现

    这篇论文的核心是利用开源工具Lucene和Heritrix来构建一个针对职位信息的垂直搜索引擎,旨在提高招聘行业的信息检索效率和准确性。 首先,Lucene是一个强大的全文搜索引擎库,它提供了文本分析、索引和搜索的基本...

    垂直搜索引擎爬虫系统的研究与实现

    ### 垂直搜索引擎爬虫系统的核心知识点 #### 1. **垂直搜索引擎的概念与优势** 垂直搜索引擎是指专门针对某一特定领域、特定人群或特定需求提供信息和服务的搜索引擎。与通用搜索引擎相比,它更加聚焦和精准,能...

    垂直搜索引擎开发房产行业实例实用.pdf

    垂直搜索引擎是一种针对特定行业或领域的数据检索工具,它与通用搜索引擎如百度、谷歌的主要区别在于,通用搜索引擎追求的是互联网范围内的广度和全面性,而垂直搜索引擎则更注重行业内的深度和专业性,可以称为行业...

    垂直搜索引擎发展方向.pdf

    垂直搜索引擎是针对特定领域、行业或主题的专业搜索引擎,它们专注于某一类信息,如房产、求职、学术研究等,为用户提供更精确、更专业的搜索结果。相较于通用搜索引擎,垂直搜索引擎能够更好地满足用户在特定领域的...

Global site tag (gtag.js) - Google Analytics