`
poson
  • 浏览: 361558 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

垂直搜索数据源问题

阅读更多

 

垂直搜索与web搜索有很大的不同,一个非常大的区别在于对数据的获取。
google、百度的数据来自互联网。通过spider工具爬取得来。获取的网页通过去重,去除垃圾网站,最后通过适当的排序排序算法呈现在用户面前。
而垂直搜索的数据多数需要大量手工或者半自动化的处理,搜索的准确性、质量得到很多的提高。但是分析那些数据已经更新,如何得到新的数据,面临很多的困难。
可以简单的认为,web搜索引擎的数据来自一个开发的互联网系统,数据由web用户提供、更新。而垂直搜索引擎的数据是一个相对封闭的系统,需要相关公司不断的整理和更新。数据越多、维护起来也就越麻烦。
各个同类的垂直搜索不仅仅要比拼搜索的算法,还要比拼谁的数据丰富,谁的数据更新快,谁的数据更准确。

分享到:
评论

相关推荐

    垂直搜索引擎源代码

    总结起来,垂直搜索引擎源代码提供了一套完整的解决方案,涵盖了数据获取、处理、存储和查询的全链条。它不仅展示了搜索引擎的关键技术,也体现了对大规模数据处理和高并发场景的优化,对于学习和开发类似系统的人员...

    很难找到的垂直搜索源代码

    1. 数据收集:垂直搜索首先需要从各种数据源(如网站、数据库、API等)抓取和获取相关领域的信息。这通常涉及到网络爬虫技术,包括URL管理、HTML解析和内容提取。 2. 数据预处理:获取的数据需要进行预处理,包括...

    C#垂直搜索网站代码下载

    "LetSearch"可能是搜索系统的源代码或项目文件,包含了实现垂直搜索功能的所有组件。"InsApp"可能是一个安装程序或应用,用于部署和运行搜索系统。 总的来说,这个项目提供了从后端索引构建到前端搜索展示的完整...

    Lucene实现的数码产品垂直搜索引擎

    HTMLParser是一个用于处理HTML文档的Java库,它可以提取出页面中的文本信息,去除HTML标签,为后续的分词和索引创建提供纯净的数据源。这一步至关重要,因为搜索引擎需要处理的是纯文本内容,而不是HTML结构。 接着...

    基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现

    1. **数据源选择**:如何确定和筛选出包含职位信息的网站,以及如何设定爬虫的种子URL。 2. **网页解析**:使用什么技术(如HTML解析库或XPath)从HTML文档中提取职位信息,如职位名称、公司名、地点、薪资等。 3....

    奥搜垂直搜索引擎 v6.0标准版

    这可能意味着奥搜垂直搜索引擎的部分或全部源代码可能在这个网站上可以获取,这对于开发者来说是极有价值的,他们可以研究源代码,理解其工作原理,甚至进行二次开发或定制。 "so2008search"可能是一个文件夹或者...

    小旋风垂直搜索平台,快速拱建垂直搜索引擎

    小旋风垂直搜索平台 源代码共享计划 小旋风是什么? 小旋风是一款集多任务、多线程智能网络爬虫、基于xml / xpath的路径规则的数据抽取系统、无缝集成lucene.net2.3全文索引系统,高性能中文分词组件、多数据库支持...

    基于垂直搜索的机票搜索系统的设计与实现

    通过以上内容可以看出,基于垂直搜索思想的机票搜索系统不仅能够有效地解决用户在众多网站中查找合适机票的问题,还能提供更加个性化和精准的服务体验。这种系统的实现涉及到了一系列复杂的技术环节,包括网页抓取、...

    TRS 垂直搜索引擎白皮书

    #### 五、TRS搜索引擎解决了垂直搜索的哪些问题? ##### 5.1 提供模版技术,实现网络元数据的采集 TRS搜索引擎通过提供模板技术,可以轻松实现对网络元数据的有效采集和管理,提高信息的完整性和一致性。 ##### ...

    SOPI垂直搜索引擎系统 2.2.1.rar

    垂直搜索引擎与传统通用搜索引擎的最大区别在于其数据源和索引策略。它们通常从特定的、有限的网站或数据库中抓取信息,对这些信息进行深度处理和结构化,以便快速、准确地响应用户的查询。这涉及到以下几个关键步骤...

    一个基于C#+VS2008实现的网博垂直搜索引擎源代码完全开源

    该资源是一个基于C#编程语言和Visual Studio 2008开发环境构建的网博(网络博客)垂直搜索引擎的完整源代码。垂直搜索引擎是相对于通用搜索引擎(如Google、Bing等)的一种特化搜索工具,它专注于特定领域或主题,为...

    门户垂直搜索应用建议书

    3. **数据源整合**:门户垂直搜索需要整合多来源、多格式的数据,包括网页、文档、视频、音频等,确保全面覆盖行业内信息。 ### 二、AUTONOMY的技术优势 1. **语义理解**:AUTONOMY的搜索技术基于语义分析,能理解...

    基于Heritrix与Lucene的垂直搜索引擎研究

    在新闻垂直搜索引擎的场景下,这一步骤主要包括提取新闻标题、发布日期、作者、正文内容等关键信息,并去除无关元素如广告、导航栏等,确保提取的数据干净、有效。 ##### 2.3 中文分词(Chinese Word Segmentation...

    基于PHP的Sou垂直搜索引擎 1.0 build GBK.zip

    在实际应用中,基于PHP的Sou垂直搜索引擎1.0 build GBK还可能提供了丰富的API接口,方便开发者进行二次开发,例如添加新的数据源、自定义排序规则,甚至集成到其他业务系统中。同时,良好的用户体验设计,如分页显示...

    人工智能-项目实践-搜索引擎-基于垂直搜索引擎的关联关键词数据可视化实现

    相比通用搜索引擎,垂直搜索引擎更注重对特定领域数据的深度挖掘和精确检索。在这个项目中,我们需要设计和构建一个垂直搜索引擎,主要涉及以下步骤: 1. 数据采集:从特定的源获取相关数据,例如网页、数据库或...

    基于主题词库的垂直搜索引擎系统设计与实现.pdf

    不同于通用搜索引擎的全网采集,垂直搜索引擎往往只关注特定的数据源,这些数据源可能是网站、数据库、文件等。采集工具需要按照特定的策略去抓取和处理这些数据源中的信息,并将处理后的数据存入索引库。 索引构建...

    基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现.pdf

    抓取系统是垂直搜索引擎的重要组成部分之一,主要负责从信息源中抓取数据。在这个过程中,Heritrix作为一款强大的爬虫工具,可以被用来高效地获取网络上的图书信息。通过设置合理的爬行规则和过滤条件,Heritrix能够...

Global site tag (gtag.js) - Google Analytics