0 0

关于通用搜索引擎 新手问题 请各位老师进!!!!5

我做过垂直搜索引擎(专门搜索手机的),现在我要做一个只关心某一个地区(比如宁波)的通用搜索引擎,该搜索引擎只能搜索到该地区的信息,但是我从垂直搜索到通用搜索这个过程中,有一个问题不知道该怎么处理。
简单的说,在解析网络爬虫爬下来的网页时,通用搜索引擎是怎样把各种类型的网站通过解析程序解析成统一的文本信息,最后提供分词器分词???
详细的描述我的问题:我前面说过,我过了个手机的垂直搜索,我的数据源是这个:http://mobi.younet.com/files/24/24853.html,你会发现,所有描述手机详细信息的网页都是一样的的格式结构,那么我只要针对这种网页写一个filter解析程序(使用htmlparser),就能把这些网页统一成一个个txt的文本信息。
但是现在做通用搜索的时候,面对各种类型的网页,比如说这两个网页:http://www.nbrcw.com/hr/companypos.asp?comid=swst和http://www.cnnb.com.cn/gb/node2/newspaper/nbrb/2006/7/node65223/node65224/userobject7ai1309049.html,可以发现,这两个网页的结构是不一样的,那我是不是要写两个解析网页的程序了,因为我觉得一个解析网页的程序,只能解析相同结构的网页,是不是这样?
        不知道大家能不能明白我的不解之处,希望各位老师帮我解答一下。非常感谢!!!!!!!

另外,我的分数不是很多了,请不要介意!!!

问题补充:
cyber4cn 写道
",通用搜索引擎是怎样把各种类型的网站通过解析程序解析成统一的文本信息,最后提供分词器分词???"

楼上说得对,通用搜索引擎都会有正文抽取服务或者模块的。

啊,用这种事!也就是说有一种服务可以把我自己爬下来的所有数据处理成文本信息???

问题补充:
cloverprince 写道
看看这个呢:http://www.wbce.de/
我也研究搜索,但是这个模板检测+正文抽取,已经超出我的能力范围了,如果有线索我也希望得到帮助。

请问你给的链接是什么东西?
2011年8月18日 21:51

3个答案 按时间排序 按投票排序

0 0

这个服务得你自己写,当然,应该也有开源的库或者类似的库。你可以搜索一下。

2011年8月19日 08:45
0 0

",通用搜索引擎是怎样把各种类型的网站通过解析程序解析成统一的文本信息,最后提供分词器分词???"

楼上说得对,通用搜索引擎都会有正文抽取服务或者模块的。

2011年8月19日 00:02
0 0

看看这个呢:http://www.wbce.de/
我也研究搜索,但是这个模板检测+正文抽取,已经超出我的能力范围了,如果有线索我也希望得到帮助。

2011年8月18日 23:23

相关推荐

    通用搜索引擎高效信息检索

    通用搜索引擎是互联网时代的核心工具,它们为用户提供便捷的信息获取途径,高效地处理海量的数据并返回相关的搜索结果。本文将深入探讨高效信息检索的原理、搜索引擎的类型及其工作机制。 1. 引言 随着互联网的飞速...

    内网资源搜索引擎!内网资源搜索引擎

    内网资源搜索引擎是一种专门用于在内部网络环境下查找和定位文件的工具。它的核心功能是创建并维护一个关于内网中各个文件的索引库,从而提高查找效率,方便用户快速定位所需资源。以下是对该搜索引擎及其相关文件的...

    搜索引擎-通用中英文专业搜索引擎技术的研究及应用.pdf

    搜索引擎-通用中英文专业搜索引擎技术的研究及应用.pdf

    网络爬虫一种搜索引擎

     (2) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。  (3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等...

    基于Lucene的教学资源垂直搜索引擎的研究与实现

    通用搜索引擎在针对某一具体领域检索资源时,搜索结 果往往覆盖面非常广泛,信息相关性差,不能很好地为用户提供准确 的检索服务"而垂直搜索引擎则是针对某一个行业!某一特定人群需 求所设计的专业搜索引擎,它只搜索...

    一种通用Cache的设计,实现和在天网搜索引擎中的应用

    《一种通用Cache的设计,实现和在天网搜索引擎中的应用》 本文主要探讨了在面对海量信息的万维网环境中,如何通过优化缓存技术来提升搜索引擎的性能和效率。缓存技术是解决大数据访问速度问题的关键,对于搜索引擎...

    通用双开源码通用双开源码!!!!

    通用双开源码!!通用双开源码!通通用双开源码!!用双开源码!!!

    实用搜索引擎以及实用方法

    2. **基于机器人的搜索引擎**:这类搜索引擎如Google、Lycos,通过自动爬虫程序在网络中搜集信息并建立索引,能够快速更新和扩大信息库,但可能会出现信息准确性问题,用户需要从大量的结果中筛选。 3. **元搜索...

    医学五年制检索课-第4章网络搜索引擎.ppt

    无论是通用搜索引擎还是专业领域搜索引擎,都有其独特的优势和适用场景,用户应根据自身需求选择合适的工具。随着技术的发展,搜索引擎将继续优化其功能和服务,以更好地服务于信息时代的用户。

    迅龙中文Web搜索引擎项目概述

    - **通用搜索引擎的问题:** 虽然Google和百度等通用搜索引擎在检索范围上有优势,但在搜索结果的准确性和相关性方面仍存在问题。 #### 项目优势 迅龙中文Web搜索引擎项目的核心优势在于它不仅关注垂直搜索的技术...

    通用爬虫,基本爬虫,爬虫最小系统

    搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如: (1)不同...

    张帆:搜索引擎的查询意图识别

    在搜索引擎中的意图识别,主要是为了解决通用搜索的通用展现形式和用户意图的冲突,对于用户的一些意图,比如购物、地图等需求在通用网页搜索的展示情况下,满足的并不好。但不可能要求用户记住几十种需求和相应的...

    通用注入器通用内存搜索工具DLL开源

    通用注入器通用内存搜索工具DLL开源!!!!!!!!

    通用抽奖软件 V1.7.6 大量更新版!!直接替换单独文件!!

    通用抽奖软件V1.7.6 单独升级exe文件!!大量关键更新!!! 1. 合并滚动条,提高运动速度 2. 奖项设置增加至超大的15项之多 3. 滚动时只显示姓名,中奖结果全部显示 4. 主窗体可以设置为无边框 5. 智能调整分辨率...

    搜索引擎优化指南

    较通用的搜索引擎优化指南,一般蜘蛛都会遵守的,主要是从介绍一般性知识到深入了解,建议刚入门做搜索优化的人看的。

    C++s非常适合新手学习!!!

    C++是一种高级编程语言,它适合新手学习,因为它提供了对计算机工作原理深入的理解,并且在学习过程中能够帮助新手建立起良好的编程基础。C++语言通常被认为是学习其他编程语言的一个良好跳板,它不仅能够让初学者...

    图片爬虫代码(Python)

    搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如: (1)不同...

    C#.net通用工具类验证无问题!节约您开发时间

    C#.net通用工具类验证无问题!节约您开发时间

    protel通用PCB元件库!

    protel99se通用PCB元件封装库!网上找的用着不错,与大家分享!

Global site tag (gtag.js) - Google Analytics