论坛首页 综合技术论坛

关于搜索,我的一些看法

浏览 22181 次
该帖已经被评为良好帖
作者 正文
   发表时间:2007-07-03  
江南白衣 写道
垂直搜索我倒是做过一点--电信的号码百事通,饮食方面,它会去爬大众点评网这里饮食网站,parse它们的页面内容入库,如订座电话之类的会作为单独的field入库。

SQL 与 全文检索 的差别还是挺大的,SQL只能用like,速度是一个,对多关键字的支持是一个。


针对不同的网站有不同的配置文件? 还是有更好的办法?
0 请登录后投票
   发表时间:2007-07-11  
垂直搜索和广度搜索从范围上来说只是一个深度和广度的问题。
2这大体上一致。
至少要有:
1。下载。
2。索引。
3。检索。
其中每一个都可以是一个系统。
下载主要是分析资源。即:把网页有效信息分析出来。形成需要的数据。
索引主要主要是分词。这个直接影响到检索结果。还有就是索引的结构。影响到检索速度。
检索主要是速度和精确度。一般说来,在海量数据里面,想要全遍历是不可能的。速度跟不上。这样就有一个取舍的问题。这个在建立所引的时候就要考虑到。比方说按时间排序,那么,在建立索引的时候就得有这样的一套。但是一般说来按照相关性排序,那么牵涉到的东西就多了。精确度这个东西,很麻烦。每个公司有自己的算法。就如同分词,每个公司都有自己的一样。
然后还有一个重要的。检索的瓶颈往往在io。所以,如何缓存也是一个非常重要的问题。
最后,当上述问题都差不多解决了。或者说基本实现了。那么,随着数据量的日益膨胀,必须要考虑分布式了。这时候后,一个良好的分布式框架是十分重要的的了。

以上只是一些说了一些大概,其实每个都不是1、2句能说清楚的。都能很深的发掘下去。仅随便说说。
0 请登录后投票
   发表时间:2007-07-12  
  一句话,搜索还是有些技术含量的
0 请登录后投票
   发表时间:2007-08-13  
我个人认为对搜索来说有两个重点:
1.海量信息的抽取,数据爬下来以后,怎么对其进行准确的提取是很重要,现在很多都是用模版配置来做的,这样做准备率比较高,但爬取网站很多的话,相应的模版也需要很多
2.搜索策略问题
0 请登录后投票
   发表时间:2007-08-26  
我做过的几个搜索引擎,UI与后台是分开的,UI需要什么样的功能,后台就提供这样的业务需求。

所以说,在我看来,所有功能需求都是在后台实现的,前台侧重的是用户体验,不知道LZ如何认为。

另,我也觉得taobao的搜索不错,也想了解它们是如何实现的,不知道有没有人熟悉这块?
0 请登录后投票
   发表时间:2007-08-26  
我做过的几个搜索引擎,UI与后台是分开的,UI需要什么样的功能,后台就提供这样的业务需求。

所以说,在我看来,所有功能需求都是在后台实现的,前台侧重的是用户体验,不知道LZ如何认为。

另,我也觉得taobao的搜索不错,也想了解它们是如何实现的,不知道有没有人熟悉这块?
0 请登录后投票
论坛首页 综合技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics