锁定老帖子 主题:关于搜索,我的一些看法
该帖已经被评为良好帖
|
|
---|---|
作者 | 正文 |
发表时间:2007-07-03
江南白衣 写道 垂直搜索我倒是做过一点--电信的号码百事通,饮食方面,它会去爬大众点评网这里饮食网站,parse它们的页面内容入库,如订座电话之类的会作为单独的field入库。
SQL 与 全文检索 的差别还是挺大的,SQL只能用like,速度是一个,对多关键字的支持是一个。 针对不同的网站有不同的配置文件? 还是有更好的办法? |
|
返回顶楼 | |
发表时间:2007-07-11
垂直搜索和广度搜索从范围上来说只是一个深度和广度的问题。
2这大体上一致。 至少要有: 1。下载。 2。索引。 3。检索。 其中每一个都可以是一个系统。 下载主要是分析资源。即:把网页有效信息分析出来。形成需要的数据。 索引主要主要是分词。这个直接影响到检索结果。还有就是索引的结构。影响到检索速度。 检索主要是速度和精确度。一般说来,在海量数据里面,想要全遍历是不可能的。速度跟不上。这样就有一个取舍的问题。这个在建立所引的时候就要考虑到。比方说按时间排序,那么,在建立索引的时候就得有这样的一套。但是一般说来按照相关性排序,那么牵涉到的东西就多了。精确度这个东西,很麻烦。每个公司有自己的算法。就如同分词,每个公司都有自己的一样。 然后还有一个重要的。检索的瓶颈往往在io。所以,如何缓存也是一个非常重要的问题。 最后,当上述问题都差不多解决了。或者说基本实现了。那么,随着数据量的日益膨胀,必须要考虑分布式了。这时候后,一个良好的分布式框架是十分重要的的了。 以上只是一些说了一些大概,其实每个都不是1、2句能说清楚的。都能很深的发掘下去。仅随便说说。 |
|
返回顶楼 | |
发表时间:2007-07-12
一句话,搜索还是有些技术含量的
|
|
返回顶楼 | |
发表时间:2007-08-13
我个人认为对搜索来说有两个重点:
1.海量信息的抽取,数据爬下来以后,怎么对其进行准确的提取是很重要,现在很多都是用模版配置来做的,这样做准备率比较高,但爬取网站很多的话,相应的模版也需要很多 2.搜索策略问题 |
|
返回顶楼 | |
发表时间:2007-08-26
我做过的几个搜索引擎,UI与后台是分开的,UI需要什么样的功能,后台就提供这样的业务需求。
所以说,在我看来,所有功能需求都是在后台实现的,前台侧重的是用户体验,不知道LZ如何认为。 另,我也觉得taobao的搜索不错,也想了解它们是如何实现的,不知道有没有人熟悉这块? |
|
返回顶楼 | |
发表时间:2007-08-26
我做过的几个搜索引擎,UI与后台是分开的,UI需要什么样的功能,后台就提供这样的业务需求。
所以说,在我看来,所有功能需求都是在后台实现的,前台侧重的是用户体验,不知道LZ如何认为。 另,我也觉得taobao的搜索不错,也想了解它们是如何实现的,不知道有没有人熟悉这块? |
|
返回顶楼 | |