`
imjl
  • 浏览: 156317 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
问这个问题的是某个视频网站的技术负责人。 我记得当时的回答: 最好的搜索应该是用户说了算。用户是使用者,他们用搜索的目的为了快速找到搜索结果,那么如果能让他们用最简单的方式能快速找到自己的结果,这就是最好的。 现在想起来应该还有点,我之前说过的,就是从网站角度看,如何将信息聚而不散,不让信息分散。让用户能在你设定的范围内不断使用你提供的资源。 这个是检测垂直搜索的。 通用还没想好。
1:用户需求,包括用户数据,数据特性,搜索习惯,更新频率,用户对其要求,以往碰到的问题 2:根据经验进行第一次尝试性测试,一般少量数据。主要在满足用户需求下,看看怎么做应用优化。 3:形成初步架构。上数据测试,在数据量下,有些忽略的东西就会暴露。这时候记录下信心。 4: 根据2,3得到的结果。调整架构,进行极限测试。以获得该用硬件资源以及适合操作系统。 5: 确定资源(这部分在实际中忽略了,因为有现有资源。) 6: 完善架构辅助,比如web显示,log,moniter,怎么方便怎么来。 7: 应用程序,服务器调优,上线前测试。(有台关键服务器不知道为什么停了,据说老问题,让我汗) ...
目前的搜索大体分通用搜索和垂直搜索。 两者差别在于信息来源,通用的范围很广,所以数据量一般都是海量。垂直的信息来源比较单一,所以数据量相对而言就小。 技术角度而言,通用主要关注数据量,偏重架构设计,而垂直着重搜索的UI。 如何设计好一个架构,我觉得自己还在摸索,所以不多说,感兴趣的可以看看google的paper。 垂直搜索的面向是特定用户群,他们需要的是准确快速方便的找到自己想要的信息。所以如何将用户体验做好,这个难度在这里。 因为是要通过搜索表现结果,那么就需要结合搜索。 举几个例子现在不大好的垂直搜索: google的生活频道搜索,一大堆搜索条件让人选择,这明显是不懂搜索的 ...
developerWorks 中国  >  Java technology | Open source  > 深入 Lucene 索引机制 ...
Index包分析 转载自http://www.gamvan.com/club/clubPage.jsp?ccStyle=0&tID=10633&ccID=37 Lucene索引中有几个最基础的概念,索引(index),文档(document),域(field),和项(或者译为语词term) 其中Index为Document的序列   Document为Field的序列  Field为Term的序列 Term就是一个子串.存在于不同的Field中的同一个子串被认为是不同的Term.因此Term实际上是用一对子串表示的,第一个子串为Field的name,第二个为Field中的 ...
索引 1: 空格,,whitespaceTokenize 2: 过滤词,,,StopFilter 3: 拆字,,,,WordDelimiterFilter 4: 小写过滤 ,,,LowerCaseFilter 5: 英文相近词,,,EnglishPorterFilter 6: 去除重复词,,,RemoveDuplicatesTokenFilter 查询 1: 查询相近词 2: 过滤词 3: 拆字 4: 小写过滤 5: 英文相近词 6: 去除重复词 以上是针对英文等用空格分开词语的,,,中文的除了空格,,其他都类似。
  原文连接:http://www.cnbeta.com/modules.php?name=News&file=article&mode=flat&sid=19012 感谢凌宇原创投递,文章很 ...
  缔造中国最大搜索引擎的幕后角色们正纷纷拷贝、粘贴李彦宏的创业密码 文·本刊记者 罗燕 【逐鹿】 清华大学往东三公里,就到了中关村的边缘地带。这里虽还聚集着几所大学,却少了白颐路上的喧嚣扰嚷。 坐落于 ...
理想的产品经理 优秀的产品经理与设计师之间的关系非常类似他们与程序员之间的关系。产品经理通常和设 计师或程序员合作(而不是命令),他们通常接到其它各个部门人员的需求,经过取舍后,尽可能的以工程师和设计师 ...
Global site tag (gtag.js) - Google Analytics