锁定老帖子 主题:下一代搜索技术的四块积木
精华帖 (0) :: 良好帖 (0) :: 灌水帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2005-08-15
按照我的设想,下一代Internet搜索技术,应该由以下四个部分组成: 一、以互联网搜索为核心的网络资源搜索。 现在最常见的搜索工具,Google、百度、Yahoo、MSN Search之类的,都属于这个范畴。再加上今后会出现的越来越多的各种专业信息搜索,比如论文、文献、MP3、BT、RSS等等搜索工具。 二、以桌面搜索为核心的个人资源搜索。 现在的桌面搜索工具还刚刚起步,今后的发展不可限量。总的趋势是,个人的计算机内的信息资源,都只需要搜索,而不需要费力气整理。就像现在GMail提出的口号。 三、以即时通讯工具为桥梁的网格资源搜索。 这个东西,现在似乎还只是局限与P2P文件共享的搜索,我的设想是,假设我的好友,能够帮我在他的机器里搜索有没有我要的东西,前提是我们两个人都各自装了桌面搜索工具,同时如果他愿意的话,也可以将搜索到的信息共享给自己的朋友。现在的P2P文件共享搜索,除了依托中央服务器的搜索本来就算不上是网格搜索之外,即使是基于好友的互助式搜索,也没有全文检索的能力,总之大有改进的余地。 四、以机器辅助标引Tags为手段的全球信息资源整合。 全球信息资源主要存在于两种地方,一个是公开的互联网上的某个服务器中,一个就是各个不同的个人电脑之中。如何提高搜索的命中率与效率,为各种信息建立主题词索引是一个关键。我之前分析过,“主题词是有管理的tags;tags无管理的主题词”。因此,姜伟的“计算机辅助主题词标引”技术,大可以派上用处。假设用户在自己的机器上装一个工具软件,在用户上网浏览网页、进行编辑Office文档等等工作的时候,这个工具可以在合适的位置提示该文档也许可以标引出几个“主题词/tags”,这样用户就可以更好的整理自己的知识与资料。与此同时,用户浏览公共信息时标引的主题词,也可以上传到某个服务器上,这个服务器可以汇总各个使用者对于同一个URL的主题词标引词情况,统计大家最为认为的,标引重复程度最高的“前N个词”作为这个URL的主题词。这对于今后搜索的效果提升,相信大有好处。 以上的设想,总结起来,是需要一种全新的客户端软件+全新的搜索服务模式+互助式的搜索协作机制。这就是我设想的下一代搜索技术! 各位走过路过的朋友,如果对实现这样的技术有兴趣,可以和我联系! 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2005-08-15
刚才和一个在IBM中国工程院做搜索的同学聊天,记录如下:
引用 透明——809.8,又跌了一点点 说:
http://forum.iteye.com/viewtopic.php?t=15308 透明——809.8,又跌了一点点 说: 或者看这里,http://spaces.msn.com/members/zbw25/Blog/cns!1pA6-3FOo9yNp_4lmEHxdDqA!376.entry weizhu---for dust you are and to dust you will return 说: 我现在在做第2个和第3个 透明——809.8,又跌了一点点 说: 你认为他分析得准确吗 weizhu---for dust you are and to dust you will return 说: 不准确 透明——809.8,又跌了一点点 说: 怎么说 weizhu---for dust you are and to dust you will return 说: 以后的search主要还是基于data mining的技术 weizhu---for dust you are and to dust you will return 说: 并不是这些简单的层面上的扩展 透明——809.8,又跌了一点点 说: 也就是说,必须有语意了解能力,是吧 weizhu---for dust you are and to dust you will return 说: 一方面, 可以说, 应该是底层数据结构的改进 weizhu---for dust you are and to dust you will return 说: 现在的底层数据结构都还是inverted table, weizhu---for dust you are and to dust you will return 说: 倒排表, weizhu---for dust you are and to dust you will return 说: 但是inverted table中 每个词,每个场景 每篇文档都是独立的, weizhu---for dust you are and to dust you will return 说: 这些很大的问题 weizhu---for dust you are and to dust you will return 说: 搜索出 关键词 相关的内容, 和找到你确实想要的内容, weizhu---for dust you are and to dust you will return 说: 是两个完全不同的含义, 现在的一切都只是在做前面的问题, 而且他所列出的4个方面也都是基于第1个问题, weizhu---for dust you are and to dust you will return 说: 当然, 搜索的面当然会越做越广, 以后将会是search everywhere weizhu---for dust you are and to dust you will return 说: 这是我的个人想法, 透明——809.8,又跌了一点点 说: 强者亚…… weizhu---for dust you are and to dust you will return 说: 这些想法还需要进一步研究啊 |
|
返回顶楼 | |
发表时间:2005-08-15
他说的一点都没错,但是我认为,再好的机器搜索,也比不过人的判断。
所以,基于IM的P2P搜索,以及用户自定义的tags这样的技术(都是或多或少地包含人的劳动的),是在“杀手级技术”出现之前的,下一代搜索技术。而不是下二代、下三代搜索技术。 |
|
返回顶楼 | |
发表时间:2005-08-15
下一代搜索引擎是基于现有基础上加上自然语言处理和上下文语义连接的处理。也就是加入基于自然语言的引擎规则。
再往后发展就是基于之前加上语义上下文的自我学习系统来提供真正想要的结果。也就是加入人工智能。 再往后。。。 我还没太想 |
|
返回顶楼 | |
发表时间:2005-08-15
机器做得再好的确比不上人的判断。但是机器要做的就是把那些有类似的,重复性的人的判断学习,总结,应用到现有的搜索引擎中。
这是一个动态的过程,改善出来结果的准确性。 |
|
返回顶楼 | |
发表时间:2005-08-17
以后的搜索也许会由集中搜索 变为分布的离散的搜索.
可能不会是一个google 而是成千上万的google 在这些分布式的google之上 有几个采用人工智能技术的超级搜索器 对搜索的结果做再处理. 要实现这一步 必需要求网站上所有的的内容都可以用xml来表示 所有的低层搜索引擎可以高效的执行xquery. |
|
返回顶楼 | |
发表时间:2005-08-28
google Talk应该集成google desktop。这样大家可以共享自己的一些资源供大家搜索,是不是实现了老庄说的第3点呢
|
|
返回顶楼 | |
发表时间:2005-08-29
albert_qhd 写道 google Talk应该集成google desktop。这样大家可以共享自己的一些资源供大家搜索,是不是实现了老庄说的第3点呢
是啊,现在大有希望,我感觉google就是往这个方向去的。 现在google desktop和talk,都支持扩展开发的,如果有谁能够搞一个插件出来,只怕就能进google上班了 |
|
返回顶楼 | |
发表时间:2005-08-29
庄表伟 写道 albert_qhd 写道 google Talk应该集成google desktop。这样大家可以共享自己的一些资源供大家搜索,是不是实现了老庄说的第3点呢
是啊,现在大有希望,我感觉google就是往这个方向去的。 现在google desktop和talk,都支持扩展开发的,如果有谁能够搞一个插件出来,只怕就能进google上班了 我感觉这个功能不是很实用啊! 没多少意义! |
|
返回顶楼 | |
发表时间:2005-08-30
Alpha launch of a search bot that uses Google Talk
In the past I’ve done bots that integrate AIM or YIM! with a search backend, but since it’s always a pain to keep the IM libraries up to date with the changing protocols of AOL and Yahoo, I’ve never been able to run them for long. The idea is to have a small form factor interface to a search or other sources of information without requiring a browser to launch. Well I haven’t given up - I have written a bot that uses Google Talk as the front end/protocol, and on the back integrates with my javadoc index, my wikipedia index, the Google search engine itself, and stock quotes. Inside I use Lucene (of course), the newly updated Smack as the XMPP/Jabber library, and code from one of my other projects, stockmorph.com. In general when you give it a query it returns a handeful of titles and links. It’s up and running now — to use it you do the following: Run Google Talk Add searchmorph@gmail.com as a buddy Send one of the following messages to it: In general, any text that doesn’t have a special prefix will be a search query that’s sent to Google and then the results are sent back to you. /a QUERY - with the /a prefix, the text is used to query Amazon /j QUERY - with the /a prefix, the text is used to query the javadoc index hosted here /q SYMBOL - with the /q prefix, the text is a symbol and the current stock quote is returned /w QUERY - with the /a prefix, the text is used to query the wikipedia index hosted here /stats - shows some statistics /help - a help message (also ? does this too) I have a few more sources of information I plan to add. I’ve just been running the code for a few hours and I need to see if the bot can remain connected to the Google talk server, or if it has to ping it or whatnot, so there are, as always, operational issues to work out. If anyone uses this — let me know what you think. //////////////////////////////////////////////////////////// searchmorph: Ready to search aming: hello searchmorph: Approx 7,210,000 total results from Google after 0.036 HELLO*! http://www.hellomagazine.com/ *Hello : Welcome http://www.hello.com/ The Official Sanrio Website. Home of Hello Kitty. http://www.sanrio.com/ IPL Kidspace: Say Hello to the World http://www.ipl.org/div/kidspace/hello/ *Hello*, World Page! http://www2.latech.edu/~acm/HelloWorld.shtml Tourism BC | Home Page http://www.hellobc.com/ |
|
返回顶楼 | |