`
banditjava
  • 浏览: 159912 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

搜索引擎技术点的整理

阅读更多
技术点:
需要整理研究的搜索引擎技术点(目录,无实际价值)

(一)中文分词部分----------由paoding来解决,但下面的项目是否全部解决,还没有验证
1,断句与分块
2,字符类型设计与识别(中文,英文,数字,半角,全角).
3,从已断句子中分析提取字符类型相同的连续字串.
4,字典类设计
5,分词算法设计
  5.1,数字英文分词算法设计
  5.2,中文分词算法设计

(二)分词应用部分----------由paoding来解决,但下面的项目是否全部解决,还没有验证
1,标签抽取
2,文本相关性与文本分类
2.1,SVM算法


(三)Web Spider开发----------由heritrix来解决,但下面的项目是否全部解决,还没有验证
1,网页编码自动识别

2,Url去重算法----------没有实现
2.1,Bloomfilter算法
2.2,CRC算法

3,Spider的抓取流程与架构----------由heritrix来解决,但下面的项目是否全部解决,还没有验证
3.1,抓取页面
3.2,页面落地
3.3,通知队列
3.4,分析提取有效信息
3.5,失效信息清理

(四)搜索引擎应用开发
1,中文相似词识别
  1.1,音似词识别
  1.2,形似词识别
  1.3,义似词识别

2,Lucene索引技术
  2.1,分词器ChineseAnalyzer设计----------由paoding来解决
  2.2,索引优化技术
  2.3,索引分布存储
  2.4,索引压缩存储
  2.5,消除噪音------------通过htmlparse的filter来解决

3,Lucene搜索技术
  3.1,分类搜索
  3.2,排序搜索
  3.3,基于应用需求改进Lucene的默认排序算法
  3.4,搜索性能优化
    Singleton模式的Analyzer
    Cache下的Analyzer
    搜索结果的Cache(基于MemCache)
分享到:
评论
3 楼 john2007 2008-09-14  
整理出来,做成电子书吧
2 楼 john2007 2008-09-14  
越来越全面了,不错,顶... ...
1 楼 D04540214 2008-09-12  
呵呵  感觉不错 先抢个位置先

相关推荐

    搜索引擎技术以及发展趋势

    搜索引擎技术是互联网时代的核心技术之一,它有效地解决了信息爆炸带来的挑战。自1995年起,随着WEB信息的迅速增长,搜索引擎技术应运而生,为用户提供了在海量信息中定位所需内容的能力。据1999年《科学》杂志文章...

    搜索引擎技术分析.doc

    这份文档《搜索引擎技术分析.doc》无疑是深入理解这一领域的宝贵资源,由一位经验丰富的前辈精心整理,包含了许多实战经验和深度洞察。 一、搜索引擎的基本原理 搜索引擎的核心在于索引和查询处理。首先,搜索引擎...

    搜索引擎技术分享

    ### 搜索引擎技术分享 #### 一、搜索引擎概述 搜索引擎是一种根据特定算法和技术来收集、组织互联网信息,并为用户提供检索服务的技术系统。随着互联网信息量的急剧增长,搜索引擎成为人们获取信息的重要工具。 #...

    DIV+CSS网页制作对搜索引擎优化的优势分析整理.pdf

    DIV+CSS网页制作对搜索引擎优化的优势分析整理 DIV+CSS网页制作技术的优势在于其符合W3C国际标准,能够将表现与内容分离,提高搜索引擎对网页的索引效率,提高页面浏览速度,易于维护和改版。同时,DIV+CSS网页...

    [搜索链接]无极搜索引擎 v1.0_gss.zip

    【无极搜索引擎 v1.0_gss.zip】是一款先进的搜索引擎技术的实现,旨在提供高效、精准的网络数据检索服务。这个压缩包包含了该搜索引擎的核心组件和相关文档,为用户提供了全面了解和使用无极搜索引擎的资源。 在...

    搜索引擎知识整理与综合,搜索引擎概念整理与综合

    搜索引擎知识整理与综合...搜索引擎知识整理与综合需要对搜索引擎的原理、结构体系、技术体系和应用场景等方面进行深入了解和掌握。同时,需要对搜索引擎的各种技术和应用场景进行实践和实践,从而提高技能和实践经验。

    搜索引擎技术教程 搜索引擎原理精华 第1章-搜索引擎概述 共11页.pdf

    ### 搜索引擎技术教程知识点详解 #### 一、搜索引擎概述 **搜索引擎定义及作用:** 搜索引擎是一种计算机程序或系统,其主要功能是在互联网上搜索、收集、整理并提供信息。随着互联网的飞速发展,万维网(World ...

    搜索引擎 工作原理

    搜索引擎是一种网络应用程序,它通过自动化的方式在互联网上爬取信息,并将其整理成可搜索的形式。用户可以通过输入关键词来查询相关信息。搜索引擎的工作流程主要包括三个阶段:信息的抓取、索引的构建以及结果的...

    JAVA技术实现的搜索引擎(含源码)Java实用源码整理learns

    总的来说,这个资源对于JAVA开发者,尤其是对搜索引擎技术感兴趣的开发者来说,是一个很好的学习平台。通过实际操作和理解源码,可以加深对JAVA编程和搜索引擎原理的理解,有助于提升开发技能。

    搜索引擎基础 pdf格式

    ### 搜索引擎基础知识点解析 #### 一、搜索引擎概述 搜索引擎是互联网上不可或缺的信息检索工具,其核心功能在于通过信息自动跟踪标引等技术,构建网络信息资源的导航服务,帮助用户快速定位所需信息。根据《搜索...

    PHP技术点整理,redis,swoole,搜索引擎,lua,面试题练习

    本文将深入探讨PHP技术中的几个重要知识点:Redis、Swoole、搜索引擎以及Lua,并结合面试题来帮助你巩固理解。 首先,让我们关注Redis。Redis是一个高性能的键值存储系统,常用于缓存和消息队列。它的主要特点是...

    爬虫搜索,简单的搜索引擎,java爬虫,搜索引擎例子,爬虫demo,java实现互联网内容抓取,搜索引擎大揭密

    在IT领域,爬虫搜索和搜索引擎是至关重要的技术,它们为获取、整理和提供网络上的海量信息提供了有效手段。本文将深入探讨这些概念,并通过一个简单的Java爬虫程序实例进行说明。 首先,让我们理解什么是爬虫。爬虫...

    网络搜索引擎技术的研究报告.doc

    【网络搜索引擎技术研究报告】 搜索引擎是互联网时代不可或缺的信息检索工具,其技术的发展对于用户获取信息、企业营销、学术研究等多方面具有深远影响。本报告旨在深入探讨网络搜索引擎的关键技术和应用场景,为...

    搜索引擎技术分析 网络爬虫

    下面我们将深入探讨搜索引擎技术和网络爬虫的相关知识点。 首先,搜索引擎的基本工作流程包括:爬取、索引、排名和展示。爬取阶段,网络爬虫从一个或多个种子URL开始,按照超链接关系遍历互联网,下载网页内容。这...

Global site tag (gtag.js) - Google Analytics