最新文章列表

全面精通搜索引擎培训课程方案

课程简介:   全方位展现出一个商用级别的Lucene搜索解决方案,主要包括爬虫、自然语言处理和搜索实现部分。 爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。 自然语言处理部分包括了中文分词从理论到实现以及在搜索引擎中的实用等细节。 其他自然语言处理的经典问题与实现包括:文档排重、文本分类、自动聚类、语法解析树、拼写检查、拼音转换等理论与实现方法。 在实现搜索方面,包括实现布尔 ...
fangyong2006 评论(0) 有923人浏览 2014-12-29 16:20

ansj_seg源码分析之用户自定义词性覆盖系统原有词性

    今天遇到一个需求,需要用用户自定义词库的词性标注,替换系统原有词库的词性标注。也就是玉壶自定义词性覆盖系统原有词性。     废话不多说,直接上代码: package org.ansj.demo; import java.io.IOException; import java.util.List; import org.ansj.domain.Term; import o ...
yucang52555 评论(5) 有4970人浏览 2014-12-12 15:53

ElasticSearch 倒排索引、分词

es使用称为倒排索引的结构达到快速全文搜索的目的。  
aoyouzi 评论(0) 有12462人浏览 2014-11-04 09:39

数据挖掘-分词入门

谷歌4亿英镑收购人工智能公司DeepMind,百度目前正推进“百度大脑”项目,腾讯、阿里等各大巨头布局深度学习。随着社会化数据大量产生,硬件速度 ...
lanceyan 评论(0) 有570人浏览 2014-09-16 09:02

中文分词与停用词的作用

摘自:http://blog.sina.com.cn/s/blog_56d8ea9001018i6y.html 首先什么是中文分词stop word? 英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易 ...
forever1220 评论(0) 有2186人浏览 2014-09-09 20:34

python 结巴分词

中文分词是中文文本处理的一个基础性工作,然而长久以来,在Python编程领域,一直缺少高准确率、高效率的分词组件。结巴分词正是为了满足这一需求。   特性: 支持两种分词模式: 默认模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎。 用法: 全自动安装:easy_install jieba 半自动安装:先下载http ...
michael_roshen 评论(0) 有1770人浏览 2014-08-25 09:44

分词去停用词操作

import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io. ...
forever1220 评论(0) 有3704人浏览 2014-07-28 21:27

Ansj 中文分词 1.41 发布,命名实体识别率大幅提升

http://www.iteye.com/news/29043
jsczxy2 评论(0) 有1349人浏览 2014-05-20 09:37

常用中文分词

常用中文分词1. 庖丁解牛分词包,适用于与Lucene整合。http://www.oschina.net/p/paoding    庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为 ...
wbj0110 评论(0) 有808人浏览 2014-05-14 20:11

Solr分词器大补贴:mlcsseg

  0. 序言        经常遇到不少人询问如何在solr4.x中集成各种分词器,其实也算是咱曾经的工作之一:按照solr的接口把一些分词器对接起来。所幸之前一直都接触这方面的内容因而没走什么弯路,值此团队开博之时,正好把一些代码重新整理共享一下。   1. 设计        Java系的中文分词挺多了,ik,paoding,mmseg4j,ictclas4j,ansj等等,目前 ...
mlcsdev 评论(17) 有8360人浏览 2014-03-26 19:02

[转]CRF条件随机场简介

转自:http://hi.baidu.com/hehehehello/item/3b0d1f8ba1c2e5c698255f89 CRF(Conditional Random Field) 条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。在我看来,CRF就像一个反向的隐马尔可夫模型(HMM),两者都是用了马尔科夫链作为隐含变量的概率转移模型,只不过HM ...
bjzhkuang 评论(0) 有1204人浏览 2013-12-12 15:40

[转]Baidu分词算法分析详解

http://blog.sina.com.cn/s/blog_a48ff37201010cxv.html
bjzhkuang 评论(0) 有715人浏览 2013-11-29 11:39

java Lucene 工具类

IndeSearchFiles import java.io.File; import java.io.IOException; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.CorruptIn ...
heisetoufa 评论(0) 有3029人浏览 2013-08-29 11:35

ansj学习

ansj学习:http://www.ansj.org/
zlq636785 评论(0) 有657人浏览 2013-06-18 16:09

横瓜先生深度推测解密百度网页搜索引擎的内部索引结构及分布式架构原理

百度的搜索技术横扫中国,在各方面都超过其他搜索引擎。学习研究推测百度的内部索引结构及分布式架构原理,将有助于整个中国的搜索技术的更远发展更快发展。横瓜先生用5年时间从0行代码起步,经历近百次优化并完成横瓜搜索引擎(一个类似LUCENE全新的搜索),写的搜索代码接近百万行,横瓜先生对于搜索引擎技术的各方面都知晓细节,并有不同凡响的开发体会。横瓜先生深层次推测剖析百度网页搜索引擎的内部索引结构及分布式架 ...
横瓜降世 评论(0) 有6人浏览 2013-05-11 12:04

coreseek一元切分模式中英文单词不切分问题

        网站搜索使用coreseek(sphinx),采用的一元分词模式,但按照官方网站的文档说明,却不支持英文单词、数字串一元分词,如:光华路SOHO,输入soho中任一字母不能查找出soho;输入soho可以查出,如标题中仅一个字母时,是可以的,如光华路h,输入“h”,可以查出,由此推断英文单词没有做一元分词索引,仔细查看文档: (http://www.coreseek.cn/produ ...
youjin 评论(2) 有4205人浏览 2013-02-18 22:03

(转载)漫话中文自动分词和语义识别

记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧 ...
yucang52555 评论(0) 有807人浏览 2013-01-29 12:18

Ansj中文分词【备忘】

http://www.ansj.org/
jsczxy2 评论(0) 有1087人浏览 2012-11-05 18:27

中科院分词ICTCLAS5.0 配置错误处理

中科院分词ICTCLAS5.0 配置错误处理 (已上传) 将rar文件解压后,将文件中的所有内容,放入工程的bin文件下。 新建包,包名:ICTCLAS.I3S.AC.ICTCLAS50 在 ...
李小抽SuperITGirl 评论(0) 有5484人浏览 2012-10-31 23:05

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics