HIT中文命名实体识别

博客分类：

自然语言处理

概况介绍命名实体识别任务是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。在当今世界，随着计算机的普及以及互联网的迅猛发展，大量的信息以电子文档的形式呈现在人们面前。为了应对信息爆炸带来的严重挑战，人们迫切需要一些自动化的工具帮助他们在海量的信息源中迅速找到真正重要的信息。于是信息抽取研究应运而生。而命名实体识别研究是信息抽取中的重要组成部分，同时它还能应用于自动问答、机器翻译以及信息检索等NLP领域，有助于它们的性能的提高。因此，研究命名实体识别具有重要的意义。体系结构系统包括两个部分，一是基于HMM的NE识别部分，二是规则修正部分。系统的结构图如图1 ...

2012-04-26 20:38
浏览 1505
评论(0)
分类:研发管理

【zz】Java正则表达式入门

博客分类：

基本应用

众所周知，在程序开发中，难免会遇到需要匹配、查找、替换、判断字符串的情况发生，而这些情况有时又比较复杂，如果用纯编码方式解决，往往会浪费程序员的时间及精力。因此，学习及使用正则表达式，便成了解决这一矛盾的主要手段。大家都知道，正则表达式是一种可以用于模式匹配和替换的规范，一个正则表达式就是由普通的字符（例如字符a到z）以及特殊字符（元字符）组成的文字模式，它用以描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。自从jdk1.4推出java.util.regex包，就为我们提供了很好的JAVA正则表达式应用平台。因为正则表达 ...

2012-04-26 08:27
浏览 824
评论(0)
分类:编程语言

[zz]打造自己的分布式搜索引擎底层架构（非Lucene）

博客分类：

搜索引擎

打造自己的分布式搜索引擎底层架构（非Lucene）大家知道，搜索引擎技术不仅仅是类似百度首页的应用，还可以衍生出数据分析工具，商务智能工具等许多有卖点的应用，甚至是社会化关系通道的发现。甚至这些非搜索引擎的搜索引擎产品才是最重要的，因为你不需要去做百度做的事情。所以，搜索引擎技术要了解原理，才可以扩展，离开Lucene也能做搜索引擎是非常重要的，利用这个积木，我们可以搭建房子和汽车。搜索引擎要完成的目的，就是O(1)秒杀爬虫采集来的文章里关键字的搜索，丫的和数据库Like不同的效果优点是速度快，缺点是如果没建索引的字，搜不到。本文是针对：打造一个自己的搜索引擎服务器的积木底层模 ...

2012-04-24 22:29
浏览 1109
评论(0)
分类:研发管理

各种排序算法

博客分类：

算法学习

C代码 #include <stdio.h> #define N 5

2012-04-21 23:40
浏览 639
评论(0)
分类:行业应用

[zz]微软面试题之64

博客分类：

算法学习

64. 寻找丑数。题目：我们把只包含因子2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14不是，因为它包含因子7。习惯上我们把1当做是第一个丑数。求按从小到大的顺序的第1500个丑数。分析：这是一道在网络上广为流传的面试题，据说google曾经采用过这道题。 Java代码

2012-04-20 09:02
浏览 697
评论(0)
分类:行业应用

dom4j通过xpath查询xml

博客分类：

xml

订阅获取Document SAXReader saxReader = new SAXReader(); Document document = saxReader.read(FileUtil.getFileInputStream(fileName)); 查询Element String xpath ="/composites/composite[@type='onDelete']";//查询属性type='ondDelete'的composite List<Element> composites = d ...

2012-04-16 12:41
浏览 713
评论(0)
分类:行业应用

【zz】二叉树遍历及C语言实现

博客分类：

算法学习

二叉树遍历及C语言实现已知中序和前序序列，或者已知中序和后序序列，都能够构造一棵二叉树。在本例中，本人用C语言写程序解答了下面两个算法题：（1）给出一棵二叉树的中序与后序遍历序列，求出它的先序遍历序列。（2）给出一棵二叉树的中序与先序遍历序列，求出它的后序遍历序列。知识点扼要回顾：所谓二叉树的遍历，是指按一定的顺序对二叉树中的每个结点均访问一次，且仅访问一。按照根结点访问位置的不同，通常把二叉树的遍历分为六种：TLR（根左右）, TRL（根右左）, LTR（左根右）RTL（右根左）, LRT（左右根）, RLT（右左根）其中，TRL、RTL和RLT三种顺序在左右子树之间 ...

2012-04-11 10:49
浏览 1267
评论(0)
分类:编程语言

六度空间理论

facebook 互联网 sns

六度空间理论有一个数学领域的猜想，名为Six Degrees of Separation，中文翻译包括以下几种：六度分隔理论、六度空间理论以及小世界理论等。六度空间理论指出：你和任何一个陌生人之间所间隔的人不会超过六个，也就是说，最多通过六个人你就能够认识任何一个陌生人。这就是六度空间理论，也叫小世界理论。六度分隔的现象，并不是说任何人与人之间的联系都必须要通过六个层次才会产生联系，而是表达了这样一个重要的概念：任何两位素不相识的人之间，通过一定的联系方式，总能够产生必然联系或关系。显然，随着联系方式和联系能力的不同，实现个人期望的机遇 ...

2012-03-01 09:59
浏览 1907
评论(0)
分类:非技术

VS2008 快捷键大全[转帖]

Ctrl+m+Crtr+o折叠所有大纲Ctrl+M+Crtr+P: 停止大纲显示Ctrl+K+Crtr+C: 注释选定内容Ctrl+K+Crtr+U: 取消选定注释内容Ctrl+J : 列出成员智能感知 Shift+Alt+Enter: 切换全屏编辑Ctrl+B,T / Ctrl+K,K: 切换书签开关Ctrl+B,N / Ctrl+K,N: 移动到下一书签 Ctrl+B,P ...

2011-11-24 23:15
浏览 870
评论(0)
分类:行业应用

【tomcat+nutch+jdk】“中文乱码”的原理和解决方法

博客分类：

nutch

java tomcat

【tomcat 乱码的解决】在 Nutch 的搜索框中输入中文，点击“搜索”按钮之后，可以看到搜索框中的关键字是乱码，搜索结果也为空。网上有很多文章都谈到了这个现象，这不是 Nutch 的问题，而是 Tomcat 没有对 uri 做编码造成的� ...

2011-11-15 16:17
浏览 1255
评论(0)
分类:行业应用

Googler

博客分类：

我应该学习的

Google的要求：Google软件工程水平的评估核心主要包括：编码、算法开发、数据结构、设计模式以及分析思考能力等。你将见到几位来自Google不同团队的工程师，他们将会给你一个关于Google工程团队的综合介绍。面试人员将会询问一些你感兴趣职位涉及领域的相关问题，并要求你即时找到解决方案。对于运营和其他部门的面试，我们将对解决问题等各方面能力进行评估。请记住，问题回答的对错并不重要，我们更看重你解决问题的方法与过程，创新能力是关键。

2011-10-21 11:47
浏览 1243
评论(0)
分类:非技术

如何谋得Google的职位？

博客分类：

我应该学习的

11年了，我终于想明白了：谋职的最好方法就是做那个岗位该做的工作，而不是讨论它。　　今年是2010年，这种想法尚未成为主流。所以，我们将用实际例子说话：假设你的理想工作是Google的一个产品经理，做Analytics产� ...

2011-10-21 10:46
浏览 779
评论(0)
分类:非技术

Stay Hungry, Stay Foolish ！！

博客分类：

我应该学习的

在整个社会都在关注乔帮主的时候，我想在这里和大家分享一个真实的就在我们程序员身边的故事。和我在《如果你看不见你还能编吗？》一文里介绍的那些盲人程序员一样，同样是Stay Hungry， Stay Foolish。但我个人更认为我今天想要给大家讲述的这个故事对于我们这些普通人更有意义一些。我真心的希望大家认真看完这个“从刷厕所到程序员”故事后，我们能从中感悟到点什么。因为朋友的原因，我和一个创业团队经常有些往来，通过这个团队，我认识了这个故事的主人翁——王平（@wpingsuper）。其实，很早前他在Google Reader和Buzz里follow了我，但我从没和他交流过。而他的经历 ...

2011-10-20 18:47
浏览 796
评论(0)
分类:非技术

（十一）特征选择方法之信息增益

博客分类：

文本分类入门

前文提到过，除了开方检验（CHI）以外，信息增益（IG，Information Gain）也是很有效的特征选择方法。但凡是特征选择，总是在将特征的重要程度量化之后再进行选择，而如何量化特征的重要性，就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化，关联性越强，特征得分越高，该特征越应该被保留。　　在信息增益中，重要性的衡量标准就是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。　　才因此先回忆一下信息论中有关信息量（就是“熵”）的定义。说有这么一个变量X，它可能的取值有n多种，分别是x1，x2，……，xn，每一种取到的概率分别是P1，P ...

2011-10-19 09:55
浏览 849
评论(0)
分类:行业应用

（十）特征选择算法之开方检验

博客分类：

文本分类入门

前文提到过，除了分类算法以外，为分类文本作处理的特征提取算法也对最终效果有巨大影响，而特征提取算法又分为特征选择和特征抽取两大类，其中特征选择算法有互信息，文档频率，信息增益，开方检验等等十数种，这次先介绍特征选择算法中效果比较好的开方检验方法。　　大家应该还记得，开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。（什么？你是文史类专业的学生，没有学过数理统计？那你做什么文本分类？在这捣什么乱？）　　开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的（行话就叫做“原假设”），然后观察实际值（也可以叫做观察 ...

2011-10-18 09:41
浏览 723
评论(0)
分类:行业应用

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HIT中文命名实体识别

【zz】Java正则表达式入门

[zz]打造自己的分布式搜索引擎底层架构（非Lucene）

各种排序算法

[zz]微软面试题之64

dom4j通过xpath查询xml

【zz】二叉树遍历及C语言实现

六度空间理论

VS2008 快捷键大全[转帖]

【tomcat+nutch+jdk】“中文乱码”的原理和解决方法

Googler

如何谋得Google的职位？

Stay Hungry, Stay Foolish ！！

（十一）特征选择方法之信息增益

（十）特征选择算法之开方检验

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>