- 浏览: 203233 次
- 性别:
- 来自: 北京
最新评论
-
毛毛虫小白:
您好,这里说的基于角色标注就是用到了字体位频率表里,在“名字内 ...
介绍一种基于角色标注+字词体位法的人名识别方式-Ansj中文分词 -
assasszt:
请问 能不能加入写入文件功能,不然的话 是每次 执行 都是一个 ...
Java版本的BloomFilter (布隆过滤器) -
lhj_6270:
楼主不错。果然不是一般人。再接再厉弄个软件出来。
Java版本的BloomFilter (布隆过滤器) -
ansjsun:
fncj 写道你好,我们最近要搞一个人名识别功能,发现有两个问 ...
介绍一种基于角色标注+字词体位法的人名识别方式-Ansj中文分词 -
fncj:
你好,我们最近要搞一个人名识别功能,发现有两个问题:1、里有不 ...
介绍一种基于角色标注+字词体位法的人名识别方式-Ansj中文分词
文章列表
感知机-Percepron
- 博客分类:
- 机器学习
代码说明:w和b为感知机模型参数,w就是weight叫做权值,或者叫weight ector, 叫做偏置,(bias)
f(x) = w.x+b
package org.ansj.ml;
import java.util.Arrays;
public class Perceptron {
public static void main(String[] args) {
//三个点
int[][] T = { { 3, 3 }, { 4, 3 }, { 1, 1 } };
//定义应三个点类别
int ...
关闭服务:
curl -XPOST 'http://localhost:9200/_shutdown'
显示log
./elasticsearch -f
package algorithm;
/**
* 桶排序
* @author ansj
*
*/
public class BucketSort {
/**
* 这个排序算法很恶心.但是容易写我凑个数呵呵
* @param args
*/
public static void main(String[] args) {
int [] bucket = new int[1000] ;
int[] array = {1,32,234,34,5,54,6,65,932,7,56,455} ;
for (int i : arra ...
package algorithm;
public class Viterbi {
/**
* 维特比算法(Viterbi algorithm)是一种动态规划算法。它用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔可夫模型中。
术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释相关的动态规划算法。例如在统计句法分析中动态规划算法可以被用于发现最可能的上下文无关的派生(解析)的字符串,有时被称为“维特比分析”。
* @param args
*/
public static void main(Str ...
没什么只是.一个demo
package net.csdn.service.tag.impl;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import love.cq.util.StringUtil;
import net.csdn.exception.ArgumentErrorException;
import net.csdn.pojo.tag.ObjTag;
import net.csdn.pojo.tag.Tag;
import net.c ...
..很郁闷启发式搜索和A*搜索.自己对照文档写了下..发现和之前学的有出入...算了先写这个吧..等我回去翻翻笔记...如果有问题再来补充..明白的同学可以直接拍砖...
下面我们对这个图进行..最短路径的查
package algorithm;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map.Entry;
import java.util.Set;
/* ...
算法实现系列第三章.快速排序
- 博客分类:
- 算法讨论
先剽窃jdk的...
package algorithm;
import java.util.Arrays;
/**
* 快速排序,哦也
*
* @author ansj
*
*/
public class QuickSort {
public static void main(String[] args) {
long[] ints = { 123, 1234, 324, 2, 1, 12, 31, 4, 3, 3, 466, 7, 87, 87, 56, 456, 5 };
sort(ints, 0, ints.length);
...
说白了就是二叉树排序..java中hashset中非基本数据类型的对象比较就是用的这个方式...
package binarytree;
public class BinaryTree {
public static void main(String[] args) {
Node root = null;
int[] ints = { 123, 1234, 324, 2, 1, 12, 31, 4, 3, 3, 466, 7, 87, 87, 56, 456, 5 };
root = new Node(ints[0]);
for ...
算法实现系列第一章.冒泡排序
- 博客分类:
- 算法讨论
package algorithm;
public class Bubbling {
public static void main(String[] args) {
int[] ints = {123,1,31,31,432,42,1,23,556,75,67,76,8,6} ;
int temp = 0 ;
for (int i = 0; i < ints.length; i++) {
for (int j = i; j < ints.length; j++) {
if(ints[i]<ints[j]){
...
大家好.最近在做分词.在分词中遇到了各种各样的问题.在这里选择一个比较有意思的与大家分享.
在这里说分词有点老生常谈了.的确.中文分词已经非常成熟了.但是在实体名识别上一直是中文分词的软肋.最近通过对ictclas的学习,和自己的总结.得出了一个还算不错的人名识别系统.
目前这种方式已经开源.大家可以参看:https://github.com/ansjsun/ansj_seg , 在线测试:http://www.ansj.org/demo/seg.jsp
主要思路是..先粗分,粗分的办法很多.但是在粗分的时候要尽量减少歧异.
比如
祝海林在 ...
经过不懈的努力.耗费了毕生经历.终于把分词写完了.
事后觉得太过复杂的东西真的不是好玩的..可控性太差了.
推翻恢复.重写.优化经历了一晚上.终于得道了一个还算满意的答案.
呵呵废话不多说了..老规矩.我先介绍下这一版分 ...
//计算平滑系数公式
//平滑参数
dSmoothingPara = 0.1
//设置当前节点的频度,如果是已知词性,直接使用频度
dCurFreqency
//一个参数
static int MAX_FREQUENCE = 2079997;
//Two linked Words frequency
dTemp = (double) 1 / MAX_FREQUENCE;
//两词之间的词频?关联度?
nTwoWordsFreq = DictBinary.GetFrequency(sTwoWords, 3);
//这个词的平度
if (pCu ...
一.什么是贝叶斯
贝叶斯是数学统计分类发放.可以预测类成员关系的可能性.如果直接说起贝叶斯.那么他就是一个数学模型.
数学模型我的理解就是.将显示生活中的一些现象通过.数学公式予以表示.
二.关于贝叶斯 ...
ASCII码 ASCII码于1968年提出,用于在不同计算机硬件和软件系统中实现数据传输标准化,在大多数的小型机和全部的个人计算机都使用此码。ASCII码划分为两个集合:128个字符的标准ASCII码和附加的128个字符的扩充和ASCII码。比较EBCDIC。其中95个字符可以显示。另外33个不可以显示。 标准ASCII码为7位,扩充为8位。 美国(国家)信息交换标准(代)码,一种使用7个或8个二进制位进行编码的方案,最多可以给256个字符 从描述可以看出(ASCII码)表示 ,只是对西文字符的一个集合. [a-z][A-Z] ,其中包括95个可见字符.和33个不可见字符. ...