- 浏览: 203236 次
- 性别:
- 来自: 北京
最新评论
-
毛毛虫小白:
您好,这里说的基于角色标注就是用到了字体位频率表里,在“名字内 ...
介绍一种基于角色标注+字词体位法的人名识别方式-Ansj中文分词 -
assasszt:
请问 能不能加入写入文件功能,不然的话 是每次 执行 都是一个 ...
Java版本的BloomFilter (布隆过滤器) -
lhj_6270:
楼主不错。果然不是一般人。再接再厉弄个软件出来。
Java版本的BloomFilter (布隆过滤器) -
ansjsun:
fncj 写道你好,我们最近要搞一个人名识别功能,发现有两个问 ...
介绍一种基于角色标注+字词体位法的人名识别方式-Ansj中文分词 -
fncj:
你好,我们最近要搞一个人名识别功能,发现有两个问题:1、里有不 ...
介绍一种基于角色标注+字词体位法的人名识别方式-Ansj中文分词
文章列表
悲剧的我调研了两天。。悲剧的从jsnop 到jquery getJson getJscript 。。。。百度了无数回。。。发现就这么简单。。。看来网上的东西部能全信啊。。最简单的的自己尽然部舍得去测试
<html xmlns="http://www.w3.org/1999/xhtml" >
<head >
<meta http-equiv="Content-Type" content="text/html; charset=GBK"/>
<script type="text/ ...
翻译了下..没有元宵的淫文啊....所以用PinYing吧...
这几天写了一个爬虫可以做定向爬虫.也可以做全网爬虫.
该考虑的部分考虑了..不该考虑的没考虑
这里是个程序运行的大概UML不怎么会画凑合看吧
支持正则过滤网址 支持抽取模板
这个项目比起nutch不具有可比性...如果你非要当个demo来看我也不喊冤呵呵...
里面的url抽取..正文抽取...都是自己写的
用到了一些java(据说高级)的东西..可惜仅仅是用到...比如curren nio
周六日费了两天电..目前采集没出大问题(中途断网一次).
如果非要说特点.那就是作者造轮子吧. ...
到1亿的自然数,求所有数的拆分后的数字之和
- 博客分类:
- JAVASE
public static void main(String[] args) throws UnsupportedEncodingException {
//1到1亿的自然数,求所有数的拆分后的数字之和,如286 拆分成2、8、6,如1到11拆分后的数字之和 => 1 + ... + 9 + 1 + 0 + 1 + 1
int i = 5659553 ;
String str = Integer.toString(i) ;
char c = '0' ;
int result = 0 ;
for (int j = 0; j < ...
一个排好序的数组,找出两数之和为m的所有组合
- 博客分类:
- 算法讨论
public static void main(String[] args) throws UnsupportedEncodingException {
int[] ints = { 1, 5, 10, 11 , 13, 18, 22 ,55 };
int find = 23;
int start = 0;
int end = ints.length - 1;
while (ints[start] >= find) {
System.out.println("都比他大哦!");
return;
}
...
前一段时间.在微博上中奖了.
一个叫张俊林的帅锅.送了俺一本书.由于工作(其实是懒惰),一直木有好好看..书到手一个月了才看了80多页.
现在终于要过年了.开始看了..顺路给自己做个笔记.在这里我郑重推荐此书
<<这就是搜索引擎:核心技术详解>>
定 价:¥45.00
作 者:张俊林 著
出 版 社:电子工业出版社
出版时间:2012-1-1
http://product.dangdang.com/product.aspx?product_id=22574992
好了广告 做完了..我先介绍一些索引压缩算法..
一.为什么压缩索引
海量的网页保存. ...
参见网址http://www.merriampark.com/ld.htm#JAVA
import java.util.BitSet;
public class Distance {
public static void main(String[] args) {
Distance distance = new Distance() ;
int i = distance.LD("gttttl", "gambol") ;
System.out.println(i);
}
// ******** ...
原文地址:大数据量,海量数据 处理方法总结(转载)作者:秋金遇水
最近有点忙,稍微空闲下来,发篇总结贴。
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问 ...
一个不会重复的HelloWord 随机大小写....
代码没有做过优化.效率不高但是条件满足
import java.util.Random;
public class RandomHelloWord {
static int[] ints = new int[1024] ;
static Random r = new Random() ;
public static void main(String[] args) {
for (int j = 0; j < 100; j++) {
int k = 0 ;
while(ints[k] ...
经典sql语句.论坛里转载来的
- 博客分类:
- 服务器技术
阿一、基础
1、说明:创建数据库
CREATE DATABASE database-name
2、说明:删除数据库
drop database dbname
3、说明:备份sql server
--- 创建 备份数据的 device
USE master
EXEC sp_addumpdevice 'disk', 'testBack', 'c:\mssql7backup\MyNwind_1.dat'
--- 开始 备份
...
前几天看了Nutz的框架写的真不错.方便..既有springMVC的优雅.也有Hibernate的简洁
但是在查询的时候.没有封装类似springside的页面查询.于是闲着趁礼拜六日自己写了个通用的action..写的时候一直很迷茫.我是不是又回到jsp时代了..暂且作为一个分支吧...
具体的可行性..待定.希望大家给点意见
首先是个通用的action 他返回的是json格式..
下面是使用的简介
查询说明:
/superjson/list/Person?page.pageNo=1&Cnd_AND_age_GT=20&Cnd_AND_name_LIKE= ...
只能算初级的..高级的就溢出了
就算内存无穷大.可能性超过了20亿就数组放不下了
因为是广度优先吧..所以..争取能写个深度优先的办法
哎..好难啊..头发掉了好多
package com.ansj.ansjIndex;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.LinkedList;
import java.util.List;
public class CopyOfShuDu {
public static void main(String[] args) { ...
归并的思想就是分治.时间复杂度..忘记了
大概实现了下..还真挺费劲的...
很受打击啊...还有什么好的排序算法..大家给推荐下我试着弄弄
没怎么写注释..以此作为我的备用.
这几天的思考中我终于发现..理解和会用和精通是两个概念..
学海无涯.人生苦短啊
public class Test1 {
public static void main(String[] args) {
int[] arr1 = { 4,23,234,3,41,311,3,5 ,56,5,46};
int[] arr2 = { 4,23,234,3,41,311,3,5 ,56,5, ...
vi ――命令简介(转载)
- 博客分类:
- 服务器技术
vi ――强大的全屏幕编辑器
Vi 简介
文本编辑大概是系统运行中最为频繁的操作了,而在Linux下有一种标准而功能极为强大的编辑器,那就是Vi(Visual Edtior)。
对于Linux的初学者来说,vi可能显得极为不友好――所有操作都要 ...
import java.lang.reflect.Array;
import java.util.Arrays;
import java.util.HashSet;
import java.util.Iterator;
import java.util.Set;
/**
* 文本坐标记用的
* tagBegin是开始标记
* tagEnd 是结束标记
* 用了二分法查找来确定单词
* content 是传入的正文
* 正文可以传多次
* 标记词语也可以传多次
* @author Ansj
*
*/
public class TagWord {
...