`
wzhiju
  • 浏览: 141744 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
对于初步接触分词的朋友们来说,分词词典的构造是一件不可小觑的事情。因为词典的好坏直接影响到算法的性能、运行时间。换句话说,分词词典构造的好,将会极大地改观分词的性能,而各种复杂的分词算法,直接依赖于分词词典的构造机制(是进行分词的根基)。下面将分几个部分进行词典构造机制几种方法的介绍。 在这片文章中,根据我所用过的最基础的方法进行词典的构造,即拼音的索引方法。(也是大家最能直接想到的方法) 下面结合我的应用,分享一下具体的做法。 1. hashMap.java 文件 文件用来将拼音生成一个 LinkedHashMap 表,并对应与相应的键值。如下所示: hashMap.put("a&q ...

httpclient 假死问题

    博客分类:
之前总是发现 httpclient 有假死的问题,各种超时时间都设置了,都不能解决,最近跟踪了下,发现是 dns 解析地方的超时导致,在 InetAddress.getByName 卡住   虽然Socket类有setTimeout()方法,URLConnection有setConnectTimeout()方法,但这都不能给DNS查询过程添加时间限制,也就是说,如果DNS服务器挂了,那么代码就会阻塞几十秒才能抛出异常。我最近就遇到了这个问题,当DNS服务器出问题的时候,setTimeout()设置的超时时间就不起作用了。   经过google,发现Java目前居然还没有现成的API来 ...
使用httpclient 抓取时, 出现 java.lang.OutOfMemoryError: unable to create new native thread 错误原因:   1. OutOfMemoryError:unable to create new native thread , 不是内存泄露的问题,应该是系统内存不足的问题。 抓取时,httpclient 起了多个线程,而线程的占用的是系统内存,不在 heap 里。当系统内存不足时,可能会出现这个问题    2. 虽然每次抓取后都有调用 releaseConnection 方法,但并没有立即把连接关闭,而是把连接返回给 ...
1.下载MySQL我下载的版本:mysql-5.6.4.tar.gz 2.安装之前先卸载CentOS自带的MySQL[root@localhost ~]# yum remove mysql 3.编译安装Cmake下载cmake源码包:http://www.cmake.org/files/v2.8/cmake-2.8.4.tar.gz 从共享目录移至usr目录[root@localhost ~]# mv /home/user/cmake-2.8.4.tar.gz /usr/cmake-2.8.4.tar.gz[root@localhost ~]# cd /usr 解压并安装cmake[r ...
转载自:http://developer.51cto.com/art/201204/332681.htm 想做个优秀编程员?JAVA代码编写的30条建议   列举了大量有用的建议,帮助大家进行低级程序设计,并提供了代码编写的一般性指导:   (1) 类名首字母应该大写。字段、方 ...
正则表达式 (http|ftp|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])? 匹配 http://regxlib.com/Default.aspx | http://electronics.cnet.com/electronics/0-6342366-8-8994967-1.html 不匹配 www.yahoo.com   正则表达式

正则表达式

1.  背景:去除content中的url,但非 img 中的链接       regex = “(?<!'|\")(?:http://|ftp://|https://|www\\.)[\\w\\-_]+(?:\\.[\\w\\-_]+)+(?:[\\w\\-\\.,@?^=%&amp;:/~\\+#]*[\\w\\-\\@?^=%&amp;/~\\+#])?”;        content = content.replaceAll(regex, "");         用http 前的 "|' 来区分,当然最好能去除' ...
Navicat For Mysql快捷键   ctrl+q           打开查询窗口  ctrl+/            注释sql语句   ctrl+shift +/  解除注释  ctrl+r           运行查询窗口的sql语句   ctrl+shift+r   只运行选中的sql语句  F6               打开一个mysql命令行窗口   ctrl+l            删除一行 
1.   用jar包启动java 进程         java -Xms60m -Xmx400m -Djava.ext.dirs=./../lib  -Djava.library.path=./../lib -Dlog_name=./../log/Test -cp           xxx.jar com.ttz.test.Test  [ ./../conf/xxxxxxxxx.properties]   2.   文件中 重复的行 排序汇总        cat /tmp/tt | sort | uniq -c > /tmp/xx        cat /tmp/tt ...
 Linux中"-"有特殊的含义,比如在命令的后面加"-"表示后面跟的是选项。但是如何新建带名字中有"-",下面介绍三种方法,比如要新建文件"-a":   1、cd . > -a   2、vi -- -a   3、echo "" > -a   上面三种方法都可以在当前目录下新建一个"-a"文件,当然还可以有别的方法新建,这里就不在介绍。如果要删除"-a"就比较麻烦了,如果你输入 rm -a,系统会提示你:   rm:无效选项 -- ...
在make命令后出现这种错误提示,是提示第2行没有分隔符。 如:   all:     echo "Hello World"   明明加了 tab 但是make时总是出问题。发现原来是因为 在.vimrc 中设置了    set expandtab 将tab空格化,导致error的出现。在.vimrc中去除set expandtab,make 通过。

mysql 取整

mysql的取整函数: 1.ceil() 向上取整    例: ceil(1.2) = 2 2.floor () 向下取整     例: floor(1.2) = 1 3.round()  四舍五入      例:  round(1.3) = 1 ;round (1.6) - 2 UPDATE rate SET rate = CEIL(rate) WHERE ....
本周工作中发现的一些需要记录的内容 1. 从server1 scp 一个文件 到server2,出现permission denied 问题,scp其他文件没有问题。 原因:server2 scp 目录下有一个同名文件,owner为其他用户,scp的用户无权覆盖。

工作笔记

    博客分类:
  在工作中遇到的一些问题和经验,仅给自己总结 1. 在weibo 选取contenthead length时,需要对长度进行一下测试。    如果长度很短,查出的条数可能会非常多,造成过多的网络开销      统计时使用的脚本:    (1) 选取一天的md5加密的字段出来 mysql -ustock -p 91z -e"SELECT id,pub_date, md5contenthead FROM weibo  WHERE DATE_FORMAT(pub_date,'%Y-%m-%d')='2012-06-14' AND site = 4" > ou ...
1. mysql 替换字符串 e.g: UPDATE table_name SET content = REPLACE(content,'str_source;','str_wanted') where id BETWEEN 505042 AND 555042
Global site tag (gtag.js) - Google Analytics