- 浏览: 40984 次
- 性别:
- 来自: 上海
最新评论
-
brada:
看这篇文章,不知道为啥作者不能做到起码的公正。举个例子哈: 2 ...
IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量 -
lies_joker:
monolithic 写道我这边用的是mmseg4j ,与最新 ...
solr4.8的安装,配置,使用,搜索,推荐及看法 -
monolithic:
我这边用的是mmseg4j ,与最新的solr4.9结合,也挺 ...
solr4.8的安装,配置,使用,搜索,推荐及看法 -
lies_joker:
东林碣石 写道我想问一下楼主,你们公司使用solr建的索引的规 ...
solr4.8的安装,配置,使用,搜索,推荐及看法 -
东林碣石:
我想问一下楼主,你们公司使用solr建的索引的规模有多大?有几 ...
solr4.8的安装,配置,使用,搜索,推荐及看法
文章列表
在nutch爬取数据存放在hdfs时候报错:
Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: hdfs://192.168.130.54:19000/user/hmail/output/part-00000, expected: file:///
把hadoop集群的配置文件core-site.xml和hdfs-site.xml放到工程下即可解决!
ITeye用起来越来越麻烦,我的账号是CSDN的,每次需要先登录CSDN再登录ITeye,麻烦得很。今天终于想开了:搬家到CSDN!未来有时间也会考虑备份日志在ITeye和博客园。
String[] ioArgs = new String[] {"/usr/local/hadoop/hadooptmp/input/", "/usr/local/hadoop/hadooptmp/outdata"};
在Myeclipse上直接运行Mapreduce项目会报错 java.lang.ClassNotFoundException: com.hadoop.HadoopMain$Map,需要run on hadoop,相当于配置下hadoop的环境以及上传相应的jar。
即可解决!
另外每次更新代码后,需要重新run on hadoop ...
选手:IKanalyzer、ansj_seg、jcseg
硬件:i5-3470 3.2GHz 8GB win7 x64
比赛项目:1、搜索;2、自然语言分析
选手介绍:
1,IKanalyzer
IKanalyzer采用的是“正向迭代最细粒度切分算法”,是比较常见而且很容易上手的分词器了。一 ...
今天下午,总算用脚本把自己二次开发的nutch跑起来了。从第一次接触nutch到现在,一年半接近两年的时间了。从开始的一无所知、凑合着用到后来的尝试梳理、阅读源码、放弃使用再到今年的坚定信念来攻克以至今日可以 ...
公司需要一个比较好用的wiki工具,之前研究了xplanner,开源,方便搭建,但是界面实在简陋得无法接受;然后是scrumwork pro,这个算是scrum敏捷开发工具里相当有名的了,千辛万苦给破解安装了,可以缺点明显:1是没有汉化,2是需要swing运行,占内存体验差。本来这块任务已经搁置,前几天总监推荐了下confluence,了解了一下,发现不错,遂花一天时间完成搭建、破解、汉化和试用。效果不错。
所有的步奏网上都有,我这里简单梳理下,重点讲下一些关键的地方,也算留给自己备忘。
1,到官网下载,速度不快不慢,下载完建议在官网注册一个licene,地址https://my.atlassi ...
window下用shutdown命令可以实现定时关机、重启等功能,效果很好,但是对于普通用户来说过于麻烦,毕竟不是每个人都愿意敲命令行。因此我写了一个脚本,可以轻松实现这些功能。
双击附件里的shutdown.bat依照指引即可。
该脚本的优点是人性化的提示,全程辅助,只需极少的输入
极个别电脑可能运行无效,修改注释即可,bat下注释命令为rem
set/p a2=输入一个数字(0/1/2/...):
set/a h=3600
set/a f=%a2%*%h%
shutdown.exe -s -t %f%
rem shutdown.exe -s %f%
echo %a2%小时后关闭电脑 ...
中秋节的前一天,生了一场病,肚子坏了,浑身不舒服,躺在床上,望着石灰板咬牙切齿。翻来覆去发现自己现在只有刷知乎这个爱好。张公子的书上市好久了才买。京东发货速度很快,拆开后满心的喜欢,很漂亮的书腰,纸质跟我想象的一模一样。张公子的字跟梁实秋有得一比,写吃写玩,都有滋有味,看得让人觉得生活真美好。
还买了一本高晓松的《如丧》,这胖子的《晓说》我是一直看的,优酷的广告是英菲尼迪的车,我买不起,只好买本书聊表心意。但是《晓说》的书和《鱼羊野史》都很一般,不值得看,遂买了《如丧》。高世称才子,但是这本书写得马马虎虎,很有东西都是开了嘴炮在乱吹,只有有关年少和大学时光值得看看。附赠一本高晓松 ...
这段时间,搞定搜索之后,技痒之下,决定写了本地检索工具玩玩。于是捡起了swing.
其实最初是想用c#的,语法和java类似,较为简单,入门也很快,只是自己用java很久,自谓精通,轻易用一门不擅长的语言,难言明智。swing ...
solrcloud的配置文件是上传在zookeeper文件系统上的。这样就面临一个问题,每次需要修改配置文件,就没有只有之前本地单机solr那么简单,需要上传。
搭建solrcloud时候提交配置文件的脚本是:
java -classpath .:/usr/local/tomcat7/webapps/solr/WEB-INF/lib/* org.apache.solr.cloud.ZkCLI -cmd upconfig -zkhost hadoop34:2181,hadoop35:2181,hadoop36:2181 -confdir /usr/local/soft/solr- ...
公司的solr线上服务器,分成差不多10个core给不同的部门不同的业务需求来使用。我接手以来,问题多多,烦扰多多。有不少问题亟待解决,首当其冲的是搜索准确度、数据同步。搜索准确度已经通过改用ansj分词器和不断优 ...
1 ssh登陆验证很慢,需要很久才提示输入密码
原因:系统开启了DNS反向解析
解决方法:
# vi /etc/ssh/sshd_config
UseDNS no
# /etc/init.d/sshd restart
2 putty等软件远程登陆很慢
在文件resolv.conf里定义了DNS服务器的IP地址,这里如果有ping不通的地址,就要花费时间在这里,所以把ping不通的去掉了
#vi /etc/resolv.conf
# /etc/init.d/sshd restart
推荐resolve.conf格式:
nameserver=8.8.8.8
nameserver=8 ...
工欲善其事,必先利其器。linux上,开挂一样的命令就是利器。这里说下无敌好用的scp命令,什么ftp真心弱爆了有木有。
命令格式:
复制文件:scp local_file remote_username@remote_ip:remote_folder
复制文件并且命名:scp local_file remote_username@remote_ip:remote_file
复制文件夹scp -r local_folder remote_username@remote_ip:remote_folder
从远程复制文件回来
scp remote_username@remote_ip:rem ...
在本人工作期间,会不断更新优化公司的搜索!
2014年8月4日,搜索BUG修复:
java.lang.UnsupportedOperationException
2014年8月1日,搜索BUG修复:
修复ansj索引分词排序错误导致快速高亮出错的问题
2014年7月29日,搜索BUG修复:
带有html标签的字段高亮bug的修改
分词接口向低版本的solr开发的接口兼容
拼写纠错的加入
2014年7月18日,搜索新特性:
zookeeper和solrcloud的加入,令人兴奋!
solr索引core新的创建方式,不再需要重启solr服务
solr多机器数据的同步和更新
更 ...
在solr4.8使用的章节里我讲了很多有关ansj分词器的用法以及相关描述和个人看法。这里新开一篇专门描述。
传送门:https://github.com/ansjsun/ansj_seg/
作者是个年轻的技术男,github上有他的微博,可以和他沟通交流问题(加粉吧,虽然微博现在不流行了,但是这么好的分词器的作者才800多粉丝看着心疼)。
ansj最新版下载下来有40+MB,不过新特性自然语言方面用到的crf.model(NlpAnalysis分词会用到)占了37MB,一般做搜索的是用不到的,所以直接精简掉吧,立刻很轻松有木有。去掉之后就不能再用NlpAnalysis分词了,不过因为分词器 ...