`
lies_joker
  • 浏览: 40984 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
在nutch爬取数据存放在hdfs时候报错: Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: hdfs://192.168.130.54:19000/user/hmail/output/part-00000, expected: file:/// 把hadoop集群的配置文件core-site.xml和hdfs-site.xml放到工程下即可解决!
ITeye用起来越来越麻烦,我的账号是CSDN的,每次需要先登录CSDN再登录ITeye,麻烦得很。今天终于想开了:搬家到CSDN!未来有时间也会考虑备份日志在ITeye和博客园。
String[] ioArgs = new String[] {"/usr/local/hadoop/hadooptmp/input/", "/usr/local/hadoop/hadooptmp/outdata"}; 在Myeclipse上直接运行Mapreduce项目会报错 java.lang.ClassNotFoundException: com.hadoop.HadoopMain$Map,需要run on hadoop,相当于配置下hadoop的环境以及上传相应的jar。 即可解决! 另外每次更新代码后,需要重新run on hadoop ...
选手:IKanalyzer、ansj_seg、jcseg 硬件:i5-3470 3.2GHz 8GB win7 x64 比赛项目:1、搜索;2、自然语言分析 选手介绍:   1,IKanalyzer   IKanalyzer采用的是“正向迭代最细粒度切分算法”,是比较常见而且很容易上手的分词器了。一 ...
    今天下午,总算用脚本把自己二次开发的nutch跑起来了。从第一次接触nutch到现在,一年半接近两年的时间了。从开始的一无所知、凑合着用到后来的尝试梳理、阅读源码、放弃使用再到今年的坚定信念来攻克以至今日可以 ...
公司需要一个比较好用的wiki工具,之前研究了xplanner,开源,方便搭建,但是界面实在简陋得无法接受;然后是scrumwork pro,这个算是scrum敏捷开发工具里相当有名的了,千辛万苦给破解安装了,可以缺点明显:1是没有汉化,2是需要swing运行,占内存体验差。本来这块任务已经搁置,前几天总监推荐了下confluence,了解了一下,发现不错,遂花一天时间完成搭建、破解、汉化和试用。效果不错。 所有的步奏网上都有,我这里简单梳理下,重点讲下一些关键的地方,也算留给自己备忘。 1,到官网下载,速度不快不慢,下载完建议在官网注册一个licene,地址https://my.atlassi ...
window下用shutdown命令可以实现定时关机、重启等功能,效果很好,但是对于普通用户来说过于麻烦,毕竟不是每个人都愿意敲命令行。因此我写了一个脚本,可以轻松实现这些功能。 双击附件里的shutdown.bat依照指引即可。 该脚本的优点是人性化的提示,全程辅助,只需极少的输入 极个别电脑可能运行无效,修改注释即可,bat下注释命令为rem set/p a2=输入一个数字(0/1/2/...): set/a h=3600 set/a f=%a2%*%h% shutdown.exe -s -t %f% rem shutdown.exe -s %f% echo %a2%小时后关闭电脑 ...
    中秋节的前一天,生了一场病,肚子坏了,浑身不舒服,躺在床上,望着石灰板咬牙切齿。翻来覆去发现自己现在只有刷知乎这个爱好。张公子的书上市好久了才买。京东发货速度很快,拆开后满心的喜欢,很漂亮的书腰,纸质跟我想象的一模一样。张公子的字跟梁实秋有得一比,写吃写玩,都有滋有味,看得让人觉得生活真美好。     还买了一本高晓松的《如丧》,这胖子的《晓说》我是一直看的,优酷的广告是英菲尼迪的车,我买不起,只好买本书聊表心意。但是《晓说》的书和《鱼羊野史》都很一般,不值得看,遂买了《如丧》。高世称才子,但是这本书写得马马虎虎,很有东西都是开了嘴炮在乱吹,只有有关年少和大学时光值得看看。附赠一本高晓松 ...
   这段时间,搞定搜索之后,技痒之下,决定写了本地检索工具玩玩。于是捡起了swing. 其实最初是想用c#的,语法和java类似,较为简单,入门也很快,只是自己用java很久,自谓精通,轻易用一门不擅长的语言,难言明智。swing ...
   solrcloud的配置文件是上传在zookeeper文件系统上的。这样就面临一个问题,每次需要修改配置文件,就没有只有之前本地单机solr那么简单,需要上传。    搭建solrcloud时候提交配置文件的脚本是: java -classpath .:/usr/local/tomcat7/webapps/solr/WEB-INF/lib/* org.apache.solr.cloud.ZkCLI -cmd upconfig -zkhost hadoop34:2181,hadoop35:2181,hadoop36:2181 -confdir  /usr/local/soft/solr- ...
    公司的solr线上服务器,分成差不多10个core给不同的部门不同的业务需求来使用。我接手以来,问题多多,烦扰多多。有不少问题亟待解决,首当其冲的是搜索准确度、数据同步。搜索准确度已经通过改用ansj分词器和不断优 ...
1 ssh登陆验证很慢,需要很久才提示输入密码 原因:系统开启了DNS反向解析 解决方法: # vi /etc/ssh/sshd_config  UseDNS no  # /etc/init.d/sshd restart 2 putty等软件远程登陆很慢 在文件resolv.conf里定义了DNS服务器的IP地址,这里如果有ping不通的地址,就要花费时间在这里,所以把ping不通的去掉了 #vi /etc/resolv.conf # /etc/init.d/sshd restart 推荐resolve.conf格式: nameserver=8.8.8.8 nameserver=8 ...
工欲善其事,必先利其器。linux上,开挂一样的命令就是利器。这里说下无敌好用的scp命令,什么ftp真心弱爆了有木有。 命令格式: 复制文件:scp local_file remote_username@remote_ip:remote_folder 复制文件并且命名:scp local_file remote_username@remote_ip:remote_file 复制文件夹scp -r local_folder remote_username@remote_ip:remote_folder 从远程复制文件回来 scp remote_username@remote_ip:rem ...
在本人工作期间,会不断更新优化公司的搜索! 2014年8月4日,搜索BUG修复: java.lang.UnsupportedOperationException 2014年8月1日,搜索BUG修复: 修复ansj索引分词排序错误导致快速高亮出错的问题 2014年7月29日,搜索BUG修复: 带有html标签的字段高亮bug的修改 分词接口向低版本的solr开发的接口兼容 拼写纠错的加入 2014年7月18日,搜索新特性: zookeeper和solrcloud的加入,令人兴奋! solr索引core新的创建方式,不再需要重启solr服务 solr多机器数据的同步和更新 更 ...
在solr4.8使用的章节里我讲了很多有关ansj分词器的用法以及相关描述和个人看法。这里新开一篇专门描述。 传送门:https://github.com/ansjsun/ansj_seg/ 作者是个年轻的技术男,github上有他的微博,可以和他沟通交流问题(加粉吧,虽然微博现在不流行了,但是这么好的分词器的作者才800多粉丝看着心疼)。 ansj最新版下载下来有40+MB,不过新特性自然语言方面用到的crf.model(NlpAnalysis分词会用到)占了37MB,一般做搜索的是用不到的,所以直接精简掉吧,立刻很轻松有木有。去掉之后就不能再用NlpAnalysis分词了,不过因为分词器 ...
Global site tag (gtag.js) - Google Analytics