`
youkimra
  • 浏览: 34675 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
集中了两天时间对nutch的抓取效率进行了研究,根据自己的需求只关心网站的html页面。其余的都filter,配置文件很多,需要记录下以便后面方便: 1 nutch-default.xml    a. http.content.limit -1 表示抓取整个html页面内容 。    b. fetcher.threads.per.host 5  fetcher.threads.fetch 100 , 如果fetcher.threads.per.host为1的话后面线程数是不会生效的。    c. plugin.includes 加上urlfilter-(regex|prefix|suffix) ...
最近工作中遇到瓶颈,主要是没有很好的理解nutch从而使之效率低下,现在要对nutch进行优化,以后也会记录下在学习nutch的时候所遇到的问题。首先x point org.apache.nutch.net.URLNormalizer not found. 这是在运行nutch的时候报出的异常。我们可以发现和URLNormalizer这个有关,URLNormalizer是nutch在inject的时候对url进行规范化的东西,它是通过插件完成的,因此我认为是插件存在问题,后来仔细排查发现在nutch-default.xml中plugin.folders参数路径设置错误,由原来的lib/plugi ...

给字段添加索引

查看索引:show keys from table_name 删除索引 :drop index language_index_mul on language_test 建立索引 :CREATE unique INDEX index_domain_name ON domain_nutch (domain_name);
mysql导出表中数据 : mysql -u user -pxxxxx -P5606 -Dxxxx_db -h192.168.9.101 -e "select * from table" >xxxxxx.txt
1 一个数组中有若干个词,有重复的,现需要进行词频统计,由高到低进行排列 2 用递归实现打印输出斐波那契数列的第n个数 3 java如何实现字符串转码即从gb2312转换成UTF-8 待续----
昨天临下班了突发事件出现,机器突然断电了。重启后发现自检过程中不能进入自己的目录/home/zk 。机器不能正常启动。 没辙了抱着试一试的想法使用了fsck命令。奇迹发生了: 如果有同样的情况,可以尝试一下 进入/sbin 下执行fsck -y 后面是你要恢复的磁盘名称.例如 sda6 等等。然后等他执行完毕可重启计算机,基本就搞定了。
一张表中如果有字段名为:updated_at ,字段类型 timestamp , 原始默认值 CURRENT_TIMESTAMP 。在网上查了下说是要先删除这个字段,然后再重新添加字段并给默认值,其实不用,可以用下面sql即可: alter table domain_url modify column updated_at timestamp default '0000-00-00 00:00:00';
今天开始看了下Lucene,在使用极易分词器的时候遇到一个问题: Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.analysis.StopFilter.<init>(Lorg/apache/lucene/analysis/TokenStream;Ljava/util/Set;Z)V at jeasy.analysis.MMAnalyzer.tokenStream(Unknown Source:28) 后来在网上看到别人的博客中说是极易分词不支持3.0的版本,IK ...
一开始学习java就知道object类是所有类的父类,任何生成的新类都继承自它,即使你没有extends操作构造出来的对象也包含以下方法:public class TestObject { public static void main(String[] args) { TestObject to = new TestObject(); to.clone(); to.e ...
工作有一段时间了,可发现自己越来越浮躁,而且基础差的一塌糊涂。还是静下心里补充一下基础吧。 今天无意间看到某位高人在自己博客中给出的几道java基础测试题,自己也试试了,发现很多自己竟然不能正确回答,丢人! 比如 : 1 int类型的变量在内存中占用_4_字节,char型的变量在内存占用_16_位。 char型占两个字节也就是16位。 2 已知字符a的编码是97,大写字符A的编码是65,而且大写字符和小写字符的编码都是连续的,则小写字符e和大写字符E的编码依次是:_101_69_ 在代码中实现这个小例子的时候竟然这样去做了: String s = "e" System.ou ...
Global site tag (gtag.js) - Google Analytics