- 浏览: 572905 次
- 性别:
- 来自: 北京
最新评论
-
w592376568:
博主:添加后修改索引后,如何实现实时搜索啊??
Lucene5学习之LuceneUtils工具类简单封装 -
mohaoyang:
同意12楼的说法,close方法,单例的意义如何,每次clos ...
Lucene5学习之LuceneUtils工具类简单封装 -
kingxianstar:
8837One_day 写道你好作者,所有的配置文件都配置了, ...
跟益达学Solr5之增量索引MySQL数据库表数据 -
yingyong01:
...
跟益达学Solr5之拼音分词[改进版] -
8837One_day:
你好作者,所有的配置文件都配置了,在数据库中也添加新的一条数据 ...
跟益达学Solr5之增量索引MySQL数据库表数据
文章列表
what is more
除此之外
after all毕竟
above all
首先,尤其是
ahead of
在.....之前
all at once
突然,同时/一起
all but
几乎,差一点
all of sudden
突然,出乎意料的
all over
到处
all over again
再来一次,重新
all the same
仍然,照样/照旧
all the time
一直,始终
and so on
昨天用Virtualbox虚拟了2台CentOS,发现默认没有安装vim,所以就准备安装vim,结果我输入如下命令时,出现了如题的异常:
yum install vim-X11 vim-common vim-enhanced vim-minimal
结果提示异常: 意思是yum当前正被其他程序进程占用了,解决办法就是杀掉进程了,输入下面的命令即可:
rm -f /var/run/yum.pid
然后再次输入vim安装命令即可, 你会看到,已经在自动下载vim依赖的其他rpm啦,耐心等待即可!中途会出现几个需要你确认的提示,如: Is this ...
这里我使用的是NAT网络模式,如图: 然后如图操作: 修改之前如图: ifcfg-eth0修改之后如图: 然后修改/etc/sysconfig下的network文件,如图: 敲vi network,然后如图编辑: 然后esc,:wq!保存,你懂的。
然后service n ...
使用HttpClient模拟新浪微博登录,贴在这里做个备忘,也希望能帮助到有这方面需求的童鞋们,代码如下:
package com.yida.spider4j.crawler.test.sina;
import java.io.UnsupportedEncodingException;
import java.math.BigInteger;
import java.net ...
闲的蛋疼,抓下音悦台的MV玩玩,昨晚研究到凌晨1点,现把代码分享与此,以作备忘,如果有涉及侵权,请音悦台通知我,我马上删除代码,哈哈!!!
//因为我发现音悦台的MV ID都是7位数字
int max = 9999999;
for(int i=0; i < max; i++) {
String videoId = i + "";
String html = HttpClientUtils.getHTML("http://www.yinyuetai.com/insite/get-video-in ...
1. org.w3c.dom.Document对象转成org.jsoup.nodes.Document对象:
String fragment = "<data><employee><name id=\"1\">益达</name><name id=\"2\">yida</name>"
+ "<title>Manager</title></empl ...
纯干货,你懂的,各位看官直接看代码:
package com.yida.spider4j.crawler.utils.xml;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.io.StringReader;
import java.util.ArrayList;
import java.util.List;
import javax.xml.parsers.DocumentBuilder;
import javax.xml ...
Maven异常: maven-dependency-plugin (goals copy-dependencies unpack ) is not supported by m2e
解决办法如下:
将<plugins>元素包裹在<pluginManagement>元素之内,如图: 改好后,crel + s保存你的pom.xml,然后在项目上右键-->Maven-->Update Project Configuration,然后问题就解决了。
之前一篇介绍过如何自定义实现拼音分词器,不过当初只考虑了全拼这种情况,且有些BUG,趁着抗日胜利70周年阅兵3天假期有时间,又把当初的代码拿起来进行了改进,改进点包括支持全拼,简拼以及全拼+简拼,支持汉字数字是否NGram处理的可配置,支持NGram长度范围的可配置等,特此更新此篇进行分享!如有不妥之处,还望不吝指正!
废话不多说,直接上代码:
import java.io.IOException;
import java.util.ArrayList;
import java.util.Collection;
import java.util.Iterat ...
前面我们知道了如何通过执行Heritrix官方提供的jar包去启动Heritrix,庆幸的是,Heritrix是完全开源的,所以我们可以将Heritrix的源码直接导入Eclipse去运行它。
首先解压heritrix-1.14.4-src.zip到任意盘符,这里我直接解压到桌面,解压后 ...
何为Ajax动态网页,我想不用我多说了吧,如果你连Ajax是啥玩意儿都不知道,那你还是先去Google学习Ajax吧。为了形象起见,这里我以抓取这个网页为例进行讲解说明。网页链接如下: http://www.sse.com.cn/assortment/stoc ...
启动Heritrix后,访问http://localhost:6789就可以打开Heritrix的登录界面,登录后即进入了Heritrix Web后台的主页: console: Heritrix的控制台,会显示Heritrix的抓取任务和分配给Heritrix的Heap使用情况
Jobs:Heritrix的抓取任务界面,比如创建抓取任务,已挂起的任务,已完成的任务统计
Profiles:Heritrix抓取任务相关的配置
Logs:Heritrix的运行日志
Reports:Heritrix的统计报表
Heritrix是一个基于Java的开源的具有高扩展性高灵活性的Web爬虫开源项目。
Heritrix的几大亮点如下:
1.开源,如果你想了解爬虫相关知识,阅读Heritrix源码是不二之选。
2.抓取性能高,配置灵活
3.扩展性很好,便于进行二次开发
应群友强烈要求,特此更新此篇博客。其实在我的Lucene5系列博客里我已经介绍了拼音分词,遗憾的是,大家不能举一反三,好吧,还是我亲自上马吧!
首先我们来看看我当初使用Lucene5是如何实现的, 在Solr ...
要想在Sor中使用MMSeg4J分词器,首先你需要自定义一个TokenizerFactory实现类,虽然直接配置Analyzer类也可以,但那样无法配置Analyzer构造函数的参数,不够灵活,存在弊端,所以我一直都是以扩展TokenizerFactory的方式来讲解 ...