`
lxwt909
  • 浏览: 572905 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
what is more 除此之外   after all毕竟   above all 首先,尤其是   ahead of  在.....之前   all at once 突然,同时/一起   all but 几乎,差一点   all of sudden 突然,出乎意料的   all over 到处   all over again 再来一次,重新   all the same 仍然,照样/照旧   all the time 一直,始终   and so on
      昨天用Virtualbox虚拟了2台CentOS,发现默认没有安装vim,所以就准备安装vim,结果我输入如下命令时,出现了如题的异常: yum install vim-X11 vim-common vim-enhanced vim-minimal     结果提示异常:   意思是yum当前正被其他程序进程占用了,解决办法就是杀掉进程了,输入下面的命令即可: rm -f /var/run/yum.pid     然后再次输入vim安装命令即可,    你会看到,已经在自动下载vim依赖的其他rpm啦,耐心等待即可!中途会出现几个需要你确认的提示,如:   Is this ...
   这里我使用的是NAT网络模式,如图:    然后如图操作:    修改之前如图:    ifcfg-eth0修改之后如图:    然后修改/etc/sysconfig下的network文件,如图:     敲vi network,然后如图编辑:    然后esc,:wq!保存,你懂的。    然后service n ...
      使用HttpClient模拟新浪微博登录,贴在这里做个备忘,也希望能帮助到有这方面需求的童鞋们,代码如下:       package com.yida.spider4j.crawler.test.sina; import java.io.UnsupportedEncodingException; import java.math.BigInteger; import java.net ...
       闲的蛋疼,抓下音悦台的MV玩玩,昨晚研究到凌晨1点,现把代码分享与此,以作备忘,如果有涉及侵权,请音悦台通知我,我马上删除代码,哈哈!!!        //因为我发现音悦台的MV ID都是7位数字 int max = 9999999; for(int i=0; i < max; i++) { String videoId = i + ""; String html = HttpClientUtils.getHTML("http://www.yinyuetai.com/insite/get-video-in ...
    1. org.w3c.dom.Document对象转成org.jsoup.nodes.Document对象:        String fragment = "<data><employee><name id=\"1\">益达</name><name id=\"2\">yida</name>" + "<title>Manager</title></empl ...
       纯干货,你懂的,各位看官直接看代码: package com.yida.spider4j.crawler.utils.xml; import java.io.File; import java.io.IOException; import java.io.InputStream; import java.io.StringReader; import java.util.ArrayList; import java.util.List; import javax.xml.parsers.DocumentBuilder; import javax.xml ...
    Maven异常:    maven-dependency-plugin (goals copy-dependencies unpack ) is not supported by m2e       解决办法如下:     将<plugins>元素包裹在<pluginManagement>元素之内,如图:  改好后,crel + s保存你的pom.xml,然后在项目上右键-->Maven-->Update Project Configuration,然后问题就解决了。      
      之前一篇介绍过如何自定义实现拼音分词器,不过当初只考虑了全拼这种情况,且有些BUG,趁着抗日胜利70周年阅兵3天假期有时间,又把当初的代码拿起来进行了改进,改进点包括支持全拼,简拼以及全拼+简拼,支持汉字数字是否NGram处理的可配置,支持NGram长度范围的可配置等,特此更新此篇进行分享!如有不妥之处,还望不吝指正!       废话不多说,直接上代码: import java.io.IOException; import java.util.ArrayList; import java.util.Collection; import java.util.Iterat ...
前面我们知道了如何通过执行Heritrix官方提供的jar包去启动Heritrix,庆幸的是,Heritrix是完全开源的,所以我们可以将Heritrix的源码直接导入Eclipse去运行它。 首先解压heritrix-1.14.4-src.zip到任意盘符,这里我直接解压到桌面,解压后 ...
       何为Ajax动态网页,我想不用我多说了吧,如果你连Ajax是啥玩意儿都不知道,那你还是先去Google学习Ajax吧。为了形象起见,这里我以抓取这个网页为例进行讲解说明。网页链接如下:       http://www.sse.com.cn/assortment/stoc ...
        启动Heritrix后,访问http://localhost:6789就可以打开Heritrix的登录界面,登录后即进入了Heritrix Web后台的主页: console: Heritrix的控制台,会显示Heritrix的抓取任务和分配给Heritrix的Heap使用情况    Jobs:Heritrix的抓取任务界面,比如创建抓取任务,已挂起的任务,已完成的任务统计    Profiles:Heritrix抓取任务相关的配置    Logs:Heritrix的运行日志    Reports:Heritrix的统计报表
Heritrix是一个基于Java的开源的具有高扩展性高灵活性的Web爬虫开源项目。 Heritrix的几大亮点如下:         1.开源,如果你想了解爬虫相关知识,阅读Heritrix源码是不二之选。         2.抓取性能高,配置灵活         3.扩展性很好,便于进行二次开发
         应群友强烈要求,特此更新此篇博客。其实在我的Lucene5系列博客里我已经介绍了拼音分词,遗憾的是,大家不能举一反三,好吧,还是我亲自上马吧!         首先我们来看看我当初使用Lucene5是如何实现的, 在Solr ...
       要想在Sor中使用MMSeg4J分词器,首先你需要自定义一个TokenizerFactory实现类,虽然直接配置Analyzer类也可以,但那样无法配置Analyzer构造函数的参数,不够灵活,存在弊端,所以我一直都是以扩展TokenizerFactory的方式来讲解 ...
Global site tag (gtag.js) - Google Analytics