- 浏览: 2483213 次
- 性别:
- 来自: 北京
-
最新评论
-
masuweng:
你好, 根据机器码计算注册码的代码是在哪个包下的哪个类了.
APDPlat中的机器码生成机制 -
masuweng:
我的那个项目跑起来为什么503了
APDPlat中的机器码生成机制 -
masuweng:
APDPlat中的机器码生成机制 -
liutaochn:
可以用,thanks
Cygwin运行nutch报错:Failed to set permissions of path -
qbuer:
The Google Web Search API is no ...
使用Java调用谷歌搜索
文章列表
首先,我们新建一个maven工程,在pom.xml中加入HtmlExtractor依赖,如下所示:
<dependency>
<groupId>org.apdplat</groupId>
<artifactId>html-extractor</artifactId>
<version>1.1</version>
</dependency>
接着,我们加入日志配置文件,在src/main/resources目录下新建日志文件logback.xml,如果 ...
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch、Luke插件。
自1.0之后,在1.1和1.2中,word分词有了重大改进,优化了分词算法、利用多线程提升分词速度、支持分布式、支持资源变化自动检测、新增了全切分算法、支持三元模型、支持Luke插件、增加gradle支持等等,同时,word1.2支持最新的ElasticSearch1.5.1、Lucene4.10.4、Solr ...
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。
HtmlExtractor是为大规模分布式环境设计的,采用主从架构, ...
本文给出了3760个问题,这些问题来自于广大网友对QuestionAnsweringSystem的测试。
在面对这些问题的时候,我们人类是怎么思考回答的呢?
对我们来说,回答这些问题是一个很自然甚至很简单的思考过程,可是我们却很难 ...
做Java开发,要想成为高手,忘了中文版的书吧,也别在想翻译版了,英文这关是必须要跨过的,看英文原版才是正道,先推荐36本Java英文原版电子书,书目如下图所示。如果英文不好也没关系,可以参考本人的superword项目,一边看原版书,一边学英文,既学好了英文又学好了专业知识,一举两得:
下载地址
本文我们介绍一个网络机器人的识别与攻防的经典案例(也即爬虫与反爬虫的经典案例)。使用到的代码见本人的superword项目:
https://github.com/ysc/superword/blob/master/src/main/java/org/apdplat/superword/tools/ProxyIp.java
我们的目的是要使用机器人自动获取站点http://ip.qiaodm.com/ 和站点http://proxy.goubanjia.com/ 的免费高速HTTP代理IP和端口号。
如果我们需要在海量的结构未知的网页库中找到和指定的网页相似度比较高的一些网页,我们该怎么办呢?本文提出的“一种通用的网页相似度检测算法”就是专门解决这个问题。
算法如下:
1、提取网页文本。这 ...
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法,对于其他的用户生成内容站点类型也具有同样的适用性。
最近在ITEYE博客频道上面出现了一种新型的商业广告形式,方法如下:
1、注册多个账号(一般10个以上)。
2、从多个账号中选择一个账号,发表1-2篇博文。
3、用剩下的账号顶2中发表的文章,这样这些文章在发表后的一天内几乎始终位于博客主页顶部。
4、12-24小时后,删除2中发表的博文,重复2-4步骤。
rank是一个seo工具,用于分析网站的搜索引擎收录排名。
比如我写了一篇文章:“使用Java8实现自己的个性化搜索引擎”,我想知道有哪些网站转载了我的文章,我该怎么办呢?请看这里,OSCHINA博文抄袭检查的代码:https://github.com/ysc/rank/blob/master/src/main/java/org/seo/rank/impl/BaiduCopyChecker.java ,该代码来自本人的rank项目。
值得注意的是,这里我们只是比较了原文和其他文章的标题,如果其他文章标题包含了原文,我们就认为其他文章抄袭原文。这个简
1、SOLR4.2集成NUTCH1.6
wget http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz
tar -xzvf solr-4.2.0.tgz
cd solr-4.2.0/example
复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/conf目录,改名为schema.xml,覆盖原来文件
修改so
word分词是一个Java实现的分布式中文分词组件
1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar(国内不能访问)
2、下载并解压Java中文分词组件word-1.0-bin.zip
3、将解压后的 Java中文分词组件word-1.0-bin/word-1.0 文件夹里面的4个jar包解压到当前文件夹,用压缩解压工具如winrar打开lukeall-4.0.0-ALPHA.jar,将当前文件夹里面除了.jar、.bat、.html文件外的其他所有文件拖到lukeall-4.0.0-ALPHA ...
Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存储在Tachyon里的文件。Tachyon是架构在最底层的分布式文件系统和上层的各种计算框架之间的一种中间件,其主要职责是将那些不需要落地到DFS里的文件,落地到分布式内存文件系统中,来达到共享内存,从而提高效率,减少内存冗余,减少GC时间等。
Tachyon架构
Tachyon的架构是传统的Master—Slave架构,这里和Hadoop类似,TachyonMaster里WorkflowManager是 Master进程,因为是为了防止单点问题,所以通过Zookeeper做了HA,可以部署多台S ...
rank是一个seo工具,用于分析网站的搜索引擎收录排名。
比如我写了一篇文章:“使用Java8实现自己的个性化搜索引擎”,我想知道有哪些网站转载了我的文章,我该怎么办呢?请看这里,ITEYE博文抄袭检查的代码:https://github.com/ysc/rank/blob/master/src/main/java/org/seo/rank/impl/BaiduCopyChecker.java ,该代码来自本人的rank项目。
值得注意的是,这里我们只是比较了原文和其他文章的标题,如果其他文章标题包含了原文,我们就认为其他文章抄袭原文。这个简单的规则之所以生效,是因
需要对249本软件著作实现句子级别全文检索,这些著作均为PDF文件,不使用现有的框架如lucene,自己实现的方法如下:
1、从PDF文件中提取文本,这里的重点是如何最大可能地还原文本。提取之后的文本,一个句子一行保存为 ...
rank是一个seo工具,用于分析网站的搜索引擎收录排名。
计算ITEYE博文在百度的收录与排名情况的代码来自rank项目:https://github.com/ysc/rank/blob/master/src/main/java/org/seo/rank/impl/BaiduRanker.java。
本文我们分析ITEYE博客:http://yangshangchuan.iteye.com 在搜索引擎百度中的收录与排名情况,我们以结果1 APDPlat的系统启动和关闭流程剖析(-1) 为例子来说明,表示的