如何使用HtmlExtractor实现基于模板的网页结构化信息精准抽取?

博客分类：

HtmlExtractor

首先，我们新建一个maven工程，在pom.xml中加入HtmlExtractor依赖，如下所示： <dependency> <groupId>org.apdplat</groupId> <artifactId>html-extractor</artifactId> <version>1.1</version> </dependency> 接着，我们加入日志配置文件，在src/main/resources目录下新建日志文件logback.xml，如果 ...

2015-04-16 00:10
浏览 9512
评论(0)
分类:开源软件

Java分布式中文分词组件word分词v1.2发布

博客分类：

word分词

word分词中文分词 solr lucene elasticsearch

word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch、Luke插件。自1.0之后，在1.1和1.2中，word分词有了重大改进，优化了分词算法、利用多线程提升分词速度、支持分布式、支持资源变化自动检测、新增了全切分算法、支持三元模型、支持Luke插件、增加gradle支持等等，同时，word1.2支持最新的ElasticSearch1.5.1、Lucene4.10.4、Solr ...

2015-04-16 00:09
浏览 4969
评论(0)
分类:开源软件

HtmlExtractor 1.1 发布，网页信息抽取组件

博客分类：

HtmlExtractor

HtmlExtractor 网页正文信息抽取网页解析模板解析

HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，� ...

2015-04-15 23:08
浏览 3245
评论(0)
分类:开源软件

测试人机问答系统智能性的3760个问题

博客分类：

QuestionAnsweringSystem

QuestionAnsweringSystem 人机问答问答系统人机交互智能问答

本文给出了3760个问题，这些问题来自于广大网友对QuestionAnsweringSystem的测试。在面对这些问题的时候，我们人类是怎么思考回答的呢？对我们来说，回答这些问题是一个很自然甚至很简单的思考过程，可是我们却很难� ...

2015-04-15 04:40
浏览 3563
评论(0)
分类:开源软件

36本Java英文原版电子书

博客分类：

java

java

做Java开发，要想成为高手，忘了中文版的书吧，也别在想翻译版了，英文这关是必须要跨过的，看英文原版才是正道，先推荐36本Java英文原版电子书，书目如下图所示。如果英文不好也没关系，可以参考本人的superword项目，一边看原版书，一边学英文，既学好了英文又学好了专业知识，一举两得：下载地址

2015-04-14 12:09
浏览 5344
评论(1)
分类:编程语言

网络机器人的识别与攻防的经典案例（也即爬虫与反爬虫的经典案例）

博客分类：

superword

代理爬虫网络爬虫网络机器人攻防

本文我们介绍一个网络机器人的识别与攻防的经典案例（也即爬虫与反爬虫的经典案例）。使用到的代码见本人的superword项目： https://github.com/ysc/superword/blob/master/src/main/java/org/apdplat/superword/tools/ProxyIp.java 我们的目的是要使用机器人自动获取站点http://ip.qiaodm.com/ 和站点http://proxy.goubanjia.com/ 的免费高速HTTP代理IP和端口号。

2015-04-12 00:23
浏览 12233
评论(1)
分类:开源软件

一种通用的网页相似度检测算法

博客分类：

rank

rank 相似度计算文本相似度词袋模型余弦相似度

如果我们需要在海量的结构未知的网页库中找到和指定的网页相似度比较高的一些网页，我们该怎么办呢？本文提出的“一种通用的网页相似度检测算法”就是专门解决这个问题。算法如下： 1、提取网页文本。这 ...

2015-04-10 08:43
浏览 5276
评论(0)
分类:开源软件

一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法

博客分类：

rank

rank 相似度计算文本相似度词袋模型余弦相似度

本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文。 3、用剩下的账号顶2中发表的文章，这样这些文章在发表后的一天内几乎始终位于博客主页顶部。 4、12-24小时后，删除2中发表的博文，重复2-4步骤。

2015-04-10 02:49
浏览 3087
评论(4)
分类:开源软件

OSCHINA博文抄袭检查

博客分类：

rank

rank 抄袭检查 SEO 搜索引擎优化 JAVA8

rank是一个seo工具，用于分析网站的搜索引擎收录排名。比如我写了一篇文章：“使用Java8实现自己的个性化搜索引擎”，我想知道有哪些网站转载了我的文章，我该怎么办呢？请看这里，OSCHINA博文抄袭检查的代码：https://github.com/ysc/rank/blob/master/src/main/java/org/seo/rank/impl/BaiduCopyChecker.java ，该代码来自本人的rank项目。值得注意的是，这里我们只是比较了原文和其他文章的标题，如果其他文章标题包含了原文，我们就认为其他文章抄袭原文。这个简

2015-04-09 03:46
浏览 4610
评论(0)
分类:开源软件

SOLR4.2+NUTCH1.6

博客分类：

开源项目

solr nutch word 搜索网络爬虫

1、SOLR4.2集成NUTCH1.6 wget http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz tar -xzvf solr-4.2.0.tgz cd solr-4.2.0/example 复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/conf目录，改名为schema.xml，覆盖原来文件修改so

2015-04-08 06:21
浏览 3570
评论(0)
分类:开源软件

给LUKE增加word分词器

博客分类：

word分词

luke nutch word分词搜索网络爬虫

word分词是一个Java实现的分布式中文分词组件 1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar（国内不能访问） 2、下载并解压Java中文分词组件word-1.0-bin.zip 3、将解压后的 Java中文分词组件word-1.0-bin/word-1.0 文件夹里面的4个jar包解压到当前文件夹，用压缩解压工具如winrar打开lukeall-4.0.0-ALPHA.jar，将当前文件夹里面除了.jar、.bat、.html文件外的其他所有文件拖到lukeall-4.0.0-ALPHA ...

2015-04-07 21:12
浏览 4046
评论(0)
分类:开源软件

分布式内存文件系统：Tachyon

博客分类：

大数据
开源项目
分布式

spark tachyon 分布式文件系统分布式内存文件系统共享内存

Tachyon是一个分布式内存文件系统，可以在集群里以访问内存的速度来访问存储在Tachyon里的文件。Tachyon是架构在最底层的分布式文件系统和上层的各种计算框架之间的一种中间件，其主要职责是将那些不需要落地到DFS里的文件，落地到分布式内存文件系统中，来达到共享内存，从而提高效率，减少内存冗余，减少GC时间等。 Tachyon架构 Tachyon的架构是传统的Master—Slave架构，这里和Hadoop类似，TachyonMaster里WorkflowManager是 Master进程，因为是为了防止单点问题，所以通过Zookeeper做了HA，可以部署多台S ...

2015-04-06 02:50
浏览 4027
评论(0)
分类:开源软件

ITEYE博文抄袭检查

博客分类：

rank

rank SEO 搜索引擎优化 JAVA8

rank是一个seo工具，用于分析网站的搜索引擎收录排名。比如我写了一篇文章：“使用Java8实现自己的个性化搜索引擎”，我想知道有哪些网站转载了我的文章，我该怎么办呢？请看这里，ITEYE博文抄袭检查的代码：https://github.com/ysc/rank/blob/master/src/main/java/org/seo/rank/impl/BaiduCopyChecker.java ，该代码来自本人的rank项目。值得注意的是，这里我们只是比较了原文和其他文章的标题，如果其他文章标题包含了原文，我们就认为其他文章抄袭原文。这个简单的规则之所以生效，是因

2015-04-06 02:10
浏览 4106
评论(0)
分类:开源软件

使用Java8实现自己的个性化搜索引擎

博客分类：

superword

全文检索搜索引擎 java java8 superword

需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为� ...

2015-04-05 05:07
浏览 3502
评论(4)
分类:开源软件

计算ITEYE博文在百度的收录与排名情况

rank seo 搜索引擎优化

rank是一个seo工具，用于分析网站的搜索引擎收录排名。计算ITEYE博文在百度的收录与排名情况的代码来自rank项目：https://github.com/ysc/rank/blob/master/src/main/java/org/seo/rank/impl/BaiduRanker.java。本文我们分析ITEYE博客：http://yangshangchuan.iteye.com 在搜索引擎百度中的收录与排名情况，我们以结果1 APDPlat的系统启动和关闭流程剖析(-1) 为例子来说明，表示的

2015-04-05 05:00
浏览 2420
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

如何使用HtmlExtractor实现基于模板的网页结构化信息精准抽取?

Java分布式中文分词组件word分词v1.2发布

HtmlExtractor 1.1 发布，网页信息抽取组件

测试人机问答系统智能性的3760个问题

36本Java英文原版电子书

网络机器人的识别与攻防的经典案例（也即爬虫与反爬虫的经典案例）

一种通用的网页相似度检测算法

一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法

OSCHINA博文抄袭检查

SOLR4.2+NUTCH1.6

给LUKE增加word分词器

分布式内存文件系统：Tachyon

ITEYE博文抄袭检查

使用Java8实现自己的个性化搜索引擎

计算ITEYE博文在百度的收录与排名情况

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>