博客专栏 - lucene等搜索引擎解析

lucene等搜索引擎解析

nutch1.0在eclipse下的成功编译要注意事项

有以下要点要注意: 1、在WINDOWS的环境变量中要正确指定JDK目录 2、build.xml编译报错, Nutch\nutch-0.9\build.xml:61: Specify at least one source--a file or resource collection. 将下面几行的前几行(从61行开始直到下面的<copy todir="${conf.dir} ...

Eclipse Hadoop lucene OO EXT

deepfuture 评论(0) 有2092人浏览 2009-12-23 20:01

先下载Nutch 1.0的源文件： svn co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0 ./nutch-1.0 更改查询语法解析部分：改变tokenize的方式（原来为中文单字识别） modify “src/java/org/apache/nutch/analysis/NutchAnalysis.jj”l ...

Ant Java Apache lucene SVN

deepfuture 评论(1) 有2509人浏览 2009-12-23 19:52

ubuntu下nutch-1.0的安装和配置错误排除

一、安装JDK（笔者推荐使用原生的方式安装SUN－JDK6 一、保证TOMCAT的正常安装二，下载nutch-1.0，解压后，并将它拷贝到/opt/目录下。cd /opt/nutch-1.0root@fjadmin-webcrawler:/opt/nutch-1.0# sh bin/nutch crawl一般来说没有设置JAVA＿HOME等环境，会报以下错误：[: 72: ==: unex ...

Ubuntu Java Solr JVM JDK

deepfuture 评论(0) 有5916人浏览 2009-12-23 19:51

nutch-JE分词

先下载Nutch 1.0的源文件： co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0 ./nutch-1.0 更改查询语法解析部分：改变tokenize的方式（原来为中文单字识� ...

Ant Apache lucene Java Hadoop

deepfuture 评论(0) 有1402人浏览 2009-12-23 19:39

Nutch 的配置

Nutch 的配置文件几乎覆盖了Nutch 所有的功能。以前在网上看到过一个关于Nutch-default.XML 配置项解释，地址我没收藏，和本文配合起来看，会更好一些。这里我也不打算对其配置文件中的每一项做解释，如果在下面的解释里找不到想要的内容，请发表评论，我会回复的。 <property><name>http.max.delays</name><v ...

lucene 网络应用搜索引擎应用服务器 XML

deepfuture 评论(0) 有2336人浏览 2009-12-23 19:32

lucene入门-复杂索引建立

一个document包括多个field,以一个document为了一个单元建立索引，下例包括2个document： package bindex;import java.io.IOException; import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apac ...

lucene QQ Apache 工作 Blog

deepfuture 评论(0) 有1291人浏览 2009-12-23 19:26

lucene入门-索引网页

package bindex;import java.io.File;import tool.FileText;import java.io.IOException; import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.lucene.index ...

lucene Apache F#

deepfuture 评论(1) 有2011人浏览 2009-12-23 19:21

lucene入门-索引目录下的所有网页以及索引检索

package bindex;import java.io.File;import tool.FileText;import tool.FileList;import java.io.*; import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.l ...

lucene 360 腾讯 Apache F#

deepfuture 评论(0) 有1670人浏览 2009-12-23 19:15

lucene-使用CJKTokenizer分词

二分法分词 package busetoken; import org.apache.lucene.analysis.cjk.CJKTokenizer;import org.apache.lucene.analysis.Token; import java.io.IOException;import java.io.StringReader; public class UseCjk { / ...

lucene 360 Apache 腾讯 F#

deepfuture 评论(0) 有2889人浏览 2009-12-23 19:12

lucene-使用自带中文分词器

使用lucene内自带的，在contrib/analyzerslucene-analyzers-2.9.0.jar 即单字分析 package busetoken; import java.io.IOException;import java.io.StringReader; import org.apache.lucene.analysis.Token;import org.apache. ...

lucene 360 Apache 腾讯 F#

deepfuture 评论(0) 有2850人浏览 2009-12-23 19:01

lucene-NGram中文分词

NGram(综合了单词切分和二分法) package busetoken; import java.io.IOException;import java.io.StringReader; import org.apache.lucene.analysis.Token;import org.apache.lucene.analysis.ngram.NGramTokenizer; publi ...

lucene Apache

deepfuture 评论(0) 有2734人浏览 2009-12-23 19:00

lucene入门-简单的WEB搜索界面

使用servlet和tomcat6，注意事项： 1，将lucene-core-2.9.0.jar复制到WEB-INF\lib 2，按照tomcat的要求组织好目录 3，编写好web.xml 4，编译产生的SluceneSearcher.class类拷到WEB-INF\classes\bservlet web.xml配置如下： <?xml version="1.0&quo ...

Web lucene Servlet Apache JavaEE

deepfuture 评论(0) 有2190人浏览 2009-12-23 18:46

lucene入门-使用JE中文分词

基于词库的算法分词，是较好的中文分词器 package busetoken;import java.io.IOException; import jeasy.analysis.MMAnalyzer; public class UseJe { /*** @param args* @throws IOException */public static void main(String[] arg ...

lucene Apache 算法 F#

deepfuture 评论(0) 有1811人浏览 2009-12-23 18:45

lucene入门-解析pdf(使用pdfbox解析英文PDF)

下载pdfbox http://incubator.apache.org/pdfbox/ 下载相关的jar http://commons.apache.org/downloads/download_logging.cgi 引入external下的所有包英语PDF: package extract;import java.io.FileWriter;import java.io.IOE ...

lucene Apache CGI

deepfuture 评论(0) 有2319人浏览 2009-12-23 18:40

lucene入门-解析word文档

下载: http://mirrors.ibiblio.org/pub/mirrors/maven2/org/textmining/tm-extractors/0.4/ java代码如下： package extract; import java.io.*;import org.textmining.text.extraction.WordExtractor; public class Ex ...

lucene

deepfuture 评论(0) 有2005人浏览 2009-12-23 18:39

lucene入门-解析pdf(使用xpdf解析中文PDF详细过程)

下载xpdf和xpdf-chinese-simplified.tar.gz ，然后将xpdf-chinese-simplified.tar.gz解压到xpdf所在的目录形成一个子目录 http://www.foolabs.com/xpdf/download.html The following packages are available: Arabic: xpdf-arabic.tar. ...

lucene Linux HP Adobe Solaris

deepfuture 评论(0) 有7604人浏览 2009-12-23 17:27

lucene入门-使用pdfbox解析中文PDF

很多人使用 PDFBOX无法解析中文PDF，其实是在编程时没有指定字符集导致的，指定字符集后，pdfbox是完全可以解析中文PDF的下载JAR文件下载pdfbox http://incubator.apache.org/pdfbox/ 下载相关的jar http://commons.apache.org/downloads/download_logging.cgi 引入exter ...

lucene 出版 Windows Apache 编程

deepfuture 评论(1) 有6370人浏览 2009-12-23 17:26

lucene-解析xml

1、安装DOM4j http://www.dom4j.org/ 2、安装jaxen http://jaxen.org/releases.html 3、代码 package extract;import java.io.*;import org.dom4j.*;import org.dom4j.io.*;import java.util.*; public class XmlExtract ...

XML lucene Vmware VSS

deepfuture 评论(0) 有1697人浏览 2009-12-23 17:19

lucene-使用htmlparser解析未设定编码页面

一、 1、使用htmlparser解析网页，如果页面没有设定编码，那么htmlparser将会iso-8859-1和编码方式解析网页 2、本例假定网页没有指定编码，将http://hao.360.cn/ ...

lucene 360 大众硬件新浪微博游戏

deepfuture 评论(0) 有12056人浏览 2009-12-23 17:17

lucene-使用htmlparser解析有编码页面

网页中指定了以下的形式的编码 <META content="text/html; charset=gb2312" http-equiv=Content-Type> 一、使用org.htmlparser.beans.StringBean 1、代码： package extract;import java.io.UnsupportedEncodingExcepti ...