-
lucene等搜索引擎解析
收藏lucene等搜索引擎解析
最近更新文章
nutch1.0在eclipse下的成功编译要注意事项
有以下要点要注意:
1、在WINDOWS的环境变量中要正确指定JDK目录
2、build.xml编译报错,
Nutch\nutch-0.9\build.xml:61: Specify at least one source--a file or resource collection.
将下面几行的前几行(从61行开始直到下面的<copy todir="${conf.dir} ...
为Nutch 1.0添加JE中文分词
先下载Nutch 1.0的源文件:
svn co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0 ./nutch-1.0
更改查询语法解析部分:
改变tokenize的方式(原来为中文单字识别)
modify “src/java/org/apache/nutch/analysis/NutchAnalysis.jj”l ...
ubuntu下nutch-1.0的安装和配置错误排除
一、安装JDK(笔者推荐使用原生的方式安装SUN-JDK6
一、保证TOMCAT的正常安装
二,下载nutch-1.0,解压后,并将它拷贝到/opt/目录下。cd /opt/nutch-1.0root@fjadmin-webcrawler:/opt/nutch-1.0# sh bin/nutch crawl一般来说没有设置JAVA_HOME等环境,会报以下错误:[: 72: ==: unex ...
nutch-JE分词
先下载Nutch 1.0的源文件:
co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0 ./nutch-1.0
更改查询语法解析部分:
改变tokenize的方式(原来为中文单字识 ...
lucene入门-复杂索引建立
一个document包括多个field,以一个document为了一个单元建立索引,下例包括2个document:
package bindex;import java.io.IOException;
import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apac ...
lucene入门-索引网页
package bindex;import java.io.File;import tool.FileText;import java.io.IOException;
import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.lucene.index ...
lucene入门-索引目录下的所有网页以及索引检索
package bindex;import java.io.File;import tool.FileText;import tool.FileList;import java.io.*;
import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.l ...
lucene-使用CJKTokenizer分词
二分法分词
package busetoken;
import org.apache.lucene.analysis.cjk.CJKTokenizer;import org.apache.lucene.analysis.Token;
import java.io.IOException;import java.io.StringReader;
public class UseCjk {
/ ...
lucene-使用自带中文分词器
使用lucene内自带的,在contrib/analyzerslucene-analyzers-2.9.0.jar
即单字分析
package busetoken;
import java.io.IOException;import java.io.StringReader;
import org.apache.lucene.analysis.Token;import org.apache. ...
lucene-NGram中文分词
NGram(综合了单词切分和二分法)
package busetoken;
import java.io.IOException;import java.io.StringReader;
import org.apache.lucene.analysis.Token;import org.apache.lucene.analysis.ngram.NGramTokenizer;
publi ...
lucene入门-简单的WEB搜索界面
使用servlet和tomcat6,注意事项:
1,将lucene-core-2.9.0.jar复制到WEB-INF\lib
2,按照tomcat的要求组织好目录
3,编写好web.xml
4,编译产生的SluceneSearcher.class类拷到WEB-INF\classes\bservlet
web.xml配置如下:
<?xml version="1.0&quo ...
lucene入门-使用JE中文分词
基于词库的算法分词,是较好的中文分词器
package busetoken;import java.io.IOException;
import jeasy.analysis.MMAnalyzer;
public class UseJe {
/*** @param args* @throws IOException */public static void main(String[] arg ...
lucene入门-解析pdf(使用pdfbox解析英文PDF)
下载pdfbox
http://incubator.apache.org/pdfbox/
下载相关的jar
http://commons.apache.org/downloads/download_logging.cgi
引入external下的所有包
英语PDF:
package extract;import java.io.FileWriter;import java.io.IOE ...
lucene入门-解析word文档
下载:
http://mirrors.ibiblio.org/pub/mirrors/maven2/org/textmining/tm-extractors/0.4/
java代码如下:
package extract;
import java.io.*;import org.textmining.text.extraction.WordExtractor;
public class Ex ...
lucene入门-解析pdf(使用xpdf解析中文PDF详细过程)
下载xpdf和xpdf-chinese-simplified.tar.gz ,然后将xpdf-chinese-simplified.tar.gz解压到xpdf所在的目录形成一个子目录
http://www.foolabs.com/xpdf/download.html
The following packages are available:
Arabic: xpdf-arabic.tar. ...
lucene入门-使用pdfbox解析中文PDF
很多人使用 PDFBOX无法解析中文PDF,其实是在编程时没有指定字符集导致的,指定字符集后,pdfbox是完全可以解析中文PDF的
下载JAR文件
下载pdfbox
http://incubator.apache.org/pdfbox/
下载相关的jar
http://commons.apache.org/downloads/download_logging.cgi
引入exter ...
lucene-解析xml
1、安装DOM4j
http://www.dom4j.org/
2、安装jaxen
http://jaxen.org/releases.html
3、代码
package extract;import java.io.*;import org.dom4j.*;import org.dom4j.io.*;import java.util.*;
public class XmlExtract ...
lucene-使用htmlparser解析未设定编码页面
一、
1、使用htmlparser解析网页,如果页面没有设定编码,那么htmlparser将会iso-8859-1和编码方式解析网页
2、本例假定网页没有指定编码,将http://hao.360.cn/ ...
lucene-使用htmlparser解析有编码页面
网页中指定了以下的形式的编码
<META content="text/html; charset=gb2312" http-equiv=Content-Type>
一、使用org.htmlparser.beans.StringBean
1、代码:
package extract;import java.io.UnsupportedEncodingExcepti ...