本月博客排行
-
第1名
龙儿筝 -
第2名
zysnba -
第3名
johnsmith9th - wy_19921005
- sgqt
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- wy_19921005
- benladeng5225
- fantaxy025025
- javashop
- qepwqnp
- e_e
- 解宜然
- zysnba
- ssydxa219
- sam123456gz
- ranbuijj
- arpenker
- tanling8334
- kaizi1992
- sichunli_030
- xpenxpen
- gaojingsong
- wiseboyloves
- xiangjie88
- ganxueyun
- xyuma
- wangchen.ily
- jh108020
- zxq_2017
- jbosscn
- lemonhandsome
- luxurioust
- Xeden
- lzyfn123
- forestqqqq
- zhanjia
- nychen2000
- ajinn
- wjianwei666
- johnsmith9th
- hanbaohong
- daizj
- 喧嚣求静
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
互联网专栏最新文章
lucene-NGram中文分词
NGram(综合了单词切分和二分法)
package busetoken;
import java.io.IOException;import java.io.StringReader;
import org.apache.lucene.analysis.Token;import org.apache.lucene.analysis.ngram.NGramTokenizer;
publi ...
lucene入门-简单的WEB搜索界面
使用servlet和tomcat6,注意事项:
1,将lucene-core-2.9.0.jar复制到WEB-INF\lib
2,按照tomcat的要求组织好目录
3,编写好web.xml
4,编译产生的SluceneSearcher.class类拷到WEB-INF\classes\bservlet
web.xml配置如下:
<?xml version="1.0&quo ...
lucene入门-使用JE中文分词
基于词库的算法分词,是较好的中文分词器
package busetoken;import java.io.IOException;
import jeasy.analysis.MMAnalyzer;
public class UseJe {
/*** @param args* @throws IOException */public static void main(String[] arg ...
lucene入门-解析pdf(使用pdfbox解析英文PDF)
下载pdfbox
http://incubator.apache.org/pdfbox/
下载相关的jar
http://commons.apache.org/downloads/download_logging.cgi
引入external下的所有包
英语PDF:
package extract;import java.io.FileWriter;import java.io.IOE ...
lucene入门-解析word文档
下载:
http://mirrors.ibiblio.org/pub/mirrors/maven2/org/textmining/tm-extractors/0.4/
java代码如下:
package extract;
import java.io.*;import org.textmining.text.extraction.WordExtractor;
public class Ex ...
lucene入门-解析pdf(使用xpdf解析中文PDF详细过程)
下载xpdf和xpdf-chinese-simplified.tar.gz ,然后将xpdf-chinese-simplified.tar.gz解压到xpdf所在的目录形成一个子目录
http://www.foolabs.com/xpdf/download.html
The following packages are available:
Arabic: xpdf-arabic.tar. ...
lucene入门-使用pdfbox解析中文PDF
很多人使用 PDFBOX无法解析中文PDF,其实是在编程时没有指定字符集导致的,指定字符集后,pdfbox是完全可以解析中文PDF的
下载JAR文件
下载pdfbox
http://incubator.apache.org/pdfbox/
下载相关的jar
http://commons.apache.org/downloads/download_logging.cgi
引入exter ...
lucene-解析xml
1、安装DOM4j
http://www.dom4j.org/
2、安装jaxen
http://jaxen.org/releases.html
3、代码
package extract;import java.io.*;import org.dom4j.*;import org.dom4j.io.*;import java.util.*;
public class XmlExtract ...
lucene-使用htmlparser解析未设定编码页面
一、
1、使用htmlparser解析网页,如果页面没有设定编码,那么htmlparser将会iso-8859-1和编码方式解析网页
2、本例假定网页没有指定编码,将http://hao.360.cn/ ...
lucene-使用htmlparser解析有编码页面
网页中指定了以下的形式的编码
<META content="text/html; charset=gb2312" http-equiv=Content-Type>
一、使用org.htmlparser.beans.StringBean
1、代码:
package extract;import java.io.UnsupportedEncodingExcepti ...
SEO策略 PPC和SEO 关键词竞争性研究
关键词研究是整个SEO活动的核心也是开发PPC程序的关键所在。你应该仔细的挑选效果最好的关键词。因为关键词的选择贯穿于网站的复制,PPC程序以及其他类型的活动之中。
开始之前,你应该知道获取关键词的渠道。
你自身的经验和知识
。从你自身的行业知识,再差也能选择一个词来描述产品或者服务的特征。如果不知道,你最好了解了解你的产品和服务。
你的客户
。你的客户会告诉你,当他们想寻找产品或服务的时 ...
SEO策略 PPC和SEO 理解PPC对SEO的影响
有很多关于使用自然关键词营销和PPC营销的争论。对于这两种营销方式分别有两大阵营。
第一个阵营的观点是,PPC程序会对自然关键词程序造成不好的影响。PPC程序破坏了自然关键词的排名,因为为关键词付费会降低自然关键词的排名。他们深信这个原则,并且认为PPC根本没有用武之地。
另一阵营的观点是,PPC对SEO没有效果。这个观点相信对自然关键词优化能和PPC效果一样。所以没必要在PPC上花钱。
...
SEO策略 (十二) 关键词 什么是正确的关键词密度
什么是正确的关键词密度
关键词的密度挺难衡量的。关键字词密度是指一张网页的所有文字中关键字词出现的次数的百分比。因此如果有一个1000个词的页面。一个关键词出现在页面有10次,这个关键词密度就是1%。
那么什么是正确的关键词密度呢?这个问题还真没法回答。一些专家说关键词密度应该在5%到7%之间。有的人认为要比低一些或高一些。好像没有一个准确的答案。
因为关键词密度没有啥准确的答案,甚至有的时 ...
[Ray Linn]用Visual Studio 2008开发IE BHO(浏览器帮助对象) 之三
接下来,我们要为IE增加一个按钮(注意不是toolbar,toolbar要复杂得多),基本这是一个注册表的魔术.打开RayBHO.rgs, 添加
HKLM
{
NoRemove Software
{
NoRemove Microsoft
{
NoRemove 'Internet Explorer'
{
NoRemove Extensions
...
[Ray Linn]用Visual Studio 2008开发IE BHO (浏览器帮助对象)之一
这篇文章是应同学们的要求写的,以前都是用VC++ 6.0+Platform SDK完成的. 迁移到 VS2008之后,原来Visual Studio 6.0里的BHO向导不复存在,因此特此不厌其烦,详细说明 ...
互联网热门文章
博客专栏评论
分享一款代码生成器,拖拽式组件结合流式处理,很容易的访问数据库、http、文件读写操作等等,支持编写j ...
MCLoginandPwd 评论了 spring-data-jpa原理探秘(4)-JpaQueryE ...
MCLoginandPwd 评论了 spring-data-jpa原理探秘(4)-JpaQueryE ...