- 浏览: 166638 次
- 性别:
- 来自: 武汉
最新评论
-
CHE墨心:
楼主啊,pdftohtml你有测试过吗?
用xpdf和pdfbox来处理中文PDF文档及其比较 -
xuweiit:
不错,测试了可以正常使用,,
用xpdf和pdfbox来处理中文PDF文档及其比较 -
taotao945:
楼主你好,请问分词后怎么过滤停用词呢?急用,谢谢指点!
使用ICTCLAS JAVA版(ictclas4j)进行中文分词(附ictclas,停用词表,commons-lang-2.4.jar下载地址) -
uniWind:
c#下研究itextsharp了好久,也没有解决中文问题,楼主 ...
用xpdf和pdfbox来处理中文PDF文档及其比较 -
yegong:
楼主,您好,请问,stopwords,这个停用词表怎么用的咧? ...
使用ICTCLAS JAVA版(ictclas4j)进行中文分词(附ictclas,停用词表,commons-lang-2.4.jar下载地址)
文章列表
目的:
在WORD文档的第一页设置页脚,其它页没有页脚。
环境:
WORD 2007
步骤:
1、选择“视图->普通视图”
2、在第二页开始的位置插入“下一页分节符”,也即选择“页面布局->分割符->分节符(下一页)”,见图1,图2
3、选择“视图->页面视图”
4、选择“插入->页脚”,选择所需页脚格式,此处选择"空白"
5、在第一页编辑想要的页脚信息,见图3
6、第二页选择页眉,在页眉页脚工作栏中有“链接到上一页”选项,取消选择,见图4
7、去掉第二页的页脚信息,见图5
8、关闭页眉页脚,完成。
图1
图2
...
1、问题
Selenium启动Firefox测试HTTPS站点时会提示站点不信任,需要手动添加信任站点。即使是在Firefox中已经添加过例外了,但依然在每次测试时需要手动添加。
2、原因
Selenium每次启动Firefox时,都是重新建立一个profile作为启动的profile,因此无论之前怎么把站点设为可信任站点,每次Selenium启动时仍然是一个新的profile,因此会提示站点不信任,需要手动添加。
3、解决
(1) 找到有例外证书的Filefox配置文件
profile文件的位置:在win搜索框输入%appdata%,打开当前用户数据,在\Mozilla\Fir ...
1、安装Eclipse
下载Eclipse,解压到想安装的目录,本文为:D:\eclipse
2、安装Pydev
可参考官方文档:http://pydev.org/manual_101_install.html
以下列出具体步骤:
(1) Eclipse->Help->Install New Software...
(2) 点击Add添加安装地址
(3) 选择Pydev->PyDev for Eclipse,不勾选'Contact all update sites during install to find required software' ,点N ...
《简明Python教程》中,有在Linux下面进行文件备份的一段简单程序。
现在Win7下实现类似的功能,并验证通过。
1、在命令行里面测试rar的使用
假设WinRar的安装路径是C:\Program Files\WinRAR,则首先进入该目录:
cd C:\Program Files\WinRAR
rar /?命令可以提示该命令的使用方法,找到说明后,使用如下:
rar a D:\Backup\rarfile D:\Test
这样就会对D:\Test中的文件进行压缩后存放在D:\Backup\下的rarfile.rar中
2、得到当前日期
se ...
Cygwin是在windows平台上运行的linux模拟环境,安装步骤如下:
1、下载安装向导文件setup.exe
到Cygwin下载安装官方下载安装向导文件,通过它才能正确下载最新版本的Cygwin。
本文附件中也有setup.exe的下载。
2、运行安装程序,点“下一步”进入安装模式选择画面。
安装模式有"Install from Internet"、"Download form Internet"、"Install from Local Directory" 三种。
此处选择第一种模式,直接从Inte ...
我在以前的项目中使用的是pdfbox,在读取中文文档时可以读出大部分的文字,但是在数字、分页等地方还是不可避免的出现乱码。于是我在网上搜索,看有没有什么解决方法,看到有说法:
“PDFBox看起来非常的方便,它的API功能强大。甚至能和Lucene进行无缝的结合。但是它有一个致命的弱点,就是它不支持中文。要提取中文的文本,可以采用另一个非常出色的工具xpdf。”
于是我决定自己比较一下这两种方法处理中文pdf文档时在时间性能、读取效果等各个方面的效果。
一、关于XPDF和PDFBOX
1.xpdf
xpdf只是一个软件,通过 ...
一、ICTCLAS的介绍
中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统
ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis
System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS
和计算所其他14项免费发布的成果被中外媒体广泛地报道, ...
一、情况说明
前段时间自己写了一个工程DocumentToXML,功能是把文件进行一系列信息的提取(文本内容,文件创建时间等),然后生成对应的XML文档。由于需要提交给组里面的其他人使用,因此要求便于移植。之前没有经历过要跟别人合作的,都是自己写了一个工程能够运行就好了,因此还颇费了一番功夫,看看怎么生成jar给别人调用。
二、查阅资料
这里有一些对jar的说明情况。
1. JAR
文件揭密
2.
Eclipse项目的打包发行-good
3. myEclipse下项目打包
三、打包过程
在Eclipse ...
在系统中存在一个文件test.txt,其属性如下:
下面就给出对这个文件的创建时间
和修改时间
读取的代码。
点击这里
查看对文件内容
的读取代码。
import java.io.BufferedReader;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.text.SimpleDateFormat;
im ...
以下给出三种读取系统时间的方法,并且可以看出,
方法三的效率最高
。
import java.text.SimpleDateFormat;
import java.util.Calendar;
import java.util.Date;
import java.util.GregorianCalendar;
/**
* 读取当前系统时间
*/
public class ReadSystemTime {
public static void main(String[] args) {
//getTime_1();
//getTime_2();
...
以下是Java对几种文本文件内容读取代码。其中,OFFICE文档(WORD,EXCEL)使用了POI控件,PDF使用了PDFBOX控件。
点击这里
查看相关控件的下载地址和配置方法。
WORD
package textReader;
import java.io.*;
import org.apache.poi. ...
1.在Dictionary.java里面的getMaxMatch()函数里要注意加上对wis的判断语句
if(wis != null)
否则有时会报出越界错误。
2.在PosTagger.java里面的computePossibility()函数里要注意将对i的判断语句
i < startPos + length
改为
i < startPos + length - 1
否则有时会报出越界错误。
3.在AdjustSeg.java里面的
finaAdjust()函数里要注意将while语句的判断条件
while (true)
改为
...
在读取中文pdf文档的内容并对用ictclas4j对其进行分词过程中,在读取pdf这一步上面没有问题(即没有报错,可以正确运行,但是会出现一些乱码,这可能是由于pdfbox包的不够完善,可以通过用xpdf来读取进行一定的改善。)
但是到了分词这一步上面有时候会报错:
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at java.util.Arrays.copyOf(Unknown Source)
at java.lang.AbstractSt ...
转自:http://www.blogjava.net/wenlong/archive/2008/05/28/203564.html
(1)Ctrl+M切换窗口的大小
(2)Ctrl+Q跳到最后一次的编辑处
(3)F2当鼠标放在一个标记处出现Tooltip时候按F2则把鼠标移开时Tooltip还会显示即Show Tooltip Descripti ...
1.安装jdk1.6.0:
执行j2sdk安装程序,自定义路径,我们的安装路径为:C:\Program
Files\Java\jdk1.6.0
2.
配置jdk1.6.0
我的电脑->属性->高级->环境变量->系统变量中添加以下环境变量:
JAVA_HOME = C:\Program Files\Java ...