- 浏览: 166631 次
- 性别:
- 来自: 武汉
最新评论
-
CHE墨心:
楼主啊,pdftohtml你有测试过吗?
用xpdf和pdfbox来处理中文PDF文档及其比较 -
xuweiit:
不错,测试了可以正常使用,,
用xpdf和pdfbox来处理中文PDF文档及其比较 -
taotao945:
楼主你好,请问分词后怎么过滤停用词呢?急用,谢谢指点!
使用ICTCLAS JAVA版(ictclas4j)进行中文分词(附ictclas,停用词表,commons-lang-2.4.jar下载地址) -
uniWind:
c#下研究itextsharp了好久,也没有解决中文问题,楼主 ...
用xpdf和pdfbox来处理中文PDF文档及其比较 -
yegong:
楼主,您好,请问,stopwords,这个停用词表怎么用的咧? ...
使用ICTCLAS JAVA版(ictclas4j)进行中文分词(附ictclas,停用词表,commons-lang-2.4.jar下载地址)
文章列表
转载:
木瓜教程之Google Docs使用手册
Google
Docs
是一个基于Web的工具,它有跟Word相近的编辑界面,有一套简单易用的文档权限管理,而且它还记录下所有用户对文档所做的修改。
Google Docs的这些功能令它非常适用于网上共享与协作编辑文档。
Google
Docs甚至可以用于监控责任清晰,目标明确的项目进度。对于简单的项目,它使用起来直接了当,不像dotProject
那般复杂。
从Writely开始,我就一直在使用这个网上文档编辑工具。Writely被Google买去之后,整个工具跟Google的其它系 ...
本文来自:
http://www.awflasher.com/blog/archives/1218
GMail有一个很“变态”的用法,就是在你的用户名后加上一个加号,然后加上任何字符串都可以使用,例如:
awflasher+blog at gmail dot com和awflasher at
gmail dot com的作用是完全一样的。
思考一下,Google为什么要推出这个功能呢?我想,绝对不是吃饱了撑着让你们八卦的。
其实关键的是为了方便地建立过滤器。
因为发送方的Email规则我们往往难以掌控,因此基于发送方邮件建立的过滤器 ...
在
LZW算法中使用的术语与LZ78使用的相同,仅增加了一个术语—前缀根(Root),它是由单个字符串组成的缀-符串(String)。在编码原理上,LZW与LZ78相比有如下差别:①LZW只输出代表词典中的缀-符串(String)的码字(code
word)。这就意味在开始时词典不能是空的,它必须包含可能在字符流出现中的所有单个字符,即前缀根(Root)。②由于所有可能出现的单个字符都事先包含在词典中,每个编码步骤开始时都使用一字符前缀(one-character
prefix),因此在词典中搜索的第1个缀-符串有两个字符。
现将LZW编码算法和译码算法介绍如下。
...
在全文检索中通常要对索引进行压缩存储,在压缩之前如果对文本进行一定的可逆变换能够使之更易压缩,BWT就是这样一种变换.
通过一个例子来介绍BWT,假设一段待转换的文本为:ababc, 则BWT的过程如下:
在T后插入结束符#得到新的文本串T#,循环左移,每次一位,得到一个|T#|行的矩阵,按首字母排序得到M
F = first column of M
L = last column of M
BMT使用L来代表T,这样做的原因是L通常比T更容易压缩(具有很多连续的相同元素),那么怎么通过L恢复出F呢? ...
范式huffman编码是一种相对于正规的编码而言操作起来简单得多的编码方法,而且其效果能够起到和huffman编码相同的效果。
范式huffman编码的基础还是依靠于huffman编码。
1、首先对需要压缩的数据进行huffman排列,得出 ...
算术编码 (转)
我们在上一章中已经明白,Huffman
编码使用整数个二进制位对符号进行编码,这种方法在许多情况下无法得到最优的压缩效果。假设某个字符的出现概率为 80%,该字符事实上只需要 -log2(0.8) =
0.322 位编码,但 Huf ...
刚刚开始看绝代商骄,是在hudbt上下的高清版本,但是在添加sub字幕的时候有个小问题,字幕文件太大以至于挡住了视频文件。
解决方法如下:
1. 右键->字幕->描绘到VMR表面
2. 右键->选项->参数设置(或直接按F2),进入参数设置对话框
3. 视频处理->视频渲染器->VMR9未渲染(HQ字幕)
(完)
create@2009-09-19
一、POI
POI是Apache的Jakata项目,POI 代表 Poor Obfuscation
Implementation,即不良模糊化实现。POI 的目标就是提供一组 Java API 来使得基于 Microsoft OLE 2 Compound
Document 格式的 Microsoft Office 文件易于操作。
下载地址
:http://apache.etoak.com/jakarta/poi/release/bin/
相关配置
:
(1)
把下载的
poi-bin-3.2-FINAL-20 ...
一 介绍
最初Java是不支持对文本文件的处理的,为了弥补这个缺憾而引入了Reader和Writer两个类。
java.io下面有两个抽象类:InputStream和Reader
InputStream是表示字节输入流的所有类的超类
Reader是用于读取字符流的抽象类
InputStream提供的是字节流的读取,而非文本读取,这是和Reader类的根本区别。即用Reader读取出来的是char数组或者String
,使用InputStream读取出来的是byte数组。
弄清了两个超类的根本区别,再来看他们底下子类的使用,这里只对最常用的几个说明
InputStre ...
以前的博客http://lycoder.iteye.com/由于各种原因不再更新了~我会将里面的文章陆续转过来~希望大家以后继续支持我~