浏览 1261 次
锁定老帖子 主题:Tika解析文件Demo
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2014-05-27
import java.io.File; import java.io.FileInputStream; import org.apache.tika.metadata.Metadata; import org.apache.tika.mime.MimeType; import org.apache.tika.mime.MimeTypes; import org.apache.tika.mime.MimeTypesFactory; import org.apache.tika.parser.AutoDetectParser; import org.apache.tika.parser.ParseContext; import org.apache.tika.parser.Parser; import org.apache.tika.parser.microsoft.OfficeParser; import org.apache.tika.sax.BodyContentHandler; /** * 使用Tika解析 * 各种文件 * * * @author qindongliang * * * ***/ public class ParseDoc { public static void main(String[] args)throws Exception { //FileInputStream f=new FileInputStream(new File("D:\\校讯通产品用户使用手册.doc")); //FileInputStream f=new FileInputStream(new File("E:\\tika\\tika in action.pdf")); FileInputStream f=new FileInputStream(new File("D:\\345.jpg")); Parser p= new AutoDetectParser();//自动获取一个合适的解析器类型 //如果文件很大,那么这个值可以适当调大 BodyContentHandler hand= new BodyContentHandler(10000); Metadata me=new Metadata(); ParseContext pct=new ParseContext(); // p.parse(f, hand ,new Metadata(), new ParseContext()); p.parse(f, hand ,me, pct); //打印读取的文本 System.out.println(hand.toString()); } } </pre> 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |