抽词扩展名为.doc的word文档报一系列异常如下:
异常一:
java.lang.IndexOutOfBoundsException: Index: 10, Size: 7
at java.util.ArrayList.RangeCheck(Unknown Source)
at java.util.ArrayList.get(Unknown Source)
at org.apache.poi.hwpf.model.PlexOfCps.getProperty(PlexOfCps.java:70)
at org.apache.poi.hwpf.usermodel.HeaderStories.getAt(HeaderStories.java:155)
at org.apache.poi.hwpf.usermodel.HeaderStories.getFirstHeader(HeaderStories.java:87)
at org.apache.poi.hwpf.extractor.WordExtractor.getHeaderText(WordExtractor.java:178)
at org.apache.poi.hwpf.extractor.WordExtractor.getText(WordExtractor.java:254)
at com.index.extractor.impl.WordFileTextExtractor.getText(WordFileTextExtractor.java:23)
at test.TextConvert.convert(TextConvert.java:147)
at test.TextConvert.getEFiles(TextConvert.java:111)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.go(TextConvert.java:47)
at test.TextConvert.main(TextConvert.java:42)
异常二:
java.lang.ArrayIndexOutOfBoundsException: 218636
at org.apache.poi.util.LittleEndian.getShort(LittleEndian.java:45)
at org.apache.poi.hwpf.model.ListLevel.<init>(ListLevel.java:120)
at org.apache.poi.hwpf.model.ListFormatOverrideLevel.<init>(ListFormatOverrideLevel.java:48)
at org.apache.poi.hwpf.model.ListTables.<init>(ListTables.java:88)
at org.apache.poi.hwpf.HWPFDocument.<init>(HWPFDocument.java:267)
at org.apache.poi.hwpf.HWPFDocument.<init>(HWPFDocument.java:157)
at org.apache.poi.hwpf.extractor.WordExtractor.<init>(WordExtractor.java:62)
at org.apache.poi.hwpf.extractor.WordExtractor.<init>(WordExtractor.java:54)
at com.index.extractor.impl.WordFileTextExtractor.getText(WordFileTextExtractor.java:22)
at test.TextConvert.convert(TextConvert.java:147)
at test.TextConvert.getEFiles(TextConvert.java:111)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.go(TextConvert.java:47)
at test.TextConvert.main(TextConvert.java:42)
异常三:
java.lang.NullPointerException
at org.apache.poi.hwpf.sprm.ParagraphSprmUncompressor.uncompressPAP(ParagraphSprmUncompressor.java:47)
at org.apache.poi.hwpf.model.StyleSheet.createPap(StyleSheet.java:241)
at org.apache.poi.hwpf.model.StyleSheet.<init>(StyleSheet.java:116)
at org.apache.poi.hwpf.HWPFDocument.<init>(HWPFDocument.java:260)
at org.apache.poi.hwpf.HWPFDocument.<init>(HWPFDocument.java:157)
at org.apache.poi.hwpf.extractor.WordExtractor.<init>(WordExtractor.java:62)
at org.apache.poi.hwpf.extractor.WordExtractor.<init>(WordExtractor.java:54)
at com.index.extractor.impl.WordFileTextExtractor.getText(WordFileTextExtractor.java:22)
at test.TextConvert.convert(TextConvert.java:147)
at test.TextConvert.getEFiles(TextConvert.java:111)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.go(TextConvert.java:47)
at test.TextConvert.main(TextConvert.java:42)
解决:
WordExtractor extractor = new WordExtractor(inputStream);
bodyText = extractor.getText();
使用的jar包:
- 大小: 12 KB
分享到:
相关推荐
1. WORD 文档使用的默认扩展名为 DOC(C)。 2. 在 WORD 中,若要将某个段落的格式复制到另一段,可以采用格式刷(C)。 3. 在 Windows XP 中,要将目前窗口的所有内容拷入剪贴板,应当使用 Alt+Print Screen(B)。...
14. Excel文档的默认文件扩展名为.xls。 15. 拖动被选中单元格的边框,当指针变为十字箭头时,可以完成单元格的复制操作。 16. Excel通过图表向导功能创建图表,方便用户以可视化的方式展示数据。 17. Excel启动后,...
- 创建的新文件夹默认名为“新建文献夹”,用户需要手动输入合适的名称,例如“图片2”、“WORD文档”、“MYFILE”等。 - 文件夹的重命名可通过右键点击已存在的文件夹,然后选择“重命名”。 2. **文件移动与...
- Word2010 默认保存的文档格式扩展名为 .docx。 - Excel2010 默认保存工作簿的格式扩展名为 .xlsx。 - PowerPoint2010 默认保存的文档格式扩展名为 .pptx。 2. **插入功能**: - 在 Word2010 的“插入”选项卡...
Excel文件称为工作簿,其缺省扩展名为.xls,用于存储电子表格数据。 14. 输入’0571后,单元格中将显示“0571”(B)。在Excel中,用户可以输入’0571,以显示“0571”。 15. 在Excel2003数据清单中,先按某一字段...
2. WORD文档的默认扩展名是DOC(C),是一个基于文本的文件格式。 3. Internet网络的通讯协议是TCP/IP(D),是一个网络通讯协议的集合,负责将数据从源设备传输到目标设备。 4. 在WORD 2003中,要将某个段落的...
16. 在 Windows 中,需要查找以 n 开头且扩展名为.com 的所有文件,在查找对话框内的名称框中应输入 n*.com。 17. Flash 动画的源文件扩展名是 .fla。 18. FLASH 制作中,如果把动画中的每一帧都设置为关键帧,...
- 文件类型:文件的扩展名决定其类型,例如.exe用于可执行文件,.doc用于Word文档。 3. 输入/输出设备: - 输入设备:包括键盘、鼠标、扫描仪等,用于向计算机输入信息。 - 输出设备:如显示器、打印机,用于...
- **筛选特定格式文件**:将文件夹 `T□` 中扩展名为 `.doc`, `.ppt`, `.xls` 和 `.mdb` 的文件复制到子文件夹 `TX1` 中。 #### 1.3 使用画图软件 - **绘制图形**:使用 Windows 附件中的画图软件绘制一个填充色为...
* 在文件夹 T□下,建立一个子文件夹 TX1(1 分),并将文件夹 T□中的扩展名为 .doc、.ppt、.xls 和.mdb 文件复制到文件夹 TX1 中(2 分)。 * 启动附件里的画图软件,画一填充色为红色的矩形(2 分),并保存该...
7. **自动播放**:为了让幻灯片自动播放,可以右键点击PPT文件选择“显示”,或直接将文件扩展名改为“PPS”。这样,文件打开即开始播放,简化操作流程。 8. **增加撤销次数**:默认情况下,PowerPoint仅能撤销20次...
12. **PowerPoint演示文稿扩展名**:PowerPoint的演示文稿通常以.ppt或.pptx为扩展名。 13. **启动Word的方法**:无法通过单击Windows桌面上的Word快捷方式图标来启动Word,这可能是由于快捷方式失效或者Word未正确...
13. Excel文件的默认扩展名为.xls,代表Excel工作簿。 14. 若要在单元格中显示“0571”,需输入'0571,前导的单引号使得Excel理解这是一个文本字符串而非数字。 15. 在Excel2003中,对数据清单进行分类汇总是在...
9. 工作簿扩展名:在Excel中,工作簿的默认扩展名为.xlsx,用于保存表格数据和格式。 10. 科学记数法:在Excel单元格中,输入数字前加'(单引号)可防止数字以科学计数形式显示。 11. 排序:对数据表进行分类汇总...
16. PowerPoint演示稿的扩展名是.PPT(C)。 17. 若要向演示文稿添加表格,应在插入菜单中选择表格(C)。 18. PowerPoint的三种放映方式不包括自行设计浏览(D)。 19. Excel中的排序、汇总、筛选等功能通过数据...
【标题】:“业务员销售统计表 (2).doc”是一个用于记录公司业务员销售业绩的文档,它通常包含了业务员的姓名、所负责的销售区域、以及他们在特定时间段内的销售额等关键数据。这类表格对于企业管理者来说至关重要,...
- 工作簿:是Excel文件,扩展名为XLS,由多个工作表组成。新建工作簿有三种方式,包括启动时自动创建、使用“新建”命令选择模板,以及工具栏的“新建”按钮。保存工作簿使用“文件”->“保存”,可以设置自动保存...
6. 文件格式:为了在其他应用程序中调用Word文档,通常建议将其保存为.DOC格式,这是Word的默认文档格式,具有良好的兼容性。 7. IP地址:因特网上的每个主机都有唯一的IP地址。IP地址分为A、B、C、D四类,A、B、C...