`
JAVA海洋
  • 浏览: 617975 次
  • 性别: Icon_minigender_1
  • 来自: 太原
社区版块
存档分类
最新评论

搜索扩展名为.doc的word文件遇到的异常问题汇总

阅读更多

抽词扩展名为.doc的word文档报一系列异常如下:

异常一:

java.lang.IndexOutOfBoundsException: Index: 10, Size: 7

   at java.util.ArrayList.RangeCheck(Unknown Source)

   at java.util.ArrayList.get(Unknown Source)

   at org.apache.poi.hwpf.model.PlexOfCps.getProperty(PlexOfCps.java:70)

   at org.apache.poi.hwpf.usermodel.HeaderStories.getAt(HeaderStories.java:155)

   at org.apache.poi.hwpf.usermodel.HeaderStories.getFirstHeader(HeaderStories.java:87)

   at org.apache.poi.hwpf.extractor.WordExtractor.getHeaderText(WordExtractor.java:178)

   at org.apache.poi.hwpf.extractor.WordExtractor.getText(WordExtractor.java:254)

   at com.index.extractor.impl.WordFileTextExtractor.getText(WordFileTextExtractor.java:23)

   at test.TextConvert.convert(TextConvert.java:147)

   at test.TextConvert.getEFiles(TextConvert.java:111)

   at test.TextConvert.getEFiles(TextConvert.java:130)

   at test.TextConvert.getEFiles(TextConvert.java:130)

   at test.TextConvert.getEFiles(TextConvert.java:130)

   at test.TextConvert.getEFiles(TextConvert.java:130)

   at test.TextConvert.go(TextConvert.java:47)

   at test.TextConvert.main(TextConvert.java:42)



异常二:

java.lang.ArrayIndexOutOfBoundsException: 218636

   at org.apache.poi.util.LittleEndian.getShort(LittleEndian.java:45)

   at org.apache.poi.hwpf.model.ListLevel.<init>(ListLevel.java:120)

   at org.apache.poi.hwpf.model.ListFormatOverrideLevel.<init>(ListFormatOverrideLevel.java:48)

   at org.apache.poi.hwpf.model.ListTables.<init>(ListTables.java:88)

   at org.apache.poi.hwpf.HWPFDocument.<init>(HWPFDocument.java:267)

   at org.apache.poi.hwpf.HWPFDocument.<init>(HWPFDocument.java:157)

   at org.apache.poi.hwpf.extractor.WordExtractor.<init>(WordExtractor.java:62)

   at org.apache.poi.hwpf.extractor.WordExtractor.<init>(WordExtractor.java:54)

   at com.index.extractor.impl.WordFileTextExtractor.getText(WordFileTextExtractor.java:22)

   at test.TextConvert.convert(TextConvert.java:147)

   at test.TextConvert.getEFiles(TextConvert.java:111)

   at test.TextConvert.getEFiles(TextConvert.java:130)

   at test.TextConvert.getEFiles(TextConvert.java:130)

   at test.TextConvert.getEFiles(TextConvert.java:130)

   at test.TextConvert.getEFiles(TextConvert.java:130)

   at test.TextConvert.go(TextConvert.java:47)

   at test.TextConvert.main(TextConvert.java:42)

异常三:

java.lang.NullPointerException

   at org.apache.poi.hwpf.sprm.ParagraphSprmUncompressor.uncompressPAP(ParagraphSprmUncompressor.java:47)

   at org.apache.poi.hwpf.model.StyleSheet.createPap(StyleSheet.java:241)

   at org.apache.poi.hwpf.model.StyleSheet.<init>(StyleSheet.java:116)

   at org.apache.poi.hwpf.HWPFDocument.<init>(HWPFDocument.java:260)

   at org.apache.poi.hwpf.HWPFDocument.<init>(HWPFDocument.java:157)

   at org.apache.poi.hwpf.extractor.WordExtractor.<init>(WordExtractor.java:62)

   at org.apache.poi.hwpf.extractor.WordExtractor.<init>(WordExtractor.java:54)

   at com.index.extractor.impl.WordFileTextExtractor.getText(WordFileTextExtractor.java:22)

   at test.TextConvert.convert(TextConvert.java:147)

   at test.TextConvert.getEFiles(TextConvert.java:111)

   at test.TextConvert.getEFiles(TextConvert.java:130)

   at test.TextConvert.getEFiles(TextConvert.java:130)

   at test.TextConvert.getEFiles(TextConvert.java:130)

   at test.TextConvert.getEFiles(TextConvert.java:130)

   at test.TextConvert.go(TextConvert.java:47)

   at test.TextConvert.main(TextConvert.java:42)
解决:
WordExtractor extractor = new WordExtractor(inputStream); 
bodyText = extractor.getText();

使用的jar包:

  • 大小: 12 KB
分享到:
评论

相关推荐

    计算机一级考试试题汇总.doc

    1. WORD 文档使用的默认扩展名为 DOC(C)。 2. 在 WORD 中,若要将某个段落的格式复制到另一段,可以采用格式刷(C)。 3. 在 Windows XP 中,要将目前窗口的所有内容拷入剪贴板,应当使用 Alt+Print Screen(B)。...

    初中电脑试题汇总题答案.doc

    14. Excel文档的默认文件扩展名为.xls。 15. 拖动被选中单元格的边框,当指针变为十字箭头时,可以完成单元格的复制操作。 16. Excel通过图表向导功能创建图表,方便用户以可视化的方式展示数据。 17. Excel启动后,...

    2023年电大计算机网考操作题汇总新版.doc

    - 创建的新文件夹默认名为“新建文献夹”,用户需要手动输入合适的名称,例如“图片2”、“WORD文档”、“MYFILE”等。 - 文件夹的重命名可通过右键点击已存在的文件夹,然后选择“重命名”。 2. **文件移动与...

    Office2010试题附含答案解析.doc

    - Word2010 默认保存的文档格式扩展名为 .docx。 - Excel2010 默认保存工作簿的格式扩展名为 .xlsx。 - PowerPoint2010 默认保存的文档格式扩展名为 .pptx。 2. **插入功能**: - 在 Word2010 的“插入”选项卡...

    最新山东专升本计算机基础汇总.doc

    Excel文件称为工作簿,其缺省扩展名为.xls,用于存储电子表格数据。 14. 输入’0571后,单元格中将显示“0571”(B)。在Excel中,用户可以输入’0571,以显示“0571”。 15. 在Excel2003数据清单中,先按某一字段...

    2022年计算机一级考试试题汇总珍贵资料.doc

    2. WORD文档的默认扩展名是DOC(C),是一个基于文本的文件格式。 3. Internet网络的通讯协议是TCP/IP(D),是一个网络通讯协议的集合,负责将数据从源设备传输到目标设备。 4. 在WORD 2003中,要将某个段落的...

    教师招聘考试-信息技术《计算机》试题及答案.doc

    16. 在 Windows 中,需要查找以 n 开头且扩展名为.com 的所有文件,在查找对话框内的名称框中应输入 n*.com。 17. Flash 动画的源文件扩展名是 .fla。 18. FLASH 制作中,如果把动画中的每一帧都设置为关键帧,...

    计算机全真摸拟一.doc

    - 文件类型:文件的扩展名决定其类型,例如.exe用于可执行文件,.doc用于Word文档。 3. 输入/输出设备: - 输入设备:包括键盘、鼠标、扫描仪等,用于向计算机输入信息。 - 输出设备:如显示器、打印机,用于...

    历年一级 机试 试题.doc

    - **筛选特定格式文件**:将文件夹 `T□` 中扩展名为 `.doc`, `.ppt`, `.xls` 和 `.mdb` 的文件复制到子文件夹 `TX1` 中。 #### 1.3 使用画图软件 - **绘制图形**:使用 Windows 附件中的画图软件绘制一个填充色为...

    2022年计算机等级考试一级机试培训模拟题.doc

    * 在文件夹 T□下,建立一个子文件夹 TX1(1 分),并将文件夹 T□中的扩展名为 .doc、.ppt、.xls 和.mdb 文件复制到文件夹 TX1 中(2 分)。 * 启动附件里的画图软件,画一填充色为红色的矩形(2 分),并保存该...

    PPT制作技巧汇总.doc

    7. **自动播放**:为了让幻灯片自动播放,可以右键点击PPT文件选择“显示”,或直接将文件扩展名改为“PPS”。这样,文件打开即开始播放,简化操作流程。 8. **增加撤销次数**:默认情况下,PowerPoint仅能撤销20次...

    2021年计算机应用基础专升本阶段性作业汇总.doc

    12. **PowerPoint演示文稿扩展名**:PowerPoint的演示文稿通常以.ppt或.pptx为扩展名。 13. **启动Word的方法**:无法通过单击Windows桌面上的Word快捷方式图标来启动Word,这可能是由于快捷方式失效或者Word未正确...

    计算机最新预测试题.doc

    13. Excel文件的默认扩展名为.xls,代表Excel工作簿。 14. 若要在单元格中显示“0571”,需输入'0571,前导的单引号使得Excel理解这是一个文本字符串而非数字。 15. 在Excel2003中,对数据清单进行分类汇总是在...

    计算机基础A卷.doc

    9. 工作簿扩展名:在Excel中,工作簿的默认扩展名为.xlsx,用于保存表格数据和格式。 10. 科学记数法:在Excel单元格中,输入数字前加'(单引号)可防止数字以科学计数形式显示。 11. 排序:对数据表进行分类汇总...

    四川专升本计算机试题.doc

    16. PowerPoint演示稿的扩展名是.PPT(C)。 17. 若要向演示文稿添加表格,应在插入菜单中选择表格(C)。 18. PowerPoint的三种放映方式不包括自行设计浏览(D)。 19. Excel中的排序、汇总、筛选等功能通过数据...

    业务员销售统计表 (2).doc

    【标题】:“业务员销售统计表 (2).doc”是一个用于记录公司业务员销售业绩的文档,它通常包含了业务员的姓名、所负责的销售区域、以及他们在特定时间段内的销售额等关键数据。这类表格对于企业管理者来说至关重要,...

    计算机第四章 2.doc

    - 工作簿:是Excel文件,扩展名为XLS,由多个工作表组成。新建工作簿有三种方式,包括启动时自动创建、使用“新建”命令选择模板,以及工具栏的“新建”按钮。保存工作簿使用“文件”-&gt;“保存”,可以设置自动保存...

    精品专题资料(2021-2022年收藏)国家秘书四级资格考试真题汇总办公自动化部分含答案精.doc

    6. 文件格式:为了在其他应用程序中调用Word文档,通常建议将其保存为.DOC格式,这是Word的默认文档格式,具有良好的兼容性。 7. IP地址:因特网上的每个主机都有唯一的IP地址。IP地址分为A、B、C、D四类,A、B、C...

Global site tag (gtag.js) - Google Analytics