`
ld_hust
  • 浏览: 171611 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

.net读取pdf文本(一)

    博客分类:
  • .Net
阅读更多

最难的是转PDF啦!最开始是使用XPDF来做,但是语言那么多,编码那么杂,上哪里去找合适的办法啊,而且要求在运行时调用.EXE文件,估计异常一大堆。

索性去找PDFBox,而且要命的是传说这个不支持中文!这个是一个开源的java项目,编码出来当然是java的啦,怎么用.NET调用呢?

正在郁闷毛躁的时候,我看到了一个外国博客上的文章studentclub.ro/lucians_weblog/archive/2007/03/22/read-from-a-pdf-file-using-c.aspx

文章如下:

know, this may seem like a simple task, and you will probably find references on the web about how to do this. But I’ll also write a blog post on this topic, as I came across this problem today.

So, if you have a PDF file and don’t know how to read data from it, here it is what you could do.

 

First of all, you’ll need some DLLs that will help you manipulate the PDF files. I came across the PDFBox. What is PDFBox? I’ll cite from their website: PDFBox is an open source Java PDF library for working with PDF documents. This project allows creation of new PDF documents, manipulation of existing documents and the ability to extract content from documents. PDFBox also includes several command line utilities.

 

Oh, nice, you’ll say, but I need a .NET solution. Don’t worry. Even though PDFBox is written in Java, there is also a .NET version that is available. It utilizes IKVM (also, a very interesting project: an implementation of the Java language for .NET Framework and Mono) to create a fully functioning PDF library for the .NET framework. The released version contains a bin directory with all of the required DLL files.

 

So you’ll have to download the PDFBox package. In this package you’ll find a bin directory. To read your PDF file, you’ll need the following files:

  • IKVM.GNU.Classpath.dll
  • PDFBox-0.7.3.dll
  • FontBox-0.1.0-dev.dll
  • IKVM.Runtime.dll

 

You’ll have to add a reference to the first two in your project. You’ll also have to copy the last two on your project’s bin directory.

The program will look something like this (if you’re working with a Console application):

 

using System;

using org.pdfbox.pdmodel;

using org.pdfbox.util;

 

namespace PDFReader

{

    class Program

    {

        static void Main(string[] args)

        {

            PDDocument doc = PDDocument.load("lopreacamasa.pdf");

            PDFTextStripper pdfStripper = new PDFTextStripper();

            Console.Write(pdfStripper.getText(doc));

        }

    }

}

哈哈,希望来了!

原来可以通过一个叫IKVM 的开源工具可以将java的库镜像到.net的版本下

而且,更好的是PDFBox 0.7.3可以支持中文了!而且是很好的支持!

所以开发起来相当容易了 。

PS:在此纠正一下外国那小子的一个错误

在bin文件下面同样需要加载bcprov-jdk14-132.dll. 否则会报错,而且我找了半天才发现是少了这个引用库。

也就是说,转PDF的方法步骤如下:

1.下载PDFBox 0.7.3   sourceforge.net/project/showfiles.php

2.复制并加载如下5个DLL文件到bin目录下面

  • IKVM.GNU.Classpath.dll
  • PDFBox-0.7.3.dll
  • FontBox-0.1.0-dev.dll
  • IKVM.Runtime.dll
  • bcprov-jdk14-132.dll
  • 之后示例代码如下:

    using org.pdfbox.pdmodel;
    using org.pdfbox.util;
    using org.pdfbox;

        public string PdfReader(string filename)
        {
            string fullname = DocPath + filename;
            PDDocument doc = PDDocument.load(fullname);
            PDFTextStripper stripper = new PDFTextStripper();
            string pdoc = stripper.getText(doc);
            return pdoc;
        }

     

    太简单了!但是找到这个方法可是太辛苦了!

    分享到:
    评论

    相关推荐

      .NET生成PDF 读取PDF文本内容 获取PDF内图片

      在.NET开发环境中,生成PDF、读取PDF文本内容以及获取PDF内的图片是常见的需求,尤其在文档处理和报告生成的应用中。本文将详细介绍如何利用C#进行这些操作,并提供相关库和技术的概述。 首先,生成PDF文件在.NET中...

      vb.net 读取pdf 并写入网页

      以上就是用VB.NET读取PDF并将其内容写入网页的主要知识点。实际开发中,还需要根据具体需求调整和优化,如处理PDF元数据、支持交互功能等。同时,保持对PDF处理库的更新和维护,确保兼容性和安全性。

      ASP.NET读取pdf文件引用包

      在这个“ASP.NET读取pdf文件引用包”中,包含了两个关键的组件:PDFBox和KVM。接下来,我们将深入探讨这两个组件以及如何在ASP.NET环境中使用它们。 PDFBox是一个开源的Java库,用于处理PDF文档。尽管它是用Java...

      C#生成PDF 读取PDF文本内容 获取PDF内图片(亲测可用)

      本主题聚焦于利用C#处理PDF文档,包括生成PDF、读取PDF文本内容以及提取PDF内的图片。以下是对这些知识点的详细阐述: 1. **C# 生成PDF**: 在C#中生成PDF文档,可以借助多种第三方库,如iTextSharp、PDFsharp、...

      C#生成PDF 读取PDF文本内容 获取PDF内图片--完整版)

      本主题聚焦于利用C#处理PDF文档,包括生成PDF文档、读取PDF文本内容以及提取PDF内的图片。以下将详细介绍这些知识点。 1. **生成PDF**: 在C#中生成PDF文档,我们可以使用开源库如iTextSharp或PDFsharp。...

      asp.net 导出 pdf 文件

      1. **iTextSharp**:这是一个流行的开源库,可以用于创建、编辑和读取 PDF 文件。使用 iTextSharp,我们可以创建一个新的 PDF 文档,添加文本、图像、表格等元素,然后将其保存到服务器或直接响应给客户端。 ```...

      C#生成PDF 读取PDF文本内容 获取PDF内图片

      本主题聚焦于利用C#处理PDF文档,包括生成PDF、读取PDF文本内容以及获取PDF内的图片。以下是对这些知识点的详细阐述: ### 1. C#生成PDF 生成PDF文件通常需要借助第三方库,因为.NET Framework的标准库并不直接...

      .net读取文本文件内容dll,Apose.dll

      在本案例中,我们关注的是一个名为"Apose.dll"的第三方库,它扩展了.NET的功能,允许开发者方便地读取这些文件的内容。Apose是一个全面的文件格式操作库,支持多种微软Office文档格式以及其他常见的数据格式。 首先...

      C#生成PDF 读取PDF文本内容 获取PDF内图片完整源码(调用第三方DLL)

      在.NET环境中,C#开发人员经常需要处理PDF文档,包括生成PDF、读取PDF文本以及提取PDF中的图像。为了实现这些功能,通常会借助于第三方库或DLL,因为.NET框架本身并不内置完整的PDF处理能力。本教程将详细介绍如何...

      C#生成PDF 读取PDF文本内容 获取PDF内图片.rar_.net_C# pdf_C#PDF_pdf_winform

      接着,我们讨论如何读取PDF文本内容。这通常涉及到解析PDF的内部结构,提取出文本。iTextSharp也提供了相应的API来完成这个任务。你可以使用PdfReader类打开PDF文档,然后通过PdfStamper或PdfCopy等工具获取PdfPage...

      ASP.Net PDF 查看控件,完整asp.net例子

      PDF是一种跨平台的文件格式,用于存储文档,包括文本、图像、图形和其他内容,以确保文件在不同设备和操作系统之间的一致显示。在ASP.NET中,我们通常需要一个PDF查看控件来处理PDF文件的在线显示。 ASP.NET PDF...

      Asp.net生成PDF全攻略

      1. iTextSharp:一个流行的开源库,支持创建、编辑和读取PDF文档。它提供了丰富的API,可以方便地在Asp.net中生成PDF。 2. PDFsharp:另一个强大的PDF处理库,功能丰富,包括文本、图像、图形的插入和布局。 3. ...

      PDFView PDF阅读器(VB.net)源代码

      可能包括读取PDF文件、渲染页面、滚动和缩放等操作的类和方法。 通过研究PDFView的源代码,开发者可以学习到如何在VB.NET环境下构建一个基本的PDF阅读器,包括文件I/O操作、图形渲染、用户交互以及与PDF处理库的...

      c#读取pdf中文本内容

      首先,Spire.Pdf是一款强大的.NET PDF组件,它提供了全面的PDF创建、编辑和阅读功能,包括读取PDF中的文本内容。在C#环境下,我们可以很方便地集成这个插件到我们的项目中,通过其API来操作PDF文件。 1. **安装...

      asp.net生成PDF详解

      1. **iTextSharp**:这是一个流行的开源库,支持.NET Framework,用于读取、创建和修改PDF文档。使用iTextSharp,你可以创建新的PDF文件,添加文本、图像、表格和自定义图形。例如: ```csharp using iTextSharp....

      C#读取PDF文件内容 按每页生成文本对象(只读取文字版PDF)

      本篇文章将详细探讨如何使用C#编程语言结合Spire.Pdf库来读取PDF文件的内容,并将其转换为JSON文本对象,特别针对那些仅包含可编辑文字的PDF文件。 首先,Spire.Pdf是一款强大的.NET PDF组件,它提供了丰富的API,...

      .NET 免费PDF类库-Free Spire.PDF for .NET_6.2.zip

      Free Spire.PDF for .NET 允许开发人员在 .NET( C#, VB.NET, ASP.NET, .NET Core) 程序中创建、读取、写入、编辑和操作 PDF 文档。 Free Spire.PDF for .NET 支持的功能十分全面,例如文档安全性设置(电子签名),...

    Global site tag (gtag.js) - Google Analytics