`
ZOODragon
  • 浏览: 68837 次
  • 性别: Icon_minigender_1
  • 来自: 大连
文章分类
社区版块
存档分类
最新评论

<转>C#读取doc,pdf,ppt文件

阅读更多

doc  pdf ppt与 txt之间的转换 :

组件的作用一般是将文件读出成字符格式,并不是单纯的转换文件名后缀,所以需要将读出的东西写入txt文件 。

 

添加office引用

.net中对office中的word及ppt进行编程时,确保安装office时已经安装了word,ppt可编程组件(自定义安装时可查看)或者安装“Microsoft Office 2003 Primary Interop Assemblies”

安装后,在编程页面添加引用:

添加引用-com—microsoft powerpoint object 11.0 libaray/word 11.0 object library;

还得添加office组件

using Microsoft.Office.Interop.Word;

using Microsoft.Office.Interop.PowerPoint;

 

using org.pdfbox.pdmodel;                     

using org.pdfbox.util;

 

using Microsoft.Office.Interop.Word;

using Microsoft.Office.Interop.PowerPoint;

public void pdf2txt(FileInfo file,FileInfo txtfile)

    {

        PDDocument doc = PDDocument.load(file.FullName);

        PDFTextStripper pdfStripper = new PDFTextStripper();

        string text = pdfStripper.getText(doc);

            StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));

        swPdfChange.Write(text);

        swPdfChange.Close();

    }

 

对于doc文件中的表格,读出的结果是去除掉了网格线,内容按行读取。

    public void word2text(FileInfo file,FileInfo txtfile)

    {

 

        object readOnly = true;

        object missing = System.Reflection.Missing.Value;

        object fileName = file.FullName;

        Microsoft.Office.Interop.Word.ApplicationClass wordapp = new Microsoft.Office.Interop.Word.ApplicationClass();

        Document doc = wordapp.Documents.Open(ref fileName,

    ref missing, ref readOnly, ref missing, ref missing, ref missing,

    ref missing, ref missing, ref missing, ref missing, ref missing,

    ref missing, ref missing, ref missing, ref missing, ref missing);

        string text = doc.Content.Text;

        doc.Close(ref missing, ref missing, ref missing);

        wordapp.Quit(ref missing, ref missing, ref missing);

        StreamWriter swWordChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));

        swWordChange.Write(text);

        swWordChange.Close();

 

    }

 

    public void ppt2txt(FileInfo file, FileInfo txtfile)

    {

         Microsoft.Office.Interop.PowerPoint.Application pa = new Microsoft.Office.Interop.PowerPoint.ApplicationClass();

        Microsoft.Office.Interop.PowerPoint.Presentation pp = pa.Presentations.Open(file.FullName,

                        Microsoft.Office.Core.MsoTriState.msoTrue,

                        Microsoft.Office.Core.MsoTriState.msoFalse,

                        Microsoft.Office.Core.MsoTriState.msoFalse);

        string pps = "";

        StreamWriter swPPtChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));

       

        foreach (Microsoft.Office.Interop.PowerPoint.Slide slide in pp.Slides)

        {

            foreach (Microsoft.Office.Interop.PowerPoint.Shape shape in slide.Shapes)

           

                pps += shape.TextFrame.TextRange.Text.ToString();

   

        }

        swPPtChange.Write(pps);

        swPPtChange.Close();

 

   

    }

 

读取不同类型的文件

    public StreamReader text2reader(FileInfo file)

    {

        StreamReader st = null;

        switch (file.Extension.ToLower())

        {

            case ".txt":

                st = new StreamReader(file.FullName, Encoding.GetEncoding("gb2312"));

                break;

            case ".doc":

                FileInfo wordfile = new FileInfo(@"E:\my programs\200807program\FileSearch\App_Data\word2txt.txt");//不能使用相对路径,想办法改进

                word2text(file, wordfile);

                st = new StreamReader(wordfile.FullName, Encoding.GetEncoding("gb2312"));

                break;

            case ".pdf":

                FileInfo pdffile = new FileInfo(@"E:\my programs\200807program\FileSearch\App_Data\pdf2txt.txt");

                pdf2txt(file, pdffile);

                st = new StreamReader(pdffile.FullName, Encoding.GetEncoding("gb2312"));

                break;

            case".ppt":

                FileInfo pptfile = new FileInfo(@"E:\my programs\200807program\FileSearch\App_Data\ppt2txt.txt");

                ppt2txt(file,pptfile);

                st = new StreamReader(pptfile.FullName,Encoding.GetEncoding("gb2312"));

                break;

        }

        return st;

    }

 

分享到:
评论

相关推荐

    C#读取DOC PPT EXCEL转换为文本TXT

    同样,Open XML SDK也支持处理PPT文件。你需要解析幻灯片中的文本框,提取其内容。此外,PPTX文件实际上是一个压缩的ZIP文件,可以直接解压,然后访问内部的XML文件来提取文本。对于每张幻灯片,你需要查找包含文本...

    Xml转换为集合list实例代码.rar

    在C#编程中,XML(eXtensible Markup Language)是一种用于存储和传输数据的标记语言,而集合List&lt;T&gt;是.NET Framework中的一个常用数据结构,用于存储同一类型的对象数组。将XML转换为List&lt;T&gt;可以帮助开发者更方便地...

    C# 不依赖Office读取Word、PPT

    下面是一个简单的示例,展示了如何使用C#读取.docx文件中的文本: ```csharp using System.IO; using System.IO.Compression; public string ExtractTextFromDocx(string filePath) { using (var archive = ...

    C# 不依赖Office读取Word、PPT(doc,docx,ppt,pptx)

    总的来说,使用C#不依赖Office读取Word和PPT文件,可以通过理解文件格式、利用Open XML SDK、构建自定义解析器或借助第三方库来实现。这不仅提高了应用程序的兼容性和独立性,还为开发者提供了更多的灵活性和控制权...

    C# 文件信息读取 txt word execl ppt

    在C#编程环境中,处理各种类型的文件,如txt、Word(doc或docx)、Excel(xls或xlsx)和PowerPoint(ppt或pptx)文件,是常见的任务。这些文件格式通常用于存储文本、表格和演示文稿数据。下面将详细阐述如何在C#中...

    在线或本地读取word、ppt、pdf、excel、doc等文件

    在IT领域,尤其是在文档处理和数据管理中,能够在线或本地读取各种文件格式,如Word、PPT、PDF、Excel以及Doc等,是至关重要的技能。这些文件格式广泛应用于日常工作、学术研究和项目协作中,因此理解如何有效读取和...

    asp.net doc ppt xls jpg pdf等转swf

    - **DOC、PPT转SWF**:可以借助Microsoft Office的COM接口,结合自动化技术,先将DOC或PPT文件导出为图片序列,再利用Flash软件或其他工具将图片序列转化为SWF。 - **JPG转SWF**:由于JPG本身就是图像格式,转换...

    C#的搜索doc\xls\ppt文件中关键字的程序

    在这个程序中,我们需要遍历指定目录下的所有doc、xls和ppt文件,这可以通过`Directory.GetFiles()`方法实现。 2. **Office文档格式**: - **doc**:Microsoft Word的文档格式,可以使用`Microsoft.Office.Interop...

    office文件(含doc,docx,xls,xlsx,ppt,pptx等)转PDF生成(C#程序)

    2. **读取Office文件**:使用NPOI,你可以逐个读取doc、docx、xls、xlsx、ppt和pptx文件。例如,对于Word文档,可以使用`HSSFWorkbook`(针对旧版的doc)或`XSSFWorkbook`(针对docx)来读取内容。 3. **解析内容**...

    unity 显示word excel pdf ppt 等文件

    综上所述,虽然Unity在Android平台上不直接支持Word、Excel、PDF和PPT文件的显示,但通过合理利用第三方库和Android的WebView组件,结合Unity的C#脚本,我们可以构建出功能完善的文档查看应用。在实现过程中,要注意...

    pdf,doc,xls,ppt文档转换文档和源码(c#)

    然而,如果仅需转换而无需编辑,可以考虑使用Aspose.Slides或NPOI这样的库,它们提供API来读取、写入和转换PPT文件。 源码的提供意味着这个资源包可能包含了实际的转换示例,这些代码可以作为起点,帮助开发者理解...

    java实现poi模板生成PPT文件代码 开发技术.zip

    这通常涉及读取PPT文件,查找特定的文本或形状,然后用新的内容替换它们。例如: ```java // 从模板加载PPT XMLSlideShow ppt = new XMLSlideShow(new FileInputStream("template.pptx")); // 遍历所有幻灯片 for ...

    C# 仿百度文库实现方法(已测试可行).pdf

    在本文中,我们将探讨如何使用C#语言仿照百度文库实现在线查看功能,主要关注文件的转换过程,包括从doc、xls、ppt文件转换为Pdf,然后再将Pdf转换为swf文件,以便在网页上展示。首先,我们需要了解C#中的Office ...

    .pdf/.doc/.docx/.xls/.xlsx/.ppt/.pptx 文件网页预览 ASP.NET MVC 项目

    在IT行业中,尤其是在Web开发领域,常常需要处理各种类型的文件,如PDF、Word文档(.doc/.docx)、Excel表格(.xls/.xlsx)以及PowerPoint演示文稿(.ppt/.pptx)。这些文件格式广泛应用于日常工作和学习,因此提供...

    C#编程PDF转换+Word+Execl+PNG+Spire.Pdf+iTextSharp

    首先,Spire.Pdf是一款强大的.NET PDF组件,它允许开发者在C#环境中创建、编辑、阅读和转换PDF文件。`Spire.Pdf.dll`是这个库的主要动态链接库文件,而`Spire.License.dll`则用于管理软件的授权。使用Spire.Pdf,你...

    Aspose的Word、Excel、PPT、PDF的DLL文件(亲测可用).rar

    通过Aspose.PPT,开发者可以创建、编辑、显示和转换PPT文件,包括添加幻灯片、应用模板、插入图片、动画和过渡效果。这对于自动化生成报告、产品演示或培训材料非常有用。 4. Aspose.PDF: Aspose.PDF专注于处理PDF...

    C#数据库操作PPT

    **代码文件.doc** 和 **代码档案.doc** 很可能包含了C#代码示例,展示了如何连接数据库、执行SQL语句、填充数据集以及使用DataAdapter进行数据更新。这些代码示例是学习和实践数据库操作的关键部分,它们可以帮助...

    Asp.net MVC 利用(aspose+pdfobject.js) 实现在线预览word、excel、ppt、pdf文件

    本教程将探讨如何利用Asp.NET MVC框架,结合aspose库和pdfobject.js JavaScript库,实现在线预览Word、Excel、PowerPoint(PPT)以及PDF文件。这个功能允许用户无需下载文件,直接在浏览器中查看文档内容,极大地...

    C#使用webuploader分片上传大文件

    extensions: 'zip,rar,doc,xls,ppt,jpg,png,gif' } }); &lt;/script&gt; ``` **二、后端C#处理** 2. 接收分片:C#端需要处理来自前端的HTTP请求,接收每个分片文件。每个分片会携带一个唯一的标识(如文件名和分片...

Global site tag (gtag.js) - Google Analytics