`
isiqi
  • 浏览: 16502155 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

[原创]自己动手写CSDN博客提取器,提取文件保存支持PDF、doc、txt三种格式

 
阅读更多

下载地址http://download.csdn.net/detail/w397090770/4438566(不需要积分)

下面有网友说爬取到的博文没有任何博主的信息,今天我更新了一下代码, 在每一篇爬取到的博文中添加了作者博客名字以及这篇博文的地址,详细见下图。

用了好久的CSDN博客,发现里面有很多的很不错的文章,但是一篇一篇的复制、粘贴总觉得很麻烦,于是,花了1天半的时间做了一个CSDN博客提取器,可以爬取CSDN博客指定用户所有的文章列表,可以选择相关的文章进行下载,下载保存支持PDF、doc、txt三种格式。保存的pdf、doc文件支持图片,txt文件是纯文本格式的文件。软件运行的时候需要jdk1.5或者以上环境。


本程序用java编写,运行的时候需要JDK1.5或以上环境,无需安装。程序通过分析CSDN博
客源码来生成一些必要的数据,可能在以后使用当中出现爬取不了的情况,可能是CSDN的源码
结构修改了。程序只是用于学习之用,严禁用于非法目的而照成CSDN服务器过载。
由于生成PDF的时候需要依赖字库,所以在打包程序的时候把一些必要的字库已经放到程序中
去了。可能在生成一些PDF文件的时候出现乱码问题,那是因为里面缺少需要的字库,如遇到这
个问题,请和本人联系:wyphao.2007@163com


fonts文件夹是生成pdf文件依赖的字体库,如果生成的pdf文件是乱码,说明缺少相关的字体。


####################################################
程序功能:
1、支持输入CSDN博客用户名针对性下载
2、支持选择保存下载的文件
保存的结构目录为:
选择的保存路径\CSDN用户名\img 该用户的头像保存路径
选择的保存路径\CSDN用户名\pdf 生成的PDF文件保存路径
选择的保存路径\CSDN用户名\doc 生成的DOC文件保存路径
选择的保存路径\CSDN用户名\txt 生成的TXT文件保存路径
3、支持获取用户博客信息
4、支持显示用户所有的帖子列表
5、可以自己选择需要下载的帖子,有全选、反选、重置按钮
6、支持下载的文件保存为 pdf、doc、txt三种格式
7、生成的pdf、doc文件支持图片
8、支持进度显示

####################################################

制作时间:2012年07月17日 - 2012年07月18日
制 作:w397090770
个人博客:http://blog.csdn.net/w397090770
Email :wyphao.2007@163.com
版权所有,翻版不究
####################################################

已经贴出了本程序的一部分源代码(其他的我会慢慢添加)

自己动手写CSDN博客提取器源码分析之一:处理网页保存为txt文件http://blog.csdn.net/w397090770/article/details/7767531

自己动手写CSDN博客提取器源码分析之二:处理网页保存为doc文件http://blog.csdn.net/w397090770/article/details/7768089

自己动手写CSDN博客提取器源码分析之三:处理网页保存为pdf文件http://blog.csdn.net/w397090770/article/details/7768129



下面是我爬取这篇文章的结果

文本的肯定没图片哇。嘿嘿

分享到:
评论

相关推荐

    CSDN博客提取器

    6、支持下载的文件保存为 pdf、doc、txt三种格式 7、生成的pdf、doc文件支持图片 8、支持进度显示 #################################################### 制作时间:2012年07月17日 - 2012年07月18日 制 ...

    CSDN博客提取器修正版

    6、支持下载的文件保存为 pdf、doc、txt三种格式 7、生成的pdf、doc文件支持图片 8、支持进度显示 #################################################### 制作时间:2012年07月17日 - 2012年07月18日 制 作:w...

    使用Lucene对doc、docx、pdf、txt文档进行全文检索功能的实现 - 干勾鱼的CSDN博客 - CSDN博客1

    在Java开发中,Lucene被广泛用于实现文件的全文检索功能,包括对doc、docx、pdf、txt等常见格式文档的文本内容检索。在本文中,我们将探讨如何使用Lucene对这些文件类型进行全文检索的实现。 首先,为了实现全文...

    博客园博文提取器

    6、支持下载的文件保存为 pdf、doc、txt三种格式 7、生成的pdf、doc文件支持图片 8、支持进度显示 #################################################### 制作时间:2012年07月21日 - 2012年07月21日 制 ...

    C#中PDF文件转WORD文件

    在.NET环境中,C#语言...通过理解这些库的工作原理和提供的API,你可以轻松地集成到自己的项目中,实现文件格式的转换。在实际操作中,需要注意保持格式一致性和处理可能出现的异常情况,确保转换的准确性和稳定性。

    pdf转换器图片转换

    PDF(Portable Document Format)是一种广泛使用的文件格式,它允许用户在不同的操作系统和硬件环境中精确地交换文档。PDF转换器是专门设计用来处理这种格式的工具,它可以将PDF文件转换为其他文档格式,如Microsoft...

    专业PDF转换器.rar

    它提供了广泛的功能,包括将PDF转换为其他格式,如Word、Excel、HTML、TXT,以及将其他文件格式转换为PDF。此外,该工具还支持PDF的合并、解密、分割和压缩,以及将电子书转换为PDF格式。下面,我们将深入探讨这些...

    pdf转换成word转换器

    PDF(Portable Document Format)是一种广泛使用的文件格式,它能够保持文档的原始布局和样式,不受操作系统或设备的影响。然而,由于其封闭性,有时编辑PDF文件可能会变得困难,此时就需要将PDF转换为可编辑的Word...

    免费PDF转换成WORD转换器

    2. **文本提取**:转换器需识别并提取PDF中的文本,确保每个单词的位置和格式正确无误。这一步骤对于保持原始文档的可读性和完整性至关重要。 3. **图像处理**:PDF中可能包含图像,转换器需要将这些图像复制到Word...

    pdf转word 软件

    PDF转Word软件是一种工具,主要用于将Portable Document Format(PDF)文件转换为Microsoft Word文档格式,以便用户可以在Word环境中编辑、修改或重新格式化内容。在众多的PDF转Word软件中,“迅捷PDF转换器”是一个...

    PDF转换WORD 转换器

    PDF转换成Word转换器是一种工具软件,专门设计用于将PDF(Portable Document Format)格式的文件转换为Word(DOC或DOCX)格式。这种转换过程在日常工作中极为常见,因为尽管PDF格式具有良好的阅读和打印体验,但编辑...

    福昕高级pdf编辑器下载

    这款编辑器不仅允许用户查看PDF文件,还支持编辑文本、图像、页面,甚至可以添加链接、注释和表单字段,极大地提高了工作效率。 在"福昕高级PDF编辑器企业版使用教程.doc"中,用户可以学习到如何充分利用该软件的...

    C++QT实现对pdf、word文档预览以及文本内容的读取

    最近在做一个简历管理工具时遇到了一些需求,在网上找了大量资源信息,发现Qt对pdf、word进行数据读取的信息少之又少,于是根据我自己的摸索,实现了这些需求功能。 功能主要实现了1、对pdf、word文件进行预览显示2...

    C#中PDF文件转WORD文件.rar.rar

    在IT领域,转换文件格式是一项常见的任务,尤其是在文档处理中。本话题主要关注如何使用C#编程语言将PDF文件转换为Microsoft Word(.doc或.docx)文件。C#提供了丰富的库和API,使得这样的转换变得相对简单。下面将...

    pdf转换word小软件

    - PDF是一种静态的文档格式,旨在保持文档的原始布局和设计,不论在何种设备上查看。它不支持直接编辑,但适合阅读和打印。 - Word文档则更侧重于文字处理和编辑,用户可以轻松添加、删除或修改文本和格式。 2. *...

    Polaris Office v5.1.7

    - 各种文件格式支持:DOC / DOCX,XLS / XLSX,PPT / PPTX,PDF,TXT,HWP - 多种云存储服务(谷歌驱动器,OneDrive,Dropbox的,WebDAV的,等等) - 从桌面上传快速,便捷的文件/下载 - 添加和编辑页眉,页脚,尾注...

    文库下载器

    2. **多种格式支持**:下载的文档可以转换成常见的文件格式,如PDF、DOC、TXT等,便于用户在不同设备上阅读和编辑。 3. **高速下载**:相比于在线浏览,使用下载器通常可以实现更高的下载速度,节省时间和网络资源...

    文库下载器.rar

    市面上有很多免费和付费的PDF转换工具,如Adobe Acrobat、在线转换网站等,它们能够将PDF文件转换为DOC、DOCX、XLS、PPT等格式,满足用户的各种需求。 在进行格式转换时,要注意保持原文档的样式和排版尽可能不变,...

    MultiExtractor

     提取存储在Microsoft Office,便携文档格式, 数据库, raw 或二进制文件中的文件, (像 *.doc, *.docx, *.ppt, pptx, *.xls, *.xlsx, *.pdf, *.db, *.raw, *.bin, *.hex…)  从PE文件(*.exe, *.scr, *.dll, *....

    DWARF格式资料(超详细)

    DWARF格式是一种广泛用于编译器和调试工具的标准,它提供了一种高效且结构化的元数据表示,以便于在程序中定位和理解变量、函数、类型和其他编程元素。DWARF格式通常与ELF(Executable and Linkable Format)文件...

Global site tag (gtag.js) - Google Analytics