`
阅读更多
  周六,周日闲暇无事,但又想起了在外面野营时,不能上网时的尴尬.

  我喜欢蜂鸟网的游记,但又没有网卡在野外冲浪,也是一种无奈!如果能把蜂鸟网站上的精品游记能够随时随地翻阅是一件多么牛B的事情呀.

  于是说干就干,只为了在使用掌上电脑时开合手指放大图片,或者看图片的同时了解下照片的信息.

  写了几个抽象类.

  1)craw page in *.fengniao.com

           |--->Filter is http://bbs.fengniao.com/forum/(.*).html  

          有效结果放在一个文本里比如d:\\test.txt

           why not save in db?(like mongodb).

           bacause of it is a toy.ohh[img]/images/smiles/icon_redface.gif" alt="[/img]

      2)read file from d:\\test.txt in List


   private ArrayList fengNiaoModelLists = new ArrayList();




      3)for (int i=0;i.size;i++){

                //抓取所有网页.

     crawDataAndParse(String crawURL)

     //说明,我的做法是,先读取第一页,把原作者,游记的标题,总页数 做为一个全局变量 


  private int maxPage = 0;

  private String originalAuthor = "";// 原作者

  private String travelTitle = "";// 游记标题

     //然后根据规则取得第二页,第三页.....到最后一页.

     //审查规则如下:

     //1.必须原作者

     //2,删除原作者的回复贴,专注有效页

     //3,删除原作者字数不超过20字符且没有图片的记录


    //创建PDF文件

    createPDF(List fengNiaoModelList, int partId);

            //其中partId表示分开的PDF文件,因为有些游记很大,所以呢,分开了.

    //几个设计点

    //1,做了封面,其中包括7个随机图片的组合,跟Facebook上的一样.

    //2,抓取蜂鸟网的图片,要用代理进行欺骗,否则会抓到的图片都是蜂鸟网的LOGO

    //3.PDF的制作上,很废功夫

    // 3.1 图片大小如下:

        image.scaleToFit(560, 400);

        因为是横排方式,788为总长度,559为高度,所以图片很大,所以文字说明在图片的右边.以小段(36个字符)         的方式排列.

        但是下面还有559-400的长度,所以,我又在下面放了很长的大段文字(125个字符)


         }


        使用如上方法,反复测试,终于得到了我想要的效果.


   附件当中是我抓取的结果,大家欣赏一下.呵呵.

   我以后会把文档发送到一些文档库当中去,但是每个游记part都有40多M,哪个文档库好呢?


   如下是我在豆丁网发布的PDF文档,呵呵

[游记]抚仙湖水在荡漾[part1]V1.00
[游记]川西四千里[part5]V1.00
[游记]冬季到台北去看雨[part1]V1.00
[游记]北京房山猫耳山[part1]V1.00
[游记]北京房山猫耳山[part2]V1.00
[游记]洛阳天子驾六博物馆[part1]V1.00
[游记]西藏10日游纪行[part2]V1.00
[游记]金色的喀纳斯[part3]V1.00
[游记]金色的喀纳斯[part4]V1.00
[游记]闲下来逛逛云南[part5]V1.00
[游记]宝岛台湾[part1]V1.00
[游记]西沙群岛深度行摄[part1]V1.00
[游记]美丽的香格里拉[part1]V1.00
[游记]美丽的香格里拉[part2]V1.00
[游记]在圣岛遇到一位卖Pita的老外[part1]V1.00
[游记]在圣岛遇到一位卖Pita的老外[part2]V1.00
[游记]在圣岛遇到一位卖Pita的老外[part3]V1.00
[游记]在圣岛遇到一位卖Pita的老外[part4]V1.00
[游记]在圣岛遇到一位卖Pita的老外[part5]V1.00
[游记]澳洲风光片[part1]V1.00
[游记]—暮色海滨—[part1]V1.00
[游记]—暮色海滨—[part2]V1.00
[游记]北京4日收获[part1]V1.00
[游记]北京的云[part1]V1.00
[游记]第61届世界泳装环节 [part1]V1.00
[游记]第61届世界泳装环节 [part2]V1.00
[游记]北京今天又下了一场大雨[part1]V1.00
[游记]一个人的路[part2]V1.00
[游记]近两年拍的一些照片去掉颜色露真容[part1]V1.00
[游记]近两年拍的一些照片去掉颜色露真容[part2]V1.00
[游记]水墨宏村[part1]V1.00
[游记]黄山及黄山市散拍[part1]V1.00
[游记]西藏10日游纪行[part2]V1.00
[游记]洛阳天子驾六博物馆[part1]V1.00
[游记]近两年拍的一些照片去掉颜色露真容[part2]V1.00
[游记]近两年拍的一些照片去掉颜色露真容[part1]V1.00
[游记]2012[part1]V1.00
[游记]性感尤物[part2]V1.00
[游记]轻纱薄裙[part1]V1.00
[游记]以毒攻毒[part1]V1.00
[游记]这么一起走完吧[part5]V1.00
[游记]这么一起走完吧[part4]V1.00
[游记]这么一起走完吧[part3]V1.00
[游记]这么一起走完吧[part2]V1.00
[游记]狐尘日记热浪岛物语[part3]V1.00
[游记]狐尘日记1[part2]V1.00
[游记]2012北京国际车展美女模特大扫荡[part1]V1.00
[游记]北京国际摄影器材展[part2]V1.00
[游记]中俄狂舞争霸赛[part2]V1.00
[游记]中俄狂舞争霸赛[part1]V1.00
[游记]柳莺专辑[part1]V1.00
[游记]柳莺专辑[part2]V1.00
[游记]燕子结婚啦[part1]V1.00
[游记]燕子结婚啦[part2]V1.00
[游记]新娘[part2]V1.00
[游记]新娘[part1]V1.00
[游记]麦克先生[part2]V1.00
[游记]多彩贵州[part1]V1.00
[游记]愈崎岖[part1]V1.00
[游记]愈崎岖[part2]V1.00
[游记]多彩贵州[part2]V1.00
[游记]2012深圳内衣展[part1]V1.00
[游记]2012深圳内衣展[part2]V1.00
[游记]云南束河古镇沿途风光[part1]V1.00
[游记][希威社]翡翠岛海景人像活动[part1]V1.00
[游记]洪湖公园拍美女[part1]V1.00
[游记]美女人像集锦[part2]V1.00
[游记]拍摄路边的野花[part1]V1.00
[游记]拍摄路边的野花[part2]V1.00
[游记]雨中芍药和月季[part2]V1.00
[游记]雨中芍药和月季[part1]V1.00
[游记]峡谷风云[part2]V1.00
[游记]峡谷风云[part1]V1.00
[游记]专业参观卷[part2]V1.00
[游记]专业参观卷[part1]V1.00
[游记]柬埔寨杂记[part5]V1.00
[游记]柬埔寨杂记[part2]V1.00
[游记]柬埔寨杂记[part4]V1.00
[游记]柬埔寨杂记[part3]V1.00
[游记]人间仙境[part1]V1.00
[游记]仙人球花开记录[part1]V1.00
[游记]又是一年赏荷季[part1]V1.00
[游记]芭比布朗形象艺术发布会[part1]V1.00
[游记]韩国仁川机场巧遇韩国美丽的“公主”[part1]V1.00
[游记]迷失[part1]V1.00
[游记]我家门前有条北斗河[part1]V1.00
[游记]人像人文与社会纪实[part1]V1.00
[游记]2011年张学友世纪演唱会[part1]V1.00
[游记]史家背河村的[窑洞][part1]V1.00
[游记]丰台榆树庄公园游拍[part1]V1.00
[游记]只为那飘渺的一梦[part1]V1.00
[游记]只为那飘渺的一梦[part2]V1.00
[游记]三清山旅游第一天[part1]V1.00
[游记]三清山旅游第一天[part3]V1.00
[游记]2012拍鸟[part2]V1.00
[游记]2012拍鸟[part3]V1.00
[游记]上帝打翻了调色板[part1]V1.00
[游记]上帝打翻了调色板[part2]V1.00
[游记]凤凰花开红似火[part2]V1.00
[游记]植物园里的月季花[part2]V1.00
[游记]植物园里的月季花[part1]V1.00
[游记]凤凰花开红似火[part1]V1.00
[游记]婺源赏花斿[part3]V1.00
[游记]婺源赏花斿[part2]V1.00
[游记]婺源赏花斿[part1]V1.00
[游记]铁手都是噜出来的[part3]V1.00
[游记]铁手都是噜出来的[part2]V1.00
[游记]铁手都是噜出来的[part1]V1.00
[游记]苗圃杂拍[part1]V1.00
[游记]苗圃杂拍[part3]V1.00
[游记]掠影欧洲[part1]V1.00
[游记]掠影欧洲[part2]V1.00
[游记]掠影欧洲[part3]V1.00
[游记]掠影欧洲[part4]V1.00
[游记]北京车展1[part3]V1.00
[游记]北京车展1[part2]V1.00
[游记]北京车展1[part1]V1.00
[游记]寻梦天堂自由行[part9]V1.00
[游记]寻梦天堂自由行[part8]V1.00
[游记]寻梦天堂自由行[part7]V1.00
[游记]寻梦天堂自由行[part5]V1.00
[游记]寻梦天堂自由行[part4]V1.00
[游记]寻梦天堂自由行[part1]V1.00
[游记]寻梦天堂自由行[part3]V1.00
[游记]有个女孩叫小歪[part1]V1.00
[游记]有个女孩叫小歪[part3]V1.00
[游记]有个女孩叫小歪[part2]V1.00
[游记]两个美女同事[part3]V1.00
[游记]两个美女同事[part2]V1.00
[游记]两个美女同事[part1]V1.00
[游记]睡衣MM[part1]V1.00
[游记]睡衣MM[part2]V1.00
[游记]让我们的爱在山那边绽放[part1]V1.00
[游记]让我们的爱在山那边绽放[part2]V1.00
[蜂鸟游记]行摄莫斯科金环[part5]V1.00
[蜂鸟游记]行摄莫斯科金环[part6]V1.00
[蜂鸟游记]行摄莫斯科金环[part7]V1.00
[蜂鸟游记]行摄莫斯科金环[part8]V1.00
[蜂鸟游记]行摄莫斯科金环[part4]V1.00
[蜂鸟游记]行摄莫斯科金环[part3]V1.00
[蜂鸟游记]行摄莫斯科金环[part2]V1.00
[蜂鸟游记]行摄莫斯科金环[part1]V1.00
[蜂鸟游记]丽江、泸沽湖、香格里拉14天行摄[part4]V1.00
[蜂鸟游记]金色的喀纳斯[part5]V1.00
[蜂鸟游记]金色的喀纳斯[part2]V1.00
[蜂鸟游记]金色的喀纳斯[part1]V1.00
[蜂鸟游记]富阳东吴文化公园随拍[part1]V1.00
[蜂鸟游记]三亚海滩外拍[part1]V1.00
[蜂鸟游记]云南泸沽湖,摩梭风情[part2]V1.00
[蜂鸟游记]武器的坟场[part1]V1.00
[蜂鸟游记]日系小魔女之雕刻时光外拍[part1]V1.00
[蜂鸟游记]美丽双廊(缓慢上图,持续更新)[part2]V1.00
[蜂鸟游记]王府井随拍[part1]V1.00
[蜂鸟游记]丽江、泸沽湖、香格里拉14天行摄[part5]V1.00
[蜂鸟游记]丽江、泸沽湖、香格里拉14天行摄[part3]V1.00
[蜂鸟游记]牛背山大美之景[part4]V1.00
[蜂鸟游记]牛背山大美之景[part3]V1.00
[蜂鸟游记]牛背山大美之景[part2]V1.00
[蜂鸟游记]牛背山大美之景[part1]V1.00
[蜂鸟游记]日本关西地区周游记 大阪 京都 神户[part3]V1.00
山西风景点评
[蜂鸟游记]西沙群岛深度行摄[part1]V1.00
[蜂鸟游记]最后的洞穴部落[part2]V1.00
[蜂鸟游记]【自由行】寻梦天堂---马尔代夫印象[part3]V1.00
[蜂鸟游记]【鸭绿江公园】[part2]V1.00
[蜂鸟游记]【鸭绿江公园】[part1]V1.00
秦皇岛风光录[part11]V1.00
秦皇岛风光录[part13]V1.00
秦皇岛风光录[part12]V1.00
秦皇岛风光录[part8]V1.00
秦皇岛风光录[part7]V1.00
秦皇岛风光录[part5]V1.00
秦皇岛风光录[part4]V1.00
秦皇岛风光录[part3]V1.00
秦皇岛风光录[part1]V1.00
我和新疆有个约定[part2]V1.00
我和新疆有个约定[part3]V1.00
我和新疆有个约定[part4]V1.00
我和新疆有个约定[part5]V1.00
我和新疆有个约定[part6]V1.00
我和新疆有个约定[part10]V1.00
我和新疆有个约定[part11]V1.00
我和新疆有个约定[part12]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part3]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part9]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part11]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part23]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part25]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part32]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part34]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part33]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part37]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part38]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part43]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part46]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part49]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part50]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part51]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part55]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part62]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part67]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part71]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part76]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part77]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part85]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part90]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part94]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part97]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part102]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part57]V1.00
[蜂鸟游记]2006走遍中国(完整版)陆续上片[part5]V1.00
[蜂鸟游记]览钟山,泊秦淮[part1]V1.00
[蜂鸟游记]万里行摄大美新疆[part1][2012-05-07]
分享到:
评论

相关推荐

    Python实现抓取HTML网页并以PDF文件形式保存的方法

    【Python实现抓取HTML网页并以PDF文件形式保存的方法】 在Python编程中,有时我们需要将网页内容抓取下来并保存为PDF格式,以便于离线阅读或者方便打印。本篇将详细介绍如何使用Python来实现这一功能,主要涉及的库...

    DELPHI 抓取PDF内容

    本文将深入探讨如何在DELPHI中利用fpdfsdk.dll来抓取PDF内容。 首先,我们需要了解fpdfsdk.dll。这是一个由Foxit Software公司开发的动态链接库,它提供了PDF文档的API接口,使得开发者可以在自己的应用程序中集成...

    pdf文件制作工具

    PDF24 Creator是一款简单易用,功能独特的一款pdf文件制作工具,可以将其他格式的文件转换成PDF格式,再利用虚拟打印机打印出来!甚至可以将截图下来的图片,保存成为PDF文件!  PDF24 Creator 是一个免费的pdf...

    pdf文档制作与pdf文档修改软件

    PDF文档制作与修改软件可以帮助用户方便地创建、编辑和优化PDF文件,实现高效的工作流程。 首先,我们要了解PDF的制作过程。通常,制作PDF文档有以下几种方式: 1. **直接创建**:使用专门的PDF制作软件,如Adobe ...

    抓取PDF文本(PDF阅读器)

    本文将介绍一种专门用于抓取PDF文本的PDF阅读器,并讨论其相关功能和使用方法。 PDF阅读器是用于查看、打印和交互式操作PDF文件的应用程序。对于那些需要从PDF文档中提取文本的用户来说,具备文本抓取功能的PDF阅读...

    批量PDF内容抓取工具 PDF关键字抓取 PDF文本识别

    4、demo.txt 内容格式说明:(我要查找的内容#3)如括号内的文字为格式不含括号,其中“我要查找的内容”是pdf文件中的内容,“#”为标识符,必须写,“3”为查找到内容后需要抓取的后面的内容字符个数。 5、再次...

    豆丁网免费下载工具,可把豆丁网文件下载成pdf文件

    使用该工具时,用户通常需要提供豆丁网文档的网址,然后工具会自动处理并生成PDF文件。下载的PDF质量取决于原始网页的排版和豆丁网的显示方式。有时,可能会出现图片不清晰、文字错位等问题,这主要是由于网页转PDF...

    java URL转PDF文件(完美支持中文)

    在Java编程环境中,将URL内容转换为PDF文件是一项常见的需求,尤其在数据抓取、文档保存或自动化报告生成等场景中。"java URL转PDF文件(完美支持中文)"的主题着重于如何利用Java库来实现这一功能,并且确保中文字符...

    自动抓取word或者pdf文档中的数据到excel

    ### 自动抓取Word或PDF文档中的数据到Excel 在日常工作中,经常需要从Word文档或PDF文件中提取数据,并将其整理到Excel表格中进行数据分析、处理或展示。这一过程如果手动操作会非常耗时且容易出错。本文将详细介绍...

    网页抓取:抓取html和pdf文件

    在这个场景中,我们将探讨如何抓取HTML和PDF文件,特别是利用Python中的工具,如`Fitz`和`PyMuPDF`来处理PDF文档,并将数据存储在数据框(DataFrame)中,这对于数据分析和后续处理非常有用。我们将使用Jupyter ...

    PDF文件自动处理工具Gillmeister Automatic PDF Processor.rar

    可以使用各种特定于配置文件的过滤器缩小要处理的PDF文件的范围,例如文档文本、PDF 元数据或一般文件信息以及创建或最后修改日期,并且包括过滤器设置、存储位置、打印机在内的所有设置都可以特定于配置文件,可以...

    PDF打印机(可将任何文档打印成PDF,

    用户可以将多个独立的PDF文档合并为一个文件,便于管理和阅读。这对于组织大量文档,尤其是报告、手册或论文集等项目非常有帮助,减少了翻阅不同文件的麻烦。 "取网面的内容更方便"暗示了该软件可能具有网页捕获或...

    ROS机器人的自动抓取系统的设计与实现.pdf

    本文档是一篇关于机器人自动抓取系统设计与实现的学术论文,文章主要探讨了在ROS(Robot Operating System)系统上实现机器人自动抓取功能的设计方案。ROS是一个用于机器人的开源元操作系统,它提供了包括硬件抽象...

    htmlparser实现从网页上抓取数据.pdf

    这个库特别适用于那些...通过这份PDF文档的学习,读者应该能够掌握HTMLParser的基本用法,从而实现在Java环境中高效地从网页抓取数据。如果配合实践,理解并熟练运用这些知识,将极大地提升开发者的Web数据处理能力。

    携程游记爬取+词云分析

    综上所述,本项目通过Python爬虫技术抓取携程平台上的游记数据,经过数据预处理后,利用词云生成工具进行可视化分析,最终形成具有视觉冲击力的词云图,揭示了游记中的热门话题和关键词。这种结合了数据抓取、处理和...

    java爬虫抓取网页数据教程.pdf

    本文是一份关于使用Java语言进行网页数据抓取的教程,主要介绍了使用Apache HttpClient这个库来完成网络请求和数据获取的操作。Apache HttpClient是一个支持HTTP协议的客户端工具,被广泛应用于Java爬虫开发中,帮助...

    网页打开pdf文件

    网页上打开PDF文件是互联网应用中常见的需求,尤其在学术交流、在线阅读和文档分享等领域。PDF(Portable Document Format)格式因其跨平台性和文件保真性而被广泛使用。本篇将详细介绍如何在网页上实现PDF文件的...

    Python数据抓取技术与实战.pdf

    但是,我可以根据标题“Python数据抓取技术与实战.pdf”来构建一些关于Python数据抓取的基础知识点和实战技巧。 知识点: 1. 数据抓取基础概念: 数据抓取(Web Scraping)是利用编程技术从网站上抓取所需信息的...

    PDF 文本抽取 (Kettle 插件)

    这个kettle 的插件,它可以从一个或多个 PDF 文件中抽取文本内容,抽取后的文本一页作为一行记录,便于后续处理,如写入数据库等等。 帮助手册 http://www.xgndata.com/resources/kettle/PFR_UserGuide_zh_CN.pdf ...

Global site tag (gtag.js) - Google Analytics