`
shewolfep
  • 浏览: 67078 次
  • 性别: Icon_minigender_1
  • 来自: 重庆
社区版块
存档分类
最新评论

PDF格式详解

阅读更多
转自http://blog.csdn.net/bobob/archive/2006/05/23/751381.aspx

pdf(Portable   Document   Format,便携式文档结构)是一种很有用的文件格式,其最大的特点是 
  平台无关而且功能强大(支持文字\图象\音乐\视频).今天先讲一下pdf的文件(物理)结构 
  PDF文件结构可分为以下几块: 
  1.header: 
  pdf文件的第一行,格式如下: 
  
  %PDF-1.3 
  
  表示当前文件的版本是1.3(目前最高版本为1.5) 
  
  2.body: 
  pdf文件中用到的所有对象,包括文本\图象\音乐\视频\字体\超连接\加密信息等等,格式如下: 
  
  2   0   obj 
  ... 
  end   obj 
  
  其中省略号部分是pdf规定的任意合法对象(一共8种) 
  
  3.cross   reference   table: 
  所有pdf对象的引用表,其格式如下: 
  
  xref 
  0   5 
  0000000000   65535   f 
  0000000009   00000   n 
  0000000074   00000   n 
  0000000120   00000   n 
  0000000179   00000   n 
  
  其中,xref是开始标志,表示以下为引用表内容;0   5表示从对象号为0的开始, 
  连续有5个对象(0,1,2,3,4),分别用5行来表示.每行的前10个数字代表这个 
  这个对象相对文件头的偏移地址,后面5个数字只有当这个对象被删除的时 
  候才有用,表示这个对象被删除后又被重新生成后的对象号最后一位f或n表 
  示对象是否被使用(n表示使用,f表示被删除或没有用) 
  
  4.trailer: 
  整个pdf文件的入口点,形式如下: 
  trailer 
  << 
  /Size   8 
  /Root   1   0   R 
  >> 
  startxref 
  553 
  %%EOF 
  
  /size   :这个pdf中总共使用了多少个对象 
  /root   :这个pdf文件的catalog对象的对象号,这是pdf中最顶层的对象 
  /startxref:   后面的数字表示cross   reference   table的开始位置 
  /%%EOF   :文件结束符. 
  
  实际一个pdf文件是很复杂的,但是上面几个部分是确定的,只能多不能少.下一讲我说一下pdf里面8种类型.

1.booleam
用关键字true或false表示,可以是array对象的一个元素,或dictionary对象的一个条目.

2.numeric
包括整形和实型,不支持非十进制数字,不支持指数形式的数字.

例:
        1)整数 123 4567 +111 -2    
范围:正2的31次方-1到负的2的31次方
2)实数 12.3 0.8 +6.3 -4.01 -3. +.03
范围:±3.403 × 10的38次方     ±1.175 × 10的-38次方
注意:如果整数超过表示范围将转化成实数,如果实数超过范围就出错了
3.string
由一系列0-255之间的字节组成,一个string总长度不能超过65535.string有以下两种方式:
1)由()包含起来的一个字串,中间可以使用转义符"\".
例:
(abc)  表示abc
(a\\)  表示a\
2)由<>包含起来的一个16进制串,两位表示一个字符,不足两位用0补齐
例:
<Aabb>  表示AA和BB两个字符
<AAB>  表示AA和B0两个字符
4.name
由一个前导/和后面一系列字符组成,最大长度为127.和string不同的是,name是不可分割的
和唯一的,不可分割就是说一个name对象就是一个原子,比如/name,不能说n就是这个name的
一个元素;唯一就是指两个相同的name一定代表同一个对象.从pdf1.2开始,除了ascii的0,别
的都可以用一个#加两个十六进制的数字表示.
例:
/name  表示name
/name#20is 表示name is
/name#200 表示name 0
5.array
用[]包含的一组对象,可以是任何pdf对象(包括array).虽然pdf只支持一维array,但可以通过
array的嵌套实现任意维数的array(但是一个array的元素不能超过8191)
例:
[549 3.14 false (Ralph) /SomeName]
6.Dictionary
用"<<"和">>"包含的若干组条目,每组条目都由key和value组成,其中key必须是name对象,并且
一个dictionary内的key是唯一的;value可以是任何pdf的合法对象(包括dictionary对象).
例:
<< /IntegerItem 12
/StringItem (a string)
/Subdictionary << /Item1 0.4
/Item2 true
/LastItem (not!)
/VeryLastItem (OK)
>>
>>
7.stream
由关键字stream和endstream包含一系列字节.内容和string很相似,但有区别:stream可以分几次
读取,分开使用不同的部分,string必须作为一个整体一次全部读取使用;string有长度限制,但
stream却没有这个限制.一般较大的数据都用stream表示.
例:(略)
8.NULL
用null表示,代表空.如果一个key的值为null,则这个key可以被忽略;如果引用一个不存在的
object则等价于引用一个空对象.
例:(略)

给大家说点有用的东西:为什么有的pdf不允许打印?
pdf有自己的加密措施,其中就有限制打印.
找到trailer,如果这个pdf是加密的话会有一个/Encrypt的name,他的值一般形式是n 0 R,表示这个pdf
文件的加密信息在n 0这个obj里面记录.找到这个obj,其下有一个/P的name,他的值是一个数字(32位)
其中第三位代表是否有打印权限:)

由于pdf的特殊文件结构,注定pdf的生成是一件很麻烦的事情。目前最常用的就是adobe公司提供的sdk了,但是由于其依赖与adobe的环境,所以使用起来不是很方便。在这里我给大家介绍另外一种方法——使用pdflib生成pdf。 
  
  pdflib也提供了一组sdk,但和adobe的sdk相比,pdflib很小,但功能却一点也不弱。所以对于开发者来说,pdflib是一个明智的选择。你可以从下面的网址得到到它: 
  http://www.pdflib.com/products/pdflib/download/index.html。如果你没有得到序列号,那么生成的pdf将会加上水印,其他功能和商业版一样。 
  另外你还可以从下面网址得到pdflib-lite版: 
  http://www.pdflib.com/products/pdflib/download-source.html 
  pdflib-lite使用协议: 
  http://www.pdflib.com/purchase/license-lite.html 
  和pdflib相比,pdflib-lite最大的特点就是你可以拥有完全的源代码,但功能不如pdflib全面,比如支持的字体要比pdflib少很多。但是,如果你对pdf文件本身很了解的话,你完全可以在pdflib-lite的基础上再做发挥,这就要看你的c语言功底如何了。如果要用做商业产品,请仔细阅读授权协议! 
  
  下载pdflib压缩包(大约6m)后,在pdflib文件夹下有pdflib.dll,pdflib.lib,pdflib.h,pdflib.reg。对于我们来说,只要有前3个文件就可以了。 
  下面是一个生成pdf的完整代码: 
  
  #include   <stdio.h> 
  #include   <stdlib.h> 
  
  #include   "pdflib.h" 
  
  int 
  main(void) 
  { 
          PDF   *p; 
          int   font; 
  
          /*   create   a   new   PDFlib   object   */ 
          if   ((p   =   PDF_new())   ==   (PDF   *)   0) 
          { 
                  printf("Couldn't   create   PDFlib   object   (out   of   memory)!\n"); 
                  return(2); 
          } 
  
          PDF_TRY(p)   { 
  if   (PDF_begin_document(p,   "hello.pdf",   0,   "")   ==   -1)   { 
          printf("Error:   %s\n",   PDF_get_errmsg(p)); 
          return(2); 
  } 
  
  /*   This   line   is   required   to   avoid   problems   on   Japanese   systems   */ 
  PDF_set_parameter(p,   "hypertextencoding",   "host"); 
  
  PDF_set_info(p,   "Creator",   "hello.c"); 
  PDF_set_info(p,   "Author",   "Thomas   Merz"); 
  PDF_set_info(p,   "Title",   "Hello,   world   (C)!"); 
  
  PDF_begin_page_ext(p,   a4_width,   a4_height,   ""); 
  
  /*   Change   "host"   encoding   to   "winansi"   or   whatever   you   need!   */ 
  font   =   PDF_load_font(p,   "Helvetica-Bold",   0,   "host",   ""); 
  
  PDF_setfont(p,   font,   24); 
  PDF_set_text_pos(p,   50,   700); 
  PDF_show(p,   "Hello,   world!"); 
  PDF_continue_text(p,   "(says   C)"); 
  PDF_end_page_ext(p,   ""); 
  
  PDF_end_document(p,   ""); 
          } 
  
          PDF_CATCH(p)   { 
                  printf("PDFlib   exception   occurred   in   hello   sample:\n"); 
                  printf("[%d]   %s:   %s\n", 
          PDF_get_errnum(p),   PDF_get_apiname(p),   PDF_get_errmsg(p)); 
                  PDF_delete(p); 
                  return(2); 
          } 
  
          PDF_delete(p); 
  
          return   0; 
  } 
  到现在,一个hello.pdf的pdf文件就生成了,你完全可以自己发挥,做出很复杂的pdf文件,这就看你的想象力了:)不过在发挥的时候要注意,pdf的坐标和我们通常理解的坐标是不一样的,屏幕坐标的原点在左上角,pdf文件的原点在左下脚。
分享到:
评论

相关推荐

    pdf格式分析

    ### PDF格式分析:深入探索与理解 #### 一、PDF文档结构概览 PDF(Portable Document Format)是一种用于表示...PDF格式的这种深度和灵活性使其成为跨平台文档交换的理想选择,同时也对解析工具提出了更高的要求。

    PDF格式标准1.3~1.7完整

    通过阅读这些PDF参考文档,你可以深入理解每一代PDF标准的详细规格,了解如何创建、编辑和解析PDF文件,以及如何利用其丰富的特性来满足各种业务需求。无论是开发者、设计师还是文档管理者,掌握PDF格式标准都是极其...

    PDF结构解析

    PDF(Portable Document Format)是一种广泛使用的文件格式,用于呈现文档,包括文本格式和图像,保持原始格式和布局的不变性。在C++中解析PDF文件结构涉及到深入理解PDF规范和利用编程技巧来处理其复杂的编码方式。...

    用C#来解析PDF文件

    这个项目让你可以去读取并解析一个PDF文件,并将其内部结构展示出来. PDF文件的格式标准文档可以从Adobe那儿获取到. 这个项目基于“PDF指南,第六版,Adobe便携文档格式1.7 2006年11月”. 它是一个恐怕有1310页的...

    PDF格式说明1.7 英文原版

    我是不想要分数并且免费的,毕竟是英文原版的,是从官网上下载的。 但是这破地方一定要分数,俺也没得办法。 可以去adobe官网,搜索 PDF 1.7 就能搜到了

    PDF.js 解析PDF文件demo

    pdf.js 解析PDF文件DEMO 下载这个DEMO 轻松搞定在线解析PDF文件 支持翻页浏览 pdf.js 是一个技术原型主要用于在 HTML5 平台上展示 PDF 文档,无需任何本地技术支持 注意:只兼容支持HTML5的浏览器

    java解析PDF文件

    java解析PDF格式的文件demo。JAVA实现PDF解析,对PDF文件中的文本内容可输出仅供参考学习,不喜勿喷。

    PDF本地解析Demo

    PDF(Portable Document Format)是一种通用的文件格式,由Adobe公司开发,用于呈现文档,包括文本格式和图像,无论在什么操作系统或硬件环境下都能保持一致的显示效果。它不仅包含文字和图片,还可以包含超链接、...

    Android TIF格式转为PDF

    2. **PDF格式详解**: - PDF是由Adobe Systems开发的,用于呈现文档的标准格式,包括文本格式和图像。 - PDF文件能够精确地保留原始文档的字体、图像和布局,无论在任何设备上查看都能保持一致。 - PDF支持加密、...

    PDF结构解析(c++源代码)

    PDF(Portable Document Format)是一种广泛使用的文件格式,用于在各种操作系统和硬件平台之间交换文档。它的结构复杂,包含了文本、图像、图形和其他多媒体元素。在本文中,我们将深入探讨PDF的结构以及如何使用...

    xdf文件格式转pdf格式工具

    这类工具通常会解析xdf文件中的数据,然后将其转换成PDF格式的页面布局,以便于非MATLAB环境下的用户查看和分享。转换过程可能包括数据可视化,例如将二维数组转换为图表,或者将多维数据以表格形式展示。 **转换...

    电子发票识别,电子发票解析,可识别 电子普票 电子专票 pdf ofd格式解析,数电票pdf解析

    本主题主要关注的是如何处理两种常见的电子发票类型——电子普票和电子专票,以及如何解析PDF和OFD这两种格式的电子发票。 首先,让我们了解电子发票的基本概念。电子发票,顾名思义,是通过电子方式进行开具、传递...

    PDF格式规范文档ISO32000(2008)

    理解PDF的内部结构可以帮助开发者正确解析和处理PDF文件,而熟悉标准和补充材料则有助于创建符合标准的兼容性文档。同时,对于内容创作者,了解PDF的编码和压缩方法可以优化文档大小,提高传输和存储效率。而对于...

    chm格式转pdf格式

    总的来说,"chm格式转pdf格式"这一过程是通过特定的转换软件,如"abcchm",解析CHM文件的结构,再将解析出的内容重新组织并导出为PDF格式。这个过程涉及到HTML解析、PDF生成、图像处理等多个技术环节,目的是为了...

    PDF帮助手册详解详解详解

    这份“PDF帮助手册详解详解详解”旨在深入探讨PDF的各个方面,帮助你全面掌握Adobe PDF的使用技巧。 首先,PDF的基本操作包括创建、打开和保存PDF文件。创建PDF可以从其他文档类型转换,如Word、Excel或PowerPoint...

    .Net HTML页面转PDF格式

    总的来说,这个工具或源代码提供了在.NET环境中将HTML页面快速、方便地转换为PDF格式的能力,这背后涉及到的技术包括HTML解析、PDF生成以及可能的网络请求(如果涉及URL转换)。开发者可以通过学习和理解这个工具的...

    《VC++深入详解》清晰PDF格式电子书.part03.rar

    《VC++深入详解》清晰PDF格式电子书.part03.rar

    PDF文件格式分析器

    `PDF文件格式分析器`是一个工具,专为理解、解析和分析PDF文档的内部结构而设计。这个工具由一位C#编程高手编写,C#是一种面向对象的编程语言,以其强大的.NET框架支持和跨平台能力著称。 PDF文件的结构主要包括...

    java创建和解析PDF

    在IT行业中,PDF(Portable Document Format)是一种广泛使用的文件格式,它能保持文档的原始布局和格式,方便在不同设备间共享。Java作为一种强大的编程语言,提供了多种库和方法来处理PDF文件,包括创建和解析PDF...

    将PDG格式转换成PDF格式的工具

    "将PDG格式转换成PDF格式的工具"就是针对这种需求而设计的软件应用,它能够帮助用户方便地处理超星阅读器的PDG文件,将其转换为更通用、更易于分发的PDF格式。 PDG(Page Description Graphics)是超星阅读器使用的...

Global site tag (gtag.js) - Google Analytics