之前花了点时间搞PDF 抽取器,它是曹老师一个项目‘基于学术文献的学科知识结构与学术人际关系挖掘研究’,在里边用来实现第一步,即元数据抽取的接口。目前可以抽取作者、标题、关键词、摘要、参考文献,并将正文分段,还没真正测试过,而且,接下去怎么做,曹老师没下文了。。。所以,今天开始,要凭一己之力,在此基础上做点什么,要真正研究点东西,并作为毕业设计,我给自己定下的原则是:
第一, 不追求大,实实在在的做,所涉及概念要问自己,自己来实现的话多少可能性,不要追求虚名。
第二, 在实在的基础上,尽可能深。即所有概念不要涉及皮毛,而要深入
第三, 效率要高,因为我的时间不多了,本次研究的结果除了毕业设计之外,还要作为参加招聘一个亮点。
第四, 做好每一步的整理工作,充分利用网络免费硬盘,并利用博客共享。
今天主要做了,第一,主要向外文网站搜索了有关PDF元数据提取的信息,发现返回结果大多是成型的软件,之前已经试了很多种,今天又下了一种叫 PDF-A 的软件,它的亮点是,可以用户自定义规则,规则可以保存、修改,实际抽取的时候,选择规则进行抽取,我只对它进行了初步测试,发现中文文档几乎是无法处理的,(打开中文文档进行自定义规则时打开不了),可见,其对中文的支持不行。我感兴趣的是,它的自定义这一块是如何实现的,因为实现PDF抽取,必然要克服不同期刊和出版商的PDF 格式不同的问题,之前我采用最傻的方法,即在程序中穷举各种格式,它的依据是,科技文献的格式相对集中。但事实上,格式的多样决定了穷举方法无法‘穷举’,你照顾了这种格式,对那种格式的照顾必然受影响。
所以,抽取规则自定义的实现,要做一下研究了。但是,在查找资料过程中,发现了以前没发现的一种东西:XBRL,可扩展商业报告语言。这东西进入中国才3,4年,2010-5月中国正式宣布加入其国际组织:http://www.xbrl-cn.org/content.do?method=cnlist&pid=29 。XBRL,简单讲,是用XML的格式描述财务报表,我们知道,之前各大公司的财务报表一般是静态的,如word , excel , PDF 的格式,一家公司常常要人工准备多钟报表,(内部使用、给证劵交易所使用、网络公布使用),美国一位会计师就想出这种后来被标准组织称为 XBRL 的东西,用它描述财务信息,由于本质是一种XML,所以,动态性非常好,只要有对应应用软件,想作为公布可以直接公布,想生成什么格式就生成什么格式,最重要的是,还可以进行深度分析,之前财务人员对比十家公司的财务数据,必须找到10个PDF,现在,如果他们都是以 XBRL 格式存储,那么可以用软件直接比较分析。正是这种好处,中国政府选择它做为会计信息化的先锋。深交所和上交所已经有部分企业实现了这种应用:http://listxbrl.sse.com.cn/ssexbrl/companyInfoAction.do 及http://xbrl.cninfo.com.cn/XBRL/index.jsp
具本人了解,(参考论文:http://www.lunwentianxia.com/product.free.9448929.1/ ),目前对XBRL的使用是这样的,之前企业的ERP系统生成的业务还是以之前的excel pdf word等方式,如果是excel等格式,深交所和上交所都是请软件公司做接口软件,将excel word 等自动转化为 XBRL,对于PDF这种无法直接编辑的格式,采取人工采集数据,录入一个界面然后生成XBRL,只要生成了第一次,以后就不用再生成了。理想化的使用是,在原来的ERP系统中集成进一个模块,直接就以XBRL作为业务数据输出,不过目前这种方式是不可行的,很少有公司可以有那么大资金、时间和风险的情况下,进行这种尝试。
我最关心的是,
第一, PDF直接转化为XBRL的可行性有多少?因为我本身做的就是,中文PDF的转化,当然,财务报表应该是比科技文献格式更复杂的一种,否则,与深交所和上交所合作的公司不会没有想到这一点。
第二, PDF直接转化为XBRL的好处有多少?首先,它应该只是过渡时期起作用,因为今后如果ERP都实现了直接输出XBRL,那么这一块就不存在了。它的意义,好像只是取代了人工录入这一块
第三, PDF直接转化为XBRL的准确性由多少?财务数据对准确性要求极高,而PDF转化软件,以本人的搜集来看,都达不到财务数据要求的那种准确性。
分享到:
相关推荐
"XBRL技术规范-精讲.pdf" XBRL(可扩展商业报告语言)是一种基于XML(可扩展的标记语言)的财务报告信息交换标准,旨在实现跨企业、跨行业、跨国界、跨语言的国际通用。XBRL的出现使得财务报表可以实现自动化、标准...
XBRL相比Excel、PDF、网页等财务信息格式有众多优势,原因就在于它将业务报告整体拆分为一个个元素而存在,使报告由静态变为动态,让计算机可以对报告内容进行抽取和组合。 例如,对于Word格式财务报告,尽管人们...
为了解决XBRL财务报告转换效率不足的问题, 通过构建统一的财务报告领域本体, 同时建立领域本体与分类标准之间的映射规则, 完成对XBRL分类标准的语义标注, 以此提高报告转换效率。最后, 以国内的XBRL应用为实例, 对...
1-XBRL简介与应用,包括XBRL 推动背景,XBRL 技术简介和XBRL应用领域
《基于XBRL网络财务报告的审计模式研究》探讨了XBRL技术在财务报告中的应用及其对审计模式的影响。XBRL,即可扩展的商业报告语言,是一种专为财务信息披露设计的计算机语言,它极大地简化了财务报告的编制、阅读和...
本篇文档将重点讨论“基于XBRL智能报告平台的合并报表数据抽取方法”,这一主题涵盖了多个IT领域的知识点,包括XBRL技术的应用、智能报告平台的设计、以及数据抽取与整合的策略。 XBRL是一种XML(可扩展标记语言)...
研究表明,在没有政府指导的情况下,采用XBRL技术的企业会受到相关企业或行业采用率的影响。 在政府的指导下,政府和企业采用XBRL技术的初始状态会影响系统的发展方向和速度。 系统演化具有明显的“路径依赖性”。 ...
XbrlToJson 示例如何使用jeasyxbrl-0.2和gson-2.4将财务数据从本地XBRL文件更改为Json格式。 请:要将原生XBRL文件从XML解析为Json格式,请考虑以下其他项目: :
期货业 - XBRL培训资料
总结而言,供应链级ERP信息集成研究强调了XBRL和云计算技术在解决供应链信息集成问题中的重要性。通过构建面向SOA的信息集成模型,能够实现供应链中企业的高效协同与信息共享,进而优化供应链的整体运作效率。同时,...
压缩包中的“一种XBRL应用平台数据关系可视化映射方法.pdf”文件很可能是详细阐述这一方法的学术论文或教程文档。这份文档可能涵盖了以下内容: 1. XBRL的基本概念:解释XBRL的起源、发展和标准化过程,以及其在...
7. **故障排查与修复**:如果测试失败,需要根据日志和错误信息定位问题,修改代码或调整测试用例,直至所有测试都通过。 通过以上步骤,我们可以建立一个完善的基于PyUnit的XBRL平台接口自动化测试框架,确保接口...
2. **查看和验证XBRL文件**:编辑器具有内置的查看器,可以显示XBRL文档的结构和内容,包括原始数据、标签、注释等。同时,它还能进行语法验证,确保报告符合XBRL语法规则和相关的财务标准,如IFRS(国际财务报告...
XBRL-java版编辑器,直接运行run.bat即可. ---------------- 1. Directory Structure ---------------- The directory structure is as follows. (dir)/ |- readme.txt ... This document |- ...
安装python-xbrl的最简单方法是使用pip pip install python-xbrl 或从github安装最新的dev版本(或将@master替换为的) pip install git+https://github.com/greedo/python-xbrl.git@master 或者 git clone ...
可扩展商业报告语言是基于互联网、跨平台操作,专门用于财务报告编制、披露和使用的计算机语言,基本实现数据的集成与最大化利用,会计信息数出一门,资料共享,是国际上将会计准则与计算机语言相结合,用于非结构化...
XBRL(eXtensible Business Reporting Language,可扩展商业报告语言)是一种标准化的数据交换格式,专为财务报告和业务信息的电子交换设计。它允许公司以机器可读的格式发布财务和其他关键数据,从而提高数据的准确...
【基于XBRL的税收区块链应用模式研究】 随着新兴数字化技术如XBRL(eXtensible Business Reporting Language,可扩展商业报告语言)、区块链和大数据的快速发展,企业的运营模式和税务管理正面临重大变革。XBRL是一...