PDF阅读器的设计与实现
摘要: 为有效提取PDF(portable document format)文件中的文字、图片、图形信息,提出了包含文件预处理、显示预处理、功能扩展、显示4个单元的PDF阅读器的实现模型。基于PDF文件结构特点,提出了忽略次要信息定位关键位置的解析思路。在此基础上,针对FlateDecode、DCTDecode和CCITTFaxDecode这3种过滤器处理的数据流,给出了详细的解决方案,然后对PDF页面内容进行两次解析,设计相应的文字图形等数据结构保存结果,最后对数据利用和功能扩展进行了讨论。通过实验结果表明,该模型能较好地实现PDF信息提取和显示,有利于PDF在中文信息处理领域中的进一步开发利用。 (共4页)
开通会员,享受整站包年服务