论文部分内容阅读
该文的主要内容是描述如何实现一个PDF格式转换模块,并添加到一个通用文档预处理模块结构中来增强系统功能。本预处理模块目前应用于一个新闻自动摘要系统。该系统采用了仿人算法,模拟人在处理摘要时候的思维模式,实现了一系列算法,最终生成了主题明确,反映中心,语句连贯的摘要。而PDF模块的加入,使得整个文档预处理模块的功能大大增强,能够处理文档的范围更加广泛,为进一步的文档信息处理打下了牢固的基础。该文详细分析了该格式的特点和数据存储方式,并提出了合适的解析算法。最后文章还讨论了如何利用设计模式来实现系统的无