文本文件内容修复系统的技术研究及系统实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:chenlecheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文立足于文本文件的修复,提出了有别于传统数据恢复技术的内容修复技术,强调文件内容层面的可用性维护。首先,将从文件格式的研究以及文件修复的共性谈起,阐述传统的数据恢复方法、现有的文件修复的方法、技术以及各种实现了文件修复功能的软件、开放源代码资源。同时也给出了导致文件损坏或不可用的主要原因。 随后,在此基础上,本文分类阐述了明文文本、标签类文本以及复合文本的内容修复方法,其中提出了中文多编码盲识别算法、HTML标签清理与主体文本提取算法和MS Word文件的内容提取修复算法等创新算法。 最后,本文还介绍了文本文件内容修复子系统的设计与实现。该子系统作为“软损坏”文件修复系统的重要模块之一,应用了上述各项修复技术,着重解决了复合文本文件的修复。修复的效果达到并超过了同类软件的修复水平。
其他文献
本文以“汉芯”DSP3000作为目标处理器平台,在参考几种目前较为流行的仿真策略的基础上,提出了一种独特的设计具有高仿真效率的指令集仿真器的方法。这一设计方法采用了模块化
目的::探讨经腹下横纹小切口治疗小儿疝气的临床体会及疗效。方法:对40例经下腹横纹小切口治疗的小儿疝气患者的临床资料与同期住院的40例传统斜切口术的小儿疝气患者进行比较,治
本论文根据雷达信号处理系统模块化、标准化、通用化的发展趋势,讲述了以ADSP为基本运算单元,基于CompactPCI标准总线的通用信号多DSP并行处理模板的设计以及对通用信号处理系
目的:研究探索脑脊液漏的治疗与预防方法。方法:选取我院84例脑或脊髓外伤或需行手术的患者,根据疾病情况制定个性化的治疗方案,将疗效进行分析总结。结果:本组84例患者中,男性患者
新时期计划生育工作的重心已然逐渐转向了生殖健康的优质服务方面。这一工作的主旨主要是坚持以人文本的工作原则,通过相关健康知识的宣传促进群众在自我健康保护方面意识的加
目的:研究分析前颞叶切除内减压术治疗外伤后恶性颅高压的临床效果。方法:选取113例外伤后恶性颅高压患者为研究对象,根据手术方式分为对照组(54例)与观察组(59例),对照组行传统去骨
在国家经济及社会持续发展的背景下,人口的大量流动成为这一背景引发的一种显著的时代现象。在我国,人口流动主要表现为大量农村人口涌向经济发达地区,这种现象给我国的公共卫生
目的:分析血清BUN(尿素)、血清Cr(肌酐)比值测定在判断消化道出血部位中的临床应用价值,为消化道出血诊断提供更多科学根据。方法:回顾性分析所在医院2013年5月——2016年2月81例消
本文提出了基于环形自同构的频域半脆弱水印算法。在该算法中提出结合版权标识与视频本身特征来生成认证信息,该认证信息对于视频(图像)压缩编码处理具有相当强的稳健性,而对恶意
本文通过对现有的远程容灾方案进行深入分析之后,结合实际需要,提出了一种基于LINUX的远程容灾复制方案。它的基本思想十分简单:定期地扫描数据,以寻找新的或被更新的数据,并把它