【摘 要】
:
随着互联网技术的飞速发展,网络上的信息呈现爆炸式地增长,不仅信息规模不断扩大,信息种类也不断增多。与此同时,大量数据在各个领域的成功应用宣告了大数据时代的到来,大数据在社会的发展中起着越来越重要的作用,其价值已得到了社会的普遍认可。近年来,随着我国法制化建设的不断深入,司法案件的审理也变得愈发透明,裁判文书在网上的公开就是一个典型例子。裁判文书作为承载法院案件审理过程以及审判结果的“司法产品”,其
论文部分内容阅读
随着互联网技术的飞速发展,网络上的信息呈现爆炸式地增长,不仅信息规模不断扩大,信息种类也不断增多。与此同时,大量数据在各个领域的成功应用宣告了大数据时代的到来,大数据在社会的发展中起着越来越重要的作用,其价值已得到了社会的普遍认可。近年来,随着我国法制化建设的不断深入,司法案件的审理也变得愈发透明,裁判文书在网上的公开就是一个典型例子。裁判文书作为承载法院案件审理过程以及审判结果的“司法产品”,其蕴含着丰富的司法信息,包括判决法院、案号、当事人诉讼请求、案件名称、判决结果、适用法律等,这些恰恰聚集了法院“大数据”的核心要素。通过对这些信息进行深度挖掘,可以总结案件审判规律,预测审判趋势,提升司法公信力,为实现司法公正,建设法制社会提供技术支撑。然而,裁判文书是一种半结构化的领域文本,其既有程式化的法言法语,也有日常的普通用语,同时裁判文书的书写很大程度上决定于法官,这使得裁判文书具有多态性、异构性以及随意性等一系列特征。因此如何在这类特殊的文本中抽取有价值的信息是一项具有重要价值及意义的课题。在上述背景下,为对裁判文书进行信息抽取,本文将强化学习应用于信息抽取领域,提出了基于强化学习的信息抽取算法(IEM-HRL)。本文的主要研究内容包括:(1)根据裁判文书的特性,本文对裁判文书的信息抽取过程进行了分析,将该过程分解为两个环节:首先是对裁判文书中的目标数据进行定位,即如何在动态变化的文本中找到目标数据;之后是在第一步的基础上对目标数据进行规则提取,以此实现信息抽取。(2)对于数据定位问题,本文针对裁判文书存在的异构性以及多态性等特点,运用强化学习的思想,将文本视为环境,让智能体Agent与环境进行不断交互,以此试错学习到解决问题的最优策略。同时利用多Agent系统中个体Agent与系统远期目标的同一性,引入策略协调机制,通过各Agent之间的交流来发现趋势信息,之后利用Shaping技术将在线获得的动态知识对智能体Agent进行启发,加快智能体的学习速度。(3)对于规则提取问题,本文通过对裁判文书的分析,首先将目标数据的长度、词性以及停止符数目等属性作为条件属性;之后根据先验知识利用已有的条件属性值计算得到决策属性值,并生成决策信息表;最后利用粗糙集理论对决策信息表进行属性约简,并对约简表进行决策规则提取,以此生成规则库。(4)基于上述方法,本文设计并实现了一个针对领域文本的信息抽取系统。其中,智能体Agent在文本环境中对目标数据进行高效准确地定位,然后在定位的基础上利用规则对目标数据进行抽取。实验结果表明,本文方法能够很好地对裁判文书进行信息抽取,具有较高的抽取精度及抽取效率,并且展现了良好的健壮性。
其他文献
聚集诱导发光(AIE)现象指的是存在一类分子,它们在单分子状态时不发光或荧光很弱,相反在聚集体时荧光显著增强,这一发现解决了传统荧光生色团的聚集荧光淬灭的问题,扩宽了应用领域。使其在电子器件、生物医学、离子检测等方面应用越来越广泛。合成更为新型的AIE分子,研究其发光性质,发现其应用领域对于研究有机发光材料来说具有重要的指导意义。本文以并吡咯分子为核心,引入氰基-乙烯基团,并通过Knoevenag
目前,互联网技术和移动网络技术飞速发展,电子商务和移动商务已经成为人们日常生活中的一部分,网购的方式给人们的生活带了巨大的便利。同时,网络上各种各样的商品信息给我们挑选商品带了一定困难。除了商品本身的描述以外,商品的评论信息也是人们挑选商品考虑的重要因素之一,更是人们判断商品质量的关键内容。电商平台的用户评论数量往往十分巨大,并且存在大量无效评论,例如不良商家雇佣水军刷的好评和同行之间的恶意差评等
目前的图像检索大都基于文本的图像检索或基于内容的图像检索,前者存在大量人工手动标注的问题,后者则存在语义鸿沟的问题。本文使用深度学习算法对图像进行自动标注,将提取出的高层次语义信息转换成丰富的标注信息,不仅在一定程度上消除了语义鸿沟的问题,还节省了大量人力成本,实现高效图像检索。根据自动标注的实现方式不同,可将本文的研究内容分成两部分:首先是基于图像分类模型与自动标注的图像检索,即采用了多标记分类
监狱属于国家刑罚执行机关,承担着保障社会和谐稳定、降低犯罪事件的功能,但是在监狱管理中往往会遇到一些突发性事件,由于监狱关押犯人的特殊性,需要监狱具备极强的应急能力。如今大数据以及信息化手段不断发展,应急指挥调度系统在各行各业都逐步应用起来,监狱也不例外,通过计算机技术加强应急管理,建设应急指挥调度系统项目。需要注意的是,在项目开发和建设过程中面临着一定的风险,最大程度地减低监狱应急指挥调度系统项
能源对于人类经济社会发展非常重要,然而,目前世界上的主要能源来自于化石燃料的燃烧。化石燃料的大量燃烧,一方面使不可再生资源急剧消耗,另一方面大量排放的碳严重污染环境。为保证能源的可持续性和环境的友好性,可再生、清洁的新能源如风能、太阳能、地热能、生物质能、海洋能和核聚变能越来越受到重视。而新能源的使用和存储离不开能源载体,因此,新能源载体领域诸如锂离子电池、电解水产氢、超级电容器、太阳能电池等也成
政府数据开放是现在国家发展的战略方针之一,开放政府数据运动不仅让政府工作更加透明化,同时也帮助企业了解市场需求,帮助社会进行有利变革,政府将拥有的大量数据在开放政府数据平台上公开发布,公共数据可以被公众更好地利用,进而创造更大的经济价值和社会价值。自2012年第一个真正意义上的地方政府开放数据平台——上海市政府数据资源网的建立开始,我国的政府开放数据研究便进入了一个相对稳步上升的研究状态,对政府开
伴随着素质教育改革进程,我国基础教育质量不断提升。然而,教育质量与学业成就不断提升的背后仍存在着诸如小学生作业量过大、难度过高等“应试困境”。对此,政府、学者、教师都尝试通过对家庭作业进行优化设计来缓解这一问题。随着改革与研究的不断深入,人们开始意识到家庭作业并非一个单纯的教学或课程问题,其更是一个复杂的教育管理问题。为此,本研究以深圳市A小学五、六年级学生以及相应的学科英语教师、学校教学管理者作
Rb-Sr等时线法发展至今,已经成为同位素测年的重要方法之一。但由于87Rb与87Sr是同质异位素,利用多接收等离子体质谱仪(MC-ICP-MS)测定Sr同位素比值时,87Rb对87Sr的测定干扰无法忽略,严重影响数据的准确性。杯芳烃作为第三代超分子化合物,被应用于多个领域。修饰桥连原子后,砜桥杯芳烃展现出了对金属离子超强的识别作用。Amberlite XAD-7树脂具有大孔径、高孔率以及较大的比
情态动词“能”和“会”是汉语教学中的初级语法点,学习者接触早且使用频繁。“能”和“会”自身具有义项多,语义交叉等特点,再加上对外汉语教材中关于二者的内容编写存有问题,便成了对外汉语教学中的一个难点。因此,文章考察了三套权威的对外汉语教材(初级综合),对教材中关于情态动词“能”和“会”的注释、例句和习题进行了对比分析,发现教材存在义项选取不充分、教材示例不精确、语义注释不明确和习题设置不精准四个问题
在互联网、大数据、云计算等大流量业务的推动下,光通信系统以其高速、大容量、低损耗等优势,逐渐代替传统的电通信网络成为通信领域的研究热点。极化码(polar code)自2009年被提出以来,便凭借着超低的编码、译码复杂度以及信道容量严格“可达”等优势,成为了编码领域的新星。本文首先实现了 polar code的构造以及编译码算法,然后在非相干光通信系统中对极化码进行仿真分析并实验实现,最后在相干光