【摘 要】
:
处于大数据时代的今天,数据呈现出规模庞大、模态多样和高速增长等特征,语言数据的价值也随之爆发式地增长,汉语语料信息分析的价值也相应地提升。与此同时,与汉语相关的领域也得到了深入的研究,其中对于汉语句式分析算法的设计在其精度和准确性上都有明显地改善。基于中文语言处理系统(Language Technology Platform,LTP),构建海量汉语句式库,利用数据挖掘技术及机器学习等方法,对汉语句
论文部分内容阅读
处于大数据时代的今天,数据呈现出规模庞大、模态多样和高速增长等特征,语言数据的价值也随之爆发式地增长,汉语语料信息分析的价值也相应地提升。与此同时,与汉语相关的领域也得到了深入的研究,其中对于汉语句式分析算法的设计在其精度和准确性上都有明显地改善。基于中文语言处理系统(Language Technology Platform,LTP),构建海量汉语句式库,利用数据挖掘技术及机器学习等方法,对汉语句式进行特征提取和应用为该领域研究带来了新的契机,也有望为后续的细粒度中文自然语言处理提供新思路。为了进行基于海量数据分析的汉语句式特征提取及应用,本文主要进行了如下工作:(1)通过爬虫获取大量的、丰富的、来自不同文体的汉语语句,并将预处理后的数据进行存储,在保证数据质量和准确性的基础上,建立具有针对性、时效性、开放性、操作性强的百万级个人语料库。(2)基于LTP4.0,对依存句法分析进行了改进,以此提取文本的句式结构信息,并将原较复杂的树结构转化成更易操作处理的向量形式,从而构建由句式结构向量、依存节点向量、权重向量三者共同组成的句式文本表示模型。在对数据库进行设计和优化后,对语料库中的每个语料进行句式分析,最终建立汉语句式库。(3)充分利用句式库中的海量数据,多方位的进行了句式种类的统计和分析,包括总结不同层级的汉语句式结构特点,结合不同文体的写作特点和表达方式来分析议论文、记叙文和说明文各自具备的句式特征,分析并比较处于“欧化”初期的现代作者和处在已具有较成熟汉语体制的当代作者对于句式结构的使用特征和个人写作风格。(4)提出了一种基于依存句法的句式相似度算法,从两个句子的依存句法树的根节点开始,逐层比较并得出两个树在每一层的相同节点个数,其中通过多次“剪枝”操作降低算法的复杂度,得到每层的相似度后对不同层的节点进行加权,最终计算出两个句子的句式相似度。(5)以句式语料库中的语料为样本,基于Kmeans++获得聚类中心并统计文章中每个句式所归属的簇及每个簇的成员个数,得到文章的特征向量,从而建立文章的句式空间表示模型。再以文章为单位进行不同文体、作者的句式特征分析,计算不同文章间的句式相似度,使用逻辑回归等六种机器学习分类模型对包含18个作者文章的数据集进行作者识别模型的构建。
其他文献
随着中微子振荡实验的研究越来越深入,更多的中微子物理学问题展现出来,其中一个就是确定中微子是狄拉克粒子还是马约拉纳粒子,该研究对中微子质量起源至关重要,在实验上主要是通过无中微子双贝塔衰变(Neutrinoless Double Beta Decay,NLDBD)来开展。国际上已有众多的实验正在寻找136Xe的NLDBD过程,比如EXO、NEXT、KamLAND-Zen等。而随着暗物质探测器进入吨
学习场景以及场景化学习,是一种能带来全新学习体验的学习空间和学习方式;同时,互联网、大数据、智能化等技术的发展,为场景化学习提供了有力支撑。研究表明,场景化在不同领域有着不同的概念和内涵,但都能体现出体验性、沉浸性、引导性等基本特征;在此语境下,社区数字化学习场景化也呈现出布局社区化、环境智能化、方式情景化等特征。基于上海关于场景化学习的实践及场景理论、元宇宙理论的分析,社区数字化学习场景化设计可
在非晶合金的研究过程中,人们发现Zr基非晶合金以其高的玻璃形成能力、卓越的力学性能、耐腐蚀性能和良好的生物活性,而Co基非晶合金则具有良好的耐磨性、高的磁导率、低矫顽力、低损耗和优良的热稳定性等。因此,ZrCo基合金将两类合金的优势集为一体,近年来受到人们的广泛关注。但是,对于这类非晶合金的研究大多集中于玻璃形成能力和力学性能方面的研究,微观结构方面的研究较少。本文主要通过第一性原理分子动力学实验
反应堆内结构材料的安全服役是核能安全利用的基础,其中包壳管既是确保堆芯核燃料安全运行的第一道屏障,也是防止裂变产物逸出污染环境及隔离冷却剂与核燃料的重要保证。本论文针对事故容错燃料(ATF)系统中的先进包壳材料FeCrAl三元系统的抗辐照性能开展计算模拟研究,特别是Cr和Al的加入对辐照形成的位错环结构及与位错线相互作用的影响,理解此种材料的辐照下的结构演化和对力学性质的影响,为新型ATF的研发提
随着移动互联网技术的飞速发展,人们对隐私安全问题愈发重视。作为网络空间安全关键支撑的密码技术,其主要功能之一是在确保业务功能正常运行的前提下保护用户隐私。但是量子计算机的兴起对当前广泛使用的密码技术形成巨大威胁。为了抵抗量子计算机的攻击,NIST、欧盟等纷纷开启后量子密码技术的研究和标准制定计划,后量子密码算法成为当前密码学研究热点。零知识证明作为一类可提供隐私保护功能的典型密码技术,相关抗量子计
卒中是导致全球脑血管疾病死亡的主要原因之一,而动脉粥样硬化是卒中的主要原因。血浆中载脂蛋白B(ApoB)的浓度反映了血浆中潜在致动脉粥样硬化脂蛋白的总数,但目前关于ApoB与卒中的关系研究较少。本研究从英国生物银行数据队列(UK Biobank,样本量约440000人)中提取血脂指标相关的遗传数据,另从多种族全基因组关联研究卒中数据库(METASTROKE,样本量约446696人)中提取卒中及其各
低剂量X射线计算机断层(Low-dose X-ray Computed Tomography)成像技术是现代医学检测的重要手段之一,同样也是医学成像的重点研究内容之一,其目的是在降低X射线辐射剂量前提下,保证CT成像的准确性,以及医学诊断的可靠性。低剂量CT成像方法多种多样,或是降低X射线辐射强度,或是在扫描期间降低采样,无论哪种技术手段都可以减少X射线对人体的伤害,但同样地,都破坏了图像质量,在
地震勘探已成为油气资源勘探行业的主流方法。与国外相比,我国目前仍普遍使用传统的有线地震勘探采集系统,在实际应用中容易受到自然环境的限制,难以完成复杂地形下大规模、高速率的地震勘探工作。在此背景下,课题组设计了一种地震勘探无线采集节点,其中AD转换模块是核心模块,它的性能直接决定了采集到的地震数据是否有效。因此,设计高精度、高采样率的AD转换模块具有重要的应用价值。AD转换模块设计的难点在于,电路中
钢丝绳由于自身重量轻、弹性好、抗拉强度高和承载力强等优越性,广泛应用于煤矿、交通、电梯、建筑等行业。但是,作为起重运输设备的关键部件,在工作过程中不可避免地会出现断丝、磨损、腐蚀甚至疲劳断裂等现象,对安全生产具有潜在的威胁。因此,钢丝绳损伤的检查和准确识别对经济社会的稳定具有重要意义。本文基于无损检测技术,对钢丝绳损伤的定性与定量检测进行理论分析和实验验证,主要研究内容如下:首先,介绍钢丝绳的结构
信息对象(Information object)泛指以信息化形式存在的,可感知或可想象到的任何事物,包括具体和抽象的概念,如人物、事件、建筑、工程、树木、房屋、物价、民意等。随着互联网与移动设备的快速发展与普及,信息的产生呈井喷式增长,并且中华民族历史悠久,拥有着大量且丰富的信息对象。对于信息的检索和使用,通常是借助于网络搜索引擎或在线的信息平台进行检索。然而,这些信息在表示、存储及利用上,都呈现