【摘 要】
:
在新闻领域标注语料上训练的中文分词系统在跨领域时性能会有明显下降。针对目标领域的大规模标注语料难以获取的问题,该文提出Active learning算法与n-gram统计特征相结合的
【基金项目】
:
国家国际科技合作专项资助(2014DFA11350), 国家自然科学基金(61370130)
论文部分内容阅读
在新闻领域标注语料上训练的中文分词系统在跨领域时性能会有明显下降。针对目标领域的大规模标注语料难以获取的问题,该文提出Active learning算法与n-gram统计特征相结合的领域自适应方法。该方法通过对目标领域文本与已有标注语料的差异进行统计分析,选择含有最多未标记过的语言现象的小规模语料优先进行人工标注,然后再结合大规模文本中的n-gram统计特征训练目标领域的分词系统。该文采用了CRF训练模型,并在100万句的科技文献领域上,验证了所提方法的有效性,评测数据为人工标注的300句科技文献语料。实
其他文献
随着社交网络的快速发展,用户在使用社交应用时会产生大量有价值的数据。通过对社交网络进行数据挖掘,发现隐藏在数据中关联用户与物品之间的偏好关系。然后对用户建模分析,
从10份沈阳地区人类免疫缺陷病毒1型(HIV-1)血浆标本中提取核糖核酸(RNA),经逆转录聚合酶链反应(RT-PCR)和套式聚合酶链反应(nest-PCR)扩增HIV-1的p17与p24交界部分的基因片
本研究旨在以HCV为平台,在简化RT-PCR基础上,结合体外转录,建立一种特异、高效、简便的检测血清中HCV RNA的体外转录合成系统.本法扩增终产物为特定极性的ssRNA,其特异性经凝
在线事件检索是针对事件查询,按时间序迭代返回小批量数据集中事件相关文档的检索任务。其目标是在时间轴上不断收集新鲜的事件文档,是进行一系列事件相关工作的重要基础。面