基于搜索引擎的中文歧义词收集系统研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:jiangjuexin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Internet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词位置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结果难以对比的问题。
其他文献
文章筒要介绍了复合图书馆的产生及概念,并对复合图书馆的发展作了一定的探讨,提出了复合图书馆发展的方向。
新浪装修抢工长和天猫家装的强强联手是抢工长平台迈向广泛消费者非常重要的时间节点。这个模式运营两年之后,会发现已经受到了市场非常高度的关注,也得到了市场非常好的反馈。
报纸
地方本科院校的人才培养目标是应用型人才。本文结合地方本科院校发展现状和信息管理与信息系统专业的人才培养特点,分析了地方本科院校信息管理与信息系统专业的培养目标定
院校研究就是在一定理论观照下,应用科学的方法和程式(特别是定量分析的方法和程式),对单个高等院校运行中的实际问题进行分析评估论证,从而直接服务于该校管理决策的一种研究范
本文提出采用德尔菲法构建图书馆中文图书采购招标评价指标体系,利用层次分析法进行招标体系权重的设置。该指标体系的构建可以为中文图书采购招标的评价工作提供借鉴作用。
文章分析了广州大学城六所高校图书馆及CALIS的书目数据,以中国古代帝王的名称规范和名称主题为例.探讨我国高校图书馆在规范控制方面普遍存在的问题,及其对书目利用效益的不良