基于C4.5的维基百科页面信息质量评价模型研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:tscy123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
采用开放协同编辑模式的维基百科,其内容的精确性一直受到人们的质疑。除了极少部分被维基百科认定为高质量文章外,维基用户很难判断其余大部分文章的质量。对此,本文将维基百科中页面信息作为样本数据,把页面信息质量评价问题抽象为一个分类问题,构造了基于决策树C4.5的维基百科页面信息质量评价模型。并从页面编辑者情况和页面情况两个方面提出影响维基百科页面信息质量的15个的指标,给出了各指标的定义以及计算公式。最后,训练一个自动的页面信息质量分级评价模型并进行了有效性验证。实验证明,本文提出的维基百科页面信息质量分级评
其他文献
为解决本体相关概念的共享和信息集成,发现本体间的语义关联,提出了本体与规则整合下的语义推理模型ORRM,构建了家庭本体FO。将推理集中在两个不同层次,第一层的推理使用Racer推
丘吉尔曾说过,永远不要浪费一次危机,而当前我们正历经一场全球性危机。面对肆虐的新冠肺炎疫情,大家也做出了不同选择。尽管疫情残酷冰冷的一面让大多数人陷入彷徨,但疫情背
近年来高血压在药物治疗方面已取得较大进步,治疗方案明确有效,但调查结果显示高血压的控制率为6.1%,其原因是服药依从性差。本文对高血压药物的治疗情况进行调查,分析影响治疗依从性的因素,并探讨护理干预对策,现报道如下。 本文为全文原貌 未安装PDF浏览器用户请
教育是直面生命的本真事业。中学思品生态"三生"课堂要以"生命态"大教育观为旨归,关注学生生命在场现实诉求,重构自然之教"三生"本真模本,浸润"三生"课堂生活旅程,拓展学生适应社会生
文献特征共现分析可以揭示文献的内容关联和特征项隐含的寓意。基于2-模网络模型探讨不同特征共现的分析方法,有利于挖掘不同特征共现网络的深层次结构关系。通过构建2-模网络
近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据表示和数据交换的标准.XML文档聚类是数据挖掘研究中热点一个,为网络信息资源的搜
目的探讨ICU护理风险事件的原因及提出相应对策。方法回顾性分析我院2006年1月~2009年12月收治的1496例ICU患者的护理资料,对护理风险事件进行分析和提出相应的解决策略。结果
KNN算法是文本分类中广泛应用的算法。作为一种基于实例的算法,训练样本的数量和分布位置影响KNN分类器分类性能。合理的样本剪裁以及样本赋权方法可以提高分类器的效率。提出
本研究选择“香港政府一站通”和“首都之窗”两个网站作为政府网站可用性测评实验的对象,采用标准的可用性测试方案“CIF标准”展开实验。在测试实验中,首先为参加测试的人员
目的:分析妇产科病历中常见问题出现的原因,讨论针对此类问题的管理策略,以提升病历质量管理。方法:于2017年8月~2018年8月随机抽取医院妇产科存档的病例310份,病历包涵产妇体