【摘 要】
:
针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法news Extractor。该算法首先通过预处理将网页转换成
【机 构】
:
中国互联网络信息中心,中国科学院大学计算机网络信息中心
【基金项目】
:
国家自然科学基金面上项目(61375039),中国科学院网络中心一三五重点项目(CNIC_PY_1402).
论文部分内容阅读
针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法news Extractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件news Paper进行提取准确率的对比实验。实验结果表明,news
其他文献
结合旋翼和固定翼的飞行特点,提出了一种可以在垂直起降和水平飞行之间切换状态的飞行器布局。围绕该类飞行器的力学特性、气动特性作出了分析和计算,并根据分析和计算的结果
随着物联网不断飞速发展,低功耗有损网络(LLN)的研究与应用成为一种发展趋势。首先,介绍了6LoWPAN与低功耗有损网络路由协议(RPL)的基本原理和结构;其次,总结了LLN中RPL所面对的主要安全威胁以及应对方法,根据协议所采用的不同策略进行归纳、分类和比较;然后,对国内外已有安全RPL研究情况进行了介绍和分析,同时对现有安全威胁和解决方案进行了总结;最后,提出了在大规模、移动性、自组织、低功耗
针对数控加工中零部件的切削精度和速率问题,综合速度生成算法和插补算法的优势,设计了一种新的刀具运动轨迹控制算法。利用五次样条和四次多项式微分求导方法,提高刀具运行
目的探究对小儿肺炎实施互动健康教育护理模式的临床效果及评价家属护理满意度。方法选取我院2015年10月~2016年10月收治的肺炎患儿88例作为研究对象,将其随机分为观察组和对