基于分块的网页主题信息自动提取算法

来源 :华中科技大学学报:自然科学版 | 被引量 : 0次 | 上传用户:ode
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.
其他文献
研究了一类具有小世界网络拓朴结构的连续时间动态特性的复杂网络的一致性问题.应用遗传算法对小世界网络进行优化和计算机仿真,结果表明:对于小世界网络而言,网络达到一致性
《在那遥远的地方》是王洛宾作词作曲的一首歌曲,它的曲调源于哈萨克民歌,就是根据《羊群里躺着想念你的信》改编的,这首歌曲首先在甘肃和青海一带传开,几十年来被当作青海民
针对目前基于Web的车辆监控系统由于浏览器处理功能有限而产生地图加载速度慢、车辆运行轨迹显示不连贯等诸多问题,通过对车辆监控系统典型架构的研究,利用Ajax模式和GIS Web