基于Web的表格信息抽取研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户：hello_tyj

【摘要】

：

如今，Web成为了网络信息的主要平台。根据研究发现，表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息，自动理解表格在知识管理、信息检索、Web挖掘等应用中有

【作者】

：

秦振海谭守标徐超

【机构】

：

安徽大学电子科学与技术学院

【出处】

：

计算机技术与发展

【发表日期】

：

2010年2期

【关键词】

：

HTML表格信息抽取 WEB XML HTML tables information extraction Web XML

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

如今，Web成为了网络信息的主要平台。根据研究发现，表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息，自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途，所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示，由于HTML不描述数据的内容，机器不能理解和查询。论文首先将HTML文档转换为XML文档，结合本体形成启发式规则，对表格定位、表格结构识别两个关键技术进行了分析。在此基础上，利用HTML表格属性，将HTML表格标准化，从而适用于复杂表格

其他文献

优化评价体系，促进学生全面发展

遵循<中共天津市委关于深化教育改革全面推进素质教育的若干意见>提出的实施素质教育"六优"工程的精神,我校确立了以"优化对学生的评价体系"为切入点,深化学校教育改革,全面

期刊

评价体系学生全面发展小学教育教育改革素质教育

古诗教学新探

小学语文课本共收入古诗30首,这些古诗有托物言志的写景诗,有气势恢弘的抒情诗,还有寓意深刻的哲理诗.搞好古诗教学,不仅能陶冶学生情操,使学生更好地吸收民族文化的精华,而

期刊

小学教育语文教学古诗教学教学情境

班级管理需用“新”

一、以创新管理促创新教育创新型人才已成为新世纪人才构成的主体,培养和发展学生的创新精神和创新能力,也已成为实施素质教育的重点.创新能力的培养并不是要求教师和学生每

期刊

班级管理创新管理创新教育班主任工作班干部

基于无迹Kalman滤波算法的动力电池荷电状态估计

提出了一种动力电池容量标定方法,结合无迹Kalman滤波(UKF)算法,对动力电池的荷电状态(SOC)进行在线估计。根据温度系数和电流概率来标定电池的实际容量,建立二阶阻容(RC)等

期刊

动力电池荷电状态(SOC)无迹Kalman滤波算法(UKF)递推最小二乘法(RLS)温度系数电流概率二阶RC等效模型power batterys

全无机钙钛矿量子点的光学研究进展

相比于传统半导体量子点,全无机钙钛矿量子点具有发光性能好,发射波长可调,光致发光量子产率高等优点,是光电领域的理想材料,现已被广泛用以制备发光二极管、太阳能电池等光

期刊

全无机钙钛矿量子点离子掺杂配体修饰发光二极管all-inorganic perovskitequantum dotion dopingligan

铈掺杂氧化铜纳米颗粒的制备及其抗菌性能研究

采用水热法制备了铈离子掺杂的氧化铜纳米颗粒(Ce-CuO NPs)。FESEM图像显示掺杂氧化铜为球形和近球形颗粒;XRD图谱表明,当掺杂量低于10%时,图谱中只出现了单斜结构的CuO衍射

期刊

掺杂氧化铜纳米颗粒水热法抗菌金黄色葡萄球菌大肠杆菌doped CuOnanoparticleshydrothermal methodantib

在自主中学习在学习中创新

如何实施创新教育,可谓"仁者见仁,智者见智".笔者以为,学习创新的主体是学生,思想精髓是自主发展.在小学语文课堂教学中,要凭借课文,紧扣语言,利用多种教学方法,引导学生在自

期刊

小学语文教学质疑辩论情境教学创新教育自主学习

基于Web的表格信息抽取研究

其他学术论文