论文部分内容阅读
互联网中海量的非结构化信息包含丰富的语义内容,对其进行语义分析具有重要的意义。语义分析的对象主要有文字、图像和图像中的文字。微博是当前流行的社交网络,其中包含大量的文字和图像。本文对微博中文字信息的语义分析技术做了研究,并将图像作为单独研究对象,分别在图像文字提取和图像语义分类技术上进行了研究。本文的主要工作如下:(1)为了分析用户对微博事件的推动价值,研究了用户的事件影响度和事件潜力值等评价指标,设计了相应的算法,并通过实验进行了验证。(2)提出一种基于形态学和色彩分层的图像文字提取方法。该方法首先提取边缘图像,然后根据形态学方法和文字特点提取长方形区域和非长方形区域,最后分别处理这两类区域。处理非长方形区域时使用了色彩分层法。方法中还研究了大字修复算法,使得方法能同时适用于小字体和大字体的文字图像。实验结果表明方法具有较高的准确率。(3)提出一种基于HSV分层的局部特征和SVM的图像语义分类方法。方法对图像的底层视觉特征进行提取,包括提出的基于HSV分层的局部特征,并用SVM对图像进行语义映射。该方法融合了局部特征和全局特征,提高了语义分类效果。实验结果证明了方法的有效性。(4)实现了一个基于语义和图像文字提取的图像检索系统。系统对输入的文字图像进行文字提取和识别,并对所有图像进行语义分类,因而可以同时检索文字图像和普通图像。