基于领域相关词汇提取的特征选择方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户：ylfly5257

【摘要】

：

传统文本分类中的文档表示方法一般基于全文本（Bag—Of—words）的分析，由于忽略了领域相关的语义特征，无法很好地应用于面向特定领域的文本分类任务．本文提出了一种基于语料库对比

【作者】

：

孙麟牛军钰

【机构】

：

复旦大学计算机科学与工程系

【出处】

：

小型微型计算机系统

【发表日期】

：

2007年5期

【关键词】

：

【基金项目】

：

国家自然科学基金项目（60305006）资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统文本分类中的文档表示方法一般基于全文本（Bag—Of—words）的分析，由于忽略了领域相关的语义特征，无法很好地应用于面向特定领域的文本分类任务．本文提出了一种基于语料库对比领域相关词汇提取的特征选择方法，结合SVM分类器实现了适用于特定领域的文本分类系统，能轻松应用到各个领域．该系统在2005年文本检索会议（TREC，Text REtrieval Conference）的基因领域文本分类任务（Genomics Track Categorization Task）的评测中取得第一名．

其他文献

温室菜田施氮损失的双氰胺控制效应规律研究

本研究针对温室蔬菜生产中由过量施用氮肥以及不合理的灌水措施导致的氮肥利用率低、氮素损失（NO3--N、N2O气体排放和NH3挥发）严重的资源浪费和环境负效应问题,重点研究硝化抑

学位

硝化抑制剂双氰胺(DCD)氮素损失温室蔬菜优化水氮管理调控效应规律

调查、觊觎与记录:台湾矿产资源与近代西人“台湾印象”的形成

我国台湾地区矿产资源丰富,尤以煤炭、石油、硫磺、贵重金属等资源最多。19世纪中后叶正处各西方资本主义大国向帝国主义过渡时期,对远东地区掌控权的争夺及对矿产资源的占有

期刊

近代西人台湾矿产基隆煤矿中法战争

一种欠驱动柔性机器人模型的建立及控制

采用Lagrange建模方法建立了欠驱动柔性自平衡机器人的数学模型，对柔性关节部分考虑了其弹性势能，仿真验证了模型的正确性，刚度越大，机器人上半身角度跟踪越快．采用线性二次型最优

期刊

欠驱动柔性关节自平衡机器人平衡控制under-actuated flexible joint slef-banlancing robot balanci

一种面向非平衡数据的邻居词特征选择方法

在非平衡数据情况下，由于传统特征选择方法，如信息增益（Information Gain，IG）和相关系数（Correlation Coefficient，CC），或者不考虑负特征对分类的作用，或者不能显式地均衡正负特征比例，

期刊

特征选择非平衡数据术语抽取邻居词feature selection imbalanced data term extraction neighbor w

基于模糊集理论的网格服务行为信任模型

在网格环境中,信任机制是解决网格服务安全问题的一种有效方法.行为信任具有身份信任不可替代的作用.研究了以P2P模式组织的网格服务资源之间的行为信任关系,提出了一个行为

期刊

网格服务行为信任模型模糊集理论模糊决策grid service behavior trust model fuzzy sets theory fu

多模态特征融合的新闻视频故事分割方法

新闻视频故事分割是新闻视频分析的重要底层支持技术,本文提出了一种融合音频、视频等多模态特征的新闻视频故事分割方法.首先分析音频特征的静音片段作为音频特征候选点,对视频进行镜头分割,并将镜头分割结果分类为播音员镜头和新闻报道镜头,将所有的镜头分割点和播音员镜头片段提取为视频片段候选点;然后通过对新闻视频编辑规则的研究,对视频、音频特征候选点融合分析来获取新闻视频的故事分割,实验表明该方法在不同新闻视

期刊

新闻视频故事分割静音片段镜头分割镜头分类多模态融合news video story segmentation silence clip shot d

基于领域相关词汇提取的特征选择方法

其他学术论文