【摘 要】
:
网络论坛的分类和正文提取是网络数据挖掘的一项重要技术.传统的网页分类方法没有考虑到论坛网址的结构特性,以内容特征为根据,易受噪声影响,效率较低,难以满足通用性的需求.
【机 构】
:
山东师范大学 信息科学与工程学院,济南250014山东省分布式计算机软件新技术重点实验室,济南250014;山东师范大学 信息科学与工程学院,济南250014;山东省分布式计算机软件新技术重点实验室,
论文部分内容阅读
网络论坛的分类和正文提取是网络数据挖掘的一项重要技术.传统的网页分类方法没有考虑到论坛网址的结构特性,以内容特征为根据,易受噪声影响,效率较低,难以满足通用性的需求.传统的正文提取方法以文本密度和布局结构为依据,忽视了论坛内容的语义信息,难以从多样化的论坛中有效提取正文.本文提出基于网址结构的聚类方法(Universal Resource Loca-tors′Structure Clustering,USC)以及基于词汇关键程度的关键词打分筛选方法(Keyword Scoring Filter,KSF).两种方法仅需要对数据集中的少量样本进行解析,提取出通用规则,便可满足大规模提取的需要.实验验证,在相同测试集下,USC方法的F值较传统分类方法高18.99%,KSF方法的准确率较传统正文提取方法高18.46%,适合大规模论坛提取作业.
其他文献
本试验通过改良DNA快速提取方法及采用PCR扩增剂,建立了PAGE检测平台下纪元128、京单128、郑单958品种进行二重PCR扩增的有效SSR引物组合,并对样品SSR纯度检测和与小区种植鉴
河北省是京津冀协同发展的最大受益者,想问题、作决策、办事情,都要协作共赢,在推动国家战略实施中实现自身发展,河北现代种业要以此为契机,全面实现河北现代种业跨越式发展.
目的:探讨原发性系膜增牛性肾小球肾炎(MsPGN)细胞周期素依赖蛋白激酶抑制剂p16INMK4a在肾小球和肾小管间质的表达分布及意义.方法:采用非生物素免疫组化二步法检测36例MsPGN
聚类分析是数据挖掘领域中最重要的任务之一,目前许多聚类算法已经被成功应用到图像聚类、文本聚类、信息检索、社交网络等领域.但面对结构复杂,分布不均衡的数据集时,确定数
随着各领域对卫星遥感数据需求的日益深入,用户不再满足于卫星对地面目标单次观测所获得的遥感数据,而是希望组网卫星能够对目标进行周期性持续观测,以实现目标态势定期刷新.这对卫星任务规划研究提出了更高的要求,传统的多星多目标任务规划方法均假设目标一旦被观测即任务完成,难以适应周期性持续观测任务规划场景.本文分析了组网卫星周期性持续观测任务规划问题,建立了约束满足问题模型.基于分解的多目标进化算法框架,提
魂芯DSP(BWDSP)系列处理器由中国电子科技集团第38研究所研制,支持VLIW(Very Long Instruction Word,超长指令字)和SIMD(Single Instruction Multiple Data,单指令多数据流)
针对工控网络异常行为与入侵行为的差异性,为降低漏报率和误报率并且为提高异常检测的准确率,提出基于单类支持向量机的双轮廓模型异常检测方法,模拟工控系统通讯的正常模态
1 病历摘要rn男,68岁.因发作性左侧面部疼痛3个月就诊,诊断为三叉神经痛,给予卡马西平院外治疗.卡马西平初始剂量为1片,3次/d,半月后用量渐增至4片,3次/d.面部疼痛减轻.又因
以6个春播娃娃菜品种为试材,开展单年多点的品种比较试验,考察品种的生物学性状、抗病性、产量等性状。依据耐抽薹性>抗病性>品质>产量表现>其他性状的品种评价优先顺序,田娃