【摘 要】
:
为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含
【机 构】
:
中国农业大学信息与电气工程学院,公安部第三研究所
【基金项目】
:
信息网络安全公安部重点实验室开放课题项目(61503386)
论文部分内容阅读
为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维度灾难问题,基于K-means++根据语义关系聚类以提高训练数据质量。由word2vec构建文本向量作为LSTM的初始输入,训练LSTM分类模型,自动提取特征,进行饮食宜、忌的文本分类。实验采用48 000个文档进行测试,结果显示,分类准确率为98.08%,高于利用tf-idf、bag-of-words等文本数值化表示方法以及基于支持向量机(Support vector machine,SVM)和卷积神经网络(Convolutional neural network,CNN)分类算法结果。实验结果表明,利用该方法能够高质量地对饮食文本自动分类,帮助人们有效地利用健康饮食信息。
其他文献
系统分析了氟虫腈在竹笋中的残留和消解动态,建立了消解方程。研究表明氟虫腈施于竹笋表面很快被吸收,施药2h就有吸收,1d后达到最大吸收值,半衰期5.5d,7d后残留显著降低,21.6
政府与社会的关系,是衡量一个社会发育程度和社会自我管理能力的重要指标,也是影响政府管理功能的重要因素。公共管理社会化是20世纪70年代以来西方行政改革的主要内容之一,
<正>1997-1998年,笔者有幸参加那坡感驮岩遗址的发掘,收获甚丰。遗址的发掘出土了大量的石器、陶器、骨器及其它一些遗物,在众多的出土文物中,有两件残损的铸铜石范和一件完
《華嚴音義》是唐代產生的一部音義書。流傳至今的版本共有29種,分為二個系統,一是《慧苑音義》系統,另一是《古寫本華嚴音義》(下簡稱《古寫本》)系統。《古寫本》和藏經内
环境监察是一项具体的、专业性较强的环境保护执法行为,也是新时期实施环境监管的重要途径。当前,环境问题突出,需要从提升环境监察人员队伍思想素质、业务素质,增加环境监察
我国拥有粗苯加工装置的企业约有40多家,粗苯年加工能力约70万吨,我国粗苯精制工艺大多采用硫酸洗涤法,该工艺年产生废酸约5万吨。目前,废酸的处理方式有两种,一是直接外排,
为解决嵌入式系统中便携式存储设备的大容量数据存储问题,并便于对数据进行查询、读取及分析,系统采用具备SD卡插座的CortexM3处理器平台,分析了SD卡的驱动实现,并按照FAT32文件
在通用机场的规划和建设过程中,通用航空运输系统建设的综合规划机制可以极大的改善配套管理模式,通过规划提高机场建设效果。通用机场的规划和建设可以在各个方面加以提高目
随着电力行业的发展,建设变电站事业也在不断创新,变电设备信息技术和传感技术被广泛使用,运行容量也得到扩充。传统变电检修法已不适用于客观需求,会对变电站检修有害。在线
为了激发学生的听课兴趣、实现教学目标,培养学生的数学核心素养,文章从创设生活情境,培养数学意识;加强思维训练,提高探究能力;开展实践活动解决现实问题三方面出发,论述了