基于中国在线食谱的探索式数据分析

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:liuln6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国在线食谱网站及应用的不断发展,越来越多来自不同地区的用户将他们制作的食谱分享到线上,为我们研究中国在线食谱提供了丰富的数据资源。中国作为一个地域广阔,人口众多的国家,孕育着丰富的饮食文化,衍生了多种菜系,其中最为知名的有中国八大菜系。目前基于数据驱动的中国食谱和烹饪(饮食)习惯研究还较少,我们通过数据采集技术爬取到了大量的在线食谱数据,并以这些食谱数据作为研究基础,对中国各大菜系展开探索式地数据分析。在本文中,我们对中国在线食谱从如下几个方面进行了探索。首先,本文对在线食谱的成分多样性展开分析,包括成分消费多样性及成分组合多样性;接着对中国各个菜系食谱的特色成分进行探索,并以词云的形式将结果进行可视化;其次,我们对中国在线食谱的复杂性从成分数量、烹饪时间、烹饪工艺三个方面进行了评估;再次,根据食谱的成分、口味、烹饪工艺这些特征,我们构造了食谱的特征向量空间,从而能通过文本相似度算法对食谱之间的特征向量进行相似性的分析,并通过可视化的技术进一步地探索它们所在菜系之间的关联性;最后,我们对在线食谱的辅料成分进行频繁项的挖掘,以探索经常使用的辅料成分组合。另外,互联网上对于标签的使用越来越频繁,一些社交软件如微博、推特上的许多内容都被赋予了多种标签,以方便话题搜索。而对于在线食谱而言,它们的附加标签表示的是食谱的膳食功能,例如“补钙”和“抗氧化”等。因此,对于多标签自动分类的业务需求也相应越来越广泛,而传统机器学习模型处理分类任务时通常需要繁琐的特征工程,并且它们大部分都是二分类模型,对于多标签分类任务的处理往往需要进行模型的调整和转化。为了取得更好的多标签分类效果,我们通过在深度学习平台上搭建卷积神经网络、循环神经网络,完成对在线食谱的多标签分类任务,并与传统机器学习分类模型进行性能对比。同时,为了进一步扩充在线食谱数据的训练样本,我们采用了文本数据增强技术,以期望获得更好的多标签分类效果。
其他文献
图像描述融合了计算机视觉与自然语言处理两个方向,是用人工智能算法解决多模式、跨领域问题的典型代表。目前该领域的研究大多数是基于编码器-解码器架构的神经网络描述模型
全无机卤化物钙钛矿纳米晶作为一种新型的半导体材料,因其在光电子器件方面具有潜在的应用价值,近年来受到了研究者们的广泛关注。但是,如何获得高质量高效发光的钙钛矿纳米
音乐剧是一门新兴的综合舞台艺术,原创音乐剧《水火心》是由音乐剧《虎门销烟》整合改编而成,以舞台表演、人物塑造的方式为基础,立足于中国传统审美的角度,运用了恰当的音乐
近年来,随着绿色、健康、共享出行理念的提出,公共自行车系统获得了蓬勃发展。截至2018年底,全球有1000多个城市建立了公共自行车系统。该系统具有绿色、低碳、环保等特点,可
湖北土陶作为日用陶器,极具地域性文化特色,整体呈现出古拙质朴、粗狂豪放的艺术风格,是民间艺术造型的自然生成和演变。花鸟纹饰作为湖北土陶的重要装饰题材之一,文化意蕴丰
近年来,全无机卤化物钙钛矿纳米晶已经在整个可见光范围内实现了高效发光,在光电领域显示出了巨大的应用潜力。然而,高效发光的纳米晶表面常常需要长链有机配体进行保护,这些
抽象危险犯作为危险犯的分支之一,因自身理论模型符合现代刑法发展的需要而备受立法欢迎。尽管抽象危险犯正当性依旧备受争议,但其在立法中呈现扩张的趋势,也是不可回避的事
聚类分析是一种重要的无监督学习方式,被广泛地应用于交通、金融、农业和医疗等实际领域中。但在聚类分析中,类簇数的确定问题一直都是一个难题。传统的引入聚类有效性指标的方法不仅具有倾向性,而且大都是基于二支划分的,如何在刻画数据对象与类簇之间的不确定性关系的基础上从多个角度确定最优类簇数依旧是一个问题。因此,论文展开了基于多有效性指标的类簇数自动确定方法的研究工作。为了能够从多个角度探索数据集的类簇数目
掺铝氧化锌(AZO)薄膜作为透明导电氧化物(TCO)薄膜的一种,具有较高的光电性能,并且由于其资源丰富,性能稳定,无毒,易于刻蚀掺杂等优点而备受重视,有广阔的发展前景。然而一般
近年来,量子点发光二极管(Quantum-Dot Light-Emitting Diodes,QLED)因其冷发光、色纯高、波长连续可调、以及与印刷显示天然适应的特点,继而受到学术界和工业界的青睐,有望