【摘 要】
:
随着移动互联网和大数据的发展,数据流量已经成为了各行业的竞争目标。近年来,文本数据在推荐、搜索和数据挖掘等领域的应用受到了广泛的关注,而文本数据的结构化和大批量处理数据都成为了这些领域的热门研究方向。因此,面对推荐场景下的文本数据结构化及批量处理研究具有十分重要的意义。本文针对推荐场景中推荐结果不精确的问题,对文本数据结构化和批量处理进行研究,其主要内容包括:基于多元混合模型的文本数据结构化分词算
论文部分内容阅读
随着移动互联网和大数据的发展,数据流量已经成为了各行业的竞争目标。近年来,文本数据在推荐、搜索和数据挖掘等领域的应用受到了广泛的关注,而文本数据的结构化和大批量处理数据都成为了这些领域的热门研究方向。因此,面对推荐场景下的文本数据结构化及批量处理研究具有十分重要的意义。本文针对推荐场景中推荐结果不精确的问题,对文本数据结构化和批量处理进行研究,其主要内容包括:基于多元混合模型的文本数据结构化分词算法、基于字面和增强提取的文本数据结构化相似度算法、基于分布式集群的结构化数据批量处理算法和面向推荐场景下的系统设计与实现。针对文本数据结构化中分词算法存在语义错误的问题,本文在基于统计的分词算法基础上进行改进,提出了基于多元混合模型的文本数据结构化分词算法。该算法完善底层语料库,在基于一元和二元模型的算法上,再融合基于混合模型的算法,实验结果证明该算法能有效提升分词的准确性。针对文本数据结构化中文本相似度算法存在并列排序,结果不精确的问题,本文在现有的相似度算法上改进,提出了基于字面和增强提取的文本数据结构化相似度算法。该算法在基于字面的相似度算法上,再融合增强提取算法,有效提升了计算关键词的精准度,且得到的正排索引和倒排索引结果更好。针对处理文本数据量过小的问题,本文在离线批处理算法上进行改进,提出了基于分布式集群的结构化数据批量处理算法。该算法深入分析基于进程的批量处理算法和基于多线程的批量处理算法,选择相对较优的多线程框架进行改进和深度优化。实验结果证明该算法能够同时处理海量数据,有良好的稳定性和防止数据倾斜的能力,并且针对结构化数据的处理速度快效果好。针对推荐场景中存在推荐结果相关性弱,个性化不强的问题,本文对系统重新设计,提出了较为完整的推荐系统。本系统包括架构、业务、开发和算法等方面,从前端、后端、数据库的搭建和开发,再到推荐算法的实现。实验结果证明本系统有较好的推荐结果,可以做到利用海量数据对用户进行个性化推荐,具有良好的稳定性和实际应用性,有很好的实用价值。
其他文献
目的 探讨血清甘油三酯(TG)及总胆固醇(TC)检测在诊断非酒精性脂肪肝(NAFLD)中的应用价值。方法 选取南阳市中心医院2018年10月至2021年10月收治的30例非酒精性脂肪肝患者设为NAFLD组,31例酒精性脂肪肝患者设为AFLD组,另选取同时间段内来本院健康体检者30例作为对照组,收集各组患者的血液样本,检测血清TC及TG水平,分析其对NAFLD的诊断效能。结果 NAFLD组与AFLD
钢包精炼炉是实现钢水精炼的重要工艺设备。合金化控制是钢包精炼炉的一项工艺任务。然而长久以来,现有的合金添加优化模型在实际应用中并没有取得良好的效果,人们依赖于人工经验来给出合金投料设定值,这样不能合理地优化合金加料方案,不利于对钢水进行窄成分控制,甚至会影响钢材的质量。为此,本文对精炼炉合金添加优化模型进行了深入研究。在分析现有合金添加优化方法的基础上,以合金成本最低为目标,基于物料守恒,建立了基
随着我国城镇人口剧增,人均土地占有面积急剧减少,停车难已成为很现实的问题,立体车库可以大幅节约车位用地面积,在相同面积下提供更多的车位。其中,垂直循环式立体车库具有停车密度高、布置灵活、运行经济等特点,研究垂直循环立体车库运作优化的问题具有很好的理论与应用价值。在本文中,针对垂直循环立体车库中的存车和取车用户等待时间较长、车库能耗较高等问题,对这种新型的立体车库的运作方式进行建模,根据模型特点选取
电磁层析成像(Electromagnetic Tomography,EMT)技术作为一种新型的电学层析成像(Electrical Tomography,ET)技术,具有非接触,非介入,成本低等优势,因其对电导性和磁导性的物质比较敏感,所以,在工业生产测量过程、生物医学以及无损检测等领域,都有很大的应用前景。EMT技术是以电磁感应原理为基础,对电磁线圈施加交流电流激励,交变的电场会产生电磁场,在产生
电机是当前应用最广泛的供电设备和驱动装置,很多大型厂区都要用到电机。由于长时间高强度的运转,电机不可避免的要发生一些故障。工业生产过程中,电机出现故障的频率相对较高,作为一种由轴承、定子、转子等组成的综合电气设备,造成其故障的原因及类型多样,其中,轴承故障最为常见,因此,对于电机轴承的故障诊断具有良好的理论和实际意义。传统的轴承故障诊断依靠技术人员的技术和经验积累,但存在很多无法处理和及时判断的情
机器人智能地完成装配任务从而代替人类的手工作业,在机器人诞生之初便是人类追求的目标。而目前机器人在工业生产中多用于搬运、焊接、打磨等粗加工领域,而在需求高精度的装配领域,机器人尚未广泛应用。在当今时代背景下,装配越来越需要机器人体现出智能化,尤其在3C行业等领域,小批量、定制化、短周期成为机器人装配的最大挑战。随着人工智能技术的发展,AI(Artificial Intelligence)算法可以赋
在过去的十几年中,多智能体系统的协同控制问题因其在智能电网、机器人或者无人机编队以及卫星群等工程系统中的广泛应用而受到了大家的关注。一致性问题是协同控制的基本问题之一,其目标是通过为每个智能体设计合适的分布式控制算法以使得所有智能体的状态(或输出)趋近于同样的值。领导者跟随一致性问题是令所有跟随者智能体的状态渐进地跟踪领导者智能体产生的状态轨迹,而无领导者的一致性问题则是使所有智能体的状态渐进地同
长周期光纤光栅是指纤芯折射率周期性调制的光纤光栅,纤芯基模与同向传输的各阶次包层模式耦合,是一种透射型的光纤无源器件。长周期光纤光栅的谐振峰对外界环境的应变、温度和弯曲等变化响应灵敏、分辨率高,同时由于光纤具有的良好物性如抗电磁干扰、耐高温、耐腐蚀、质量轻且格低等优点,可以作为一种理想的传感器,被广泛应用于电力、海洋船舶、航空航天、核工石化、医疗生物等各个领域。本文依据模式耦合理论并结合传输矩阵法
随着现代工业的科技化进程不断加快,各行业对于电力设备的需求越来越高,大量的电力电子设备的使用降低了电网的电能质量。正常运行的电网也会受到很多谐波元件的谐波影响。如何解决电网中的谐波与电力污染受到了广泛的关注。解决电网谐波与无功污染问题的有效途径,就是利用有源功率滤波器,进行电网中谐波分量的消除。本文研究了三相三线并联型有源电力滤波器的几种补偿策略,主要研究内容如下:首先,对谐波产生的原因、谐波对于
目的 分析血清脂蛋白α及胱抑素C与2型糖尿病(T2DM)患者非酒精性脂肪肝(NAFLD)的相关性。方法选取该院2019年5月—2021年7月接收的136例2型糖尿病患者作为研究对象,依据是否合并非酒精性脂肪肝分为单纯T2DM组(48例)与合并NAFLD组(88例),比较两组血清脂蛋白α、胱抑素C及血脂水平,采用Pearson相关性分析探究脂蛋白α、胱抑素C水平与高密度脂蛋白(HDL-C)、低密度脂