基于随机森林的文本分类并行化

来源 :计算机科学 | 被引量 : 0次 | 上传用户:z675083421
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是信息检索的核心技术。传统的文本分类系统由于单机的计算与存储能力有限,已经不适用于大数据时代。在Spark大数据平台上并行地运行算法对文本进行分类,以数据和任务的并行化来提高算法的效率具有现实性和紧迫性。文中提出了改进的不平衡数据随机森林算法,通过对训练样本的多数类进行欠取样且对少数类进行有放回取样从而形成新训练样本的方法来减少不平衡数据对随机森林的影响。实验结果表明,新算法在处理不平衡数据集上的少数类时提高了分类的正确率。
其他文献
在数据传输时,间歇性连接的移动机会网络一般不存在从源到目的地的完整路径。为了加快数据在网络中的传输速度,大量的多副本路由协议相继被提出,但是这些路由协议很少考虑能
针对当前密文域图像可逆信息隐藏容量不足,可逆性不强且实现复杂、效率低下的问题,提出一种基于自适应的块参照值的密文域可逆信息隐藏技术。该技术对图像按照四叉树分割的方
针对云服务器上用户信息的隐私问题,提出一种基于属性代理重加密技术与容错机制相结合的方案。该方案将用户存储的数据分为文件和文件的安全索引,将其分别进行加密后存储在不
深度学习通过学习深层非线性网络结构即可实现复杂函数的逼近,可以从大量无标注样本集中学习数据集的本质特征。而深度信念网络(DBN)是由多层随机隐变量组成的贝叶斯概率生成模
同播光载无线分布式天线系统(Radio-over-Fiber based Distributed Antenna Systems,RoF-DAS)中,基站在下行链路采用同播方式向多个远程天线单元(Remote Antenna Units,RAUs)传输
经典的协同过滤推荐系统存在数据稀疏和冷启动问题。利用信任网络能够有效地解决此问题,但性能有待提高。根据"如果a信任b,则a与b相似度高的概率较大"这一普适规律,提出一种基
在无线网状网中,为使AODV(Ad hoc On-demand Distance Vector routing)路由协议支持流间编码并解决流间编码带来的负载不均衡问题,提出了一种优化的路由策略CLAODV(Coding-awar
针对无损信源编码存在误码扩散的问题,建立了以最大后验概率估计为基础的信源序列分段译码模型,设计了基于统计模型的容错译码算法。该算法充分利用了信源编码数据的残留冗余,较
不可区分关系是粗糙集理论的基础。首先,刻画了λ约简与最大分布约简、分布约简之间的相互关系,证明了λ协调集是最大分布协调集,也是分布协调集;其次,针对λ约简设计了一种
随着小型无人机的广泛应用,无人机的自动巡航能力至关重要。多点航迹规划作为复杂的无人机航行任务之一,要求为无人机规划出一条最优航迹或次优航迹,如距离最短、速度最快或