分布式大数据采集关键技术研究与实现

来源 :广东通信技术 | 被引量 : 0次 | 上传用户:lulu980232
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,针对大数据的挖掘与分析已经成为当今的研究热点。而数据集是大数据挖掘和分析的基础。因此一个有效的数据采集方案对大数据挖掘研究具有重要意义。提出了高效的分布式大数据采集系统。在该系统的解析模块中提出了一种通用有效的基于标签树节点权重的正文提取算法。同时引入IP代理池技术来保证系统的持续性。实验证明,本系统能够高效快速地获取大量的网络数据,且具有强的鲁棒性、可行性和灵活性。
其他文献
新闻记者是社会的守望者,是时代的瞭望者,本文就新闻记者的社会责任展开讨论,认为当前社会现实条件下,新闻记者的职业属性包括3个内容,分别是:正义的守望者、信息的传播者和
TD—LTE提升网络速率激发了信息化消费的增长,从而需要TD-LTE网络加速建设,而TD-LTE网络建设策略没有统一的标准。本文通过研究国外运营商Verizon Wireless的发展情况,主要从人
当今社会正处于转型阶段,趋于多元化、快速化发展,公众的观点、意见和行动复杂化发展,加之互联网络的蓬勃发展,在这种形势之下,党的新闻舆论导向工作面临新的挑战。本文就社
由广东家纺协会主办的深圳国际家纺布艺展,将于2009年3月在深圳国际会展中心举办。据介绍,2009年3月的深圳国际家纺布艺展将开辟6万平方米的展馆,实现展出规模的三级跳,同比增长3
码分多址技术(CDMA)是扩频通信技术一种,已经成为第三代移动通信主流技术,但仍有许多关键技术要解决,其中最关键的技术就是要克服CDMA系统中多址干扰(MAI)的问题。多用户检测技术可
电话会议服务作为跨国企业日常办公的必备工作,属于企业的刚性通信需求。目前电话会议服务在亚太、南美等地区的中小企业市场仍然有比较旺盛的需求,仍然有较大的市场空间。文章