首页 资讯▪软件 技术•资讯 大数据关键技术---数据采集

大数据关键技术---数据采集

[  发表时间:2020-12-09 20:33:11    信息来源:九剑网络  ]

来源:https://zhuanlan.zhihu.com/p/43988449

大数据开启了一个大规模生产、分享和应用数据的时代,它给技术和商业带来了巨大的变化。

麦肯锡研究表明,在医疗、零售和制造业领域,大数据每年可以提高劳动生产率0.5-1个百分点。

 image.png

大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。

大数据关键技术

大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

然而调查显示,未被使用的信息比例高达99.4%,很大程度都是由于高价值的信息无法获取采集。

如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一。

因此在大数据时代背景下,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一,数据采集才是大数据产业的基石。那么什么是大数据采集技术呢?

image.png

什么是数据采集?

▷数据采集(DAQ): 又称数据获取,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程。

数据分类新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其分为线上行为数据与内容数据两大类。

▷线上行为数据:页面数据、交互数据、表单数据、会话数据等。

▷内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。

▷大数据的主要来源:

1)商业数据

2)互联网数据

3)传感器数据


 image.png


数据采集与大数据采集区别

传统数据采集

1. 来源单一,数据量相对于大数据较小

2. 结构单一

3. 关系数据库和并行数据仓库

大数据的数据采集

1. 来源广泛,数据量巨大

2. 数据类型丰富,包括结构化,半结构化,非结构化

3. 分布式数据库

image.png

传统数据采集的不足

传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。

对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性。

大数据采集新的方法

▷系统日志采集方法

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

image.png

▷网络数据采集方法

网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。

该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。

它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。

▷其他数据采集方法

对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

image.png

声明:本网(www.9jit.com)所刊载的所有信息,包括文字、图片、课件、软件、声音、相片、视频、图表,广告、商业信息及电子邮件的全部内容,除特别标明之外,版权归九剑IT网站所有。未经本网的明确书面许可,任何单位或个人不得以任何方式作全部或局部复制、转载、引用,再造或创造与该内容有关的任何派生产品,否则本网将追究其法律责任。 本网凡特别注明稿件来源的文/图等稿件为转载稿,本网转载出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。如对稿件内容有疑议,请及时与我们联系。 如本网转载稿涉及版权问题,请作者在两周内速来电或来函与我们联系,我们将及时按作者意愿予以更正。
× 关注公众号 送VIP邀请码

关注公众号 送VIP邀请码

会员登陆

captcha
下次自动登陆 忘记密码?
×
—— 还没帐号?点击注册! ——