大数据安全指南,看《大数据安全标准化白皮书》怎么说?

发布时间:2017-04-17 作者:昂楷

  “动一下鼠标就可以在秒级操作PB级别的数据”,Google的一篇技术论文中的话让我们对大数据的数据量有了直观的感受。但很多人对大数据还很模糊,那么大数据有什么价值呢?为什么备受关注?大数据发展至今,带来了哪些问题?一起来了解一下。

  一、大数据的价值

  大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

  有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。

  大数据的价值体现在以下几个方面:

  1) 对大量消费者提供产品或服务的企业可以利用大数据进行精准营销

  2) 做小而美模式的中小微企业可以利用大数据做服务转型

  3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值


  二、大数据发展面临的安全风险

  大数据为企业赢得竞争关键的同时,也让很多人看到了另外的“商机”,数据丢失和个人信息泄漏事件频发,地下数据交易黑灰产造成数据滥用和网络诈骗,并引发恶性社会事件,甚至危害国家安全。

  2015年5月,美国国税局宣布其系统遭受攻击,约71万人的纳税记录被泄露,同时约39万个纳税人账户被冒名访问;

  2016年12月,雅虎公司宣布其超过10亿的用户账号已被黑客窃取,相关信息包括姓名、邮箱口令、生日、邮箱密保问题及答案等内容;

  2016年至今,全球范围内数以万计的MongoDB系统遭到攻击,大量系统被黑客索取赎金。

  《大数据安全标准化白皮书》通过对当前典型大数据应用场景以及大数据产业发展现状进行调研分析,总结出大数据发展面临的安全风险。以下为具体内容:

  (一) 技术平台角度

  1、传统安全措施难以适配

  海量、多源、异构、动态性等大数据特征导致其与传统封闭环境下的数据应用安全环境有所区别。大数据应用一般采用底层复杂、开放的分布式计算和存储架构为其提供海量数据分布式存储和高效计算服务,这些新大数据安全标准化的技术和架构使得大数据应用的网络边界变得模糊,传统基于边界的安全保护措施不再有效。同时,新形势下的高级持续性威胁(APT)、分布式拒绝服务攻击(DDoS)、基于机器学习的数据挖掘和隐私发现等新型攻击手段出现,也使得传统的防御、检测等安全控制措施暴露出严重不足。

  2、平台安全机制亟待改进

  现有大数据应用中多采用通用的大数据管理平台和技术,如基于Hadoop生态架构的HBase/Hive、Cassandra/Spark、MongoDB等。这些平台和技术在设计之初,大部分考虑是在可信的内部网络使用,对大数据应用用户的身份鉴别、授权访问、密钥服务以及安全审计等方面考虑较少。即使有些软件做了改进,如增加了Kerberos身份鉴别机制,但整体安全保障能力仍然比较薄弱。同时,大数据应用中多采用第三方开源组件,对这些组件缺乏严格的测试管理和安全认证,使得大数据应用对软件漏洞和恶意后门的防范能力不足。

  3、应用访问控制愈加复杂

  由于大数据数据类型复杂、应用范围广泛,它通常要为来自不同组织或部门、不同身份与目的的用户提供服务。一般地,访问控制是实现数据受控访问的有效手段。但是,由于大数据应用场景中存在大量未知的用户和数据,预先设置角色及权限十分困难。即使可以事先对用户权限分类,但由于用户角色众多,难以精细化和细粒度地控制每个角色的实际权限,从而导致无法准确为每个用户指定其可以访问的数据范围。

  二、数据应用角度

  大数据的一个显著特点是其数据体量巨大,而其中又蕴含着巨大的价值。数据安全保障是大数据应用和发展中必须面临的重大挑战。

  1、数据安全保护难度加大

  大数据拥有巨大的数据,使得其更容易成为网络攻击的显著目标。分布式的系统部署、开放的网络环境、复杂的数据应用和众多的用户访问,都使得大数据在保密性、完整性、可用性等方面面临更大的挑战。

  2、个人信息泄漏风险加剧

  由于大数据系统中普遍存在大量的个人信息,在发生数据滥用、内部偷窃、网络攻击等安全事件时,个人信息泄漏产生的后果将远比一般信息系统严重。另一方面,大数据的优势本来在于从大量数据的分析和利用中产生价值,但在对大数据中多源数据进行综合分析时,分析人员更容易通过关联关系挖掘出更多的个人信息,从而进一步加剧了个人信息泄漏的风险。

  3、数据真实性保障更加困难

  大数据系统中的数据来源广泛,可能来源于各种传感器、主动上传者以及公开网站。除了可信的数据来源外,同时存在大量不可信的数据来源。甚至有些攻击者会故意伪造数据,企图诱导数据分析结果。因此,对数据的真实性确认、来源验证等需求非常重要。然而,由于采集终端性能限制、技术不足、信息量有限、来源种类繁杂等原因,对所有数据进行真实性验证存在很大的困难。

  4、数据所有者权益难以保障

  大数据应用过程中,数据会被多种角色用户所接触,会从一个控制者流向另外一个控制者,甚至会在某些应用阶段挖掘产生新的数据。因此,在大数据的共享交换、交易流通过程中,会出现数据拥有者与管理者不同、数据所有权和使用权分离的情况,即数据会脱离数据所有者的控制而存在,从而会带来数据滥用、权属不明确、安全监管责任不清晰等安全风险,将严重损害数据所有者的权益。


  大数据应用带来安全风险,也为网络安全技术的发展提供了机遇与挑战。在危害社会的数据安全事件频发的同时,昂楷科技坚持为大数据提供大安全的理念,率先实现对Hadoop架构下HBase数据库的审计,并成功应用于国资委信息中心。科技的发展从来不会是一蹴而就的,这只是昂楷为大数据应用提供安全防护的第一步。昂楷将会在数据安全的道路上继续前进。


  链接:大数据的定义

  麦肯锡全球研究所给出的大数据定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

  简单的说,大数据是海量数据的高效处理。

  大数据相当于海量数据的“数据库”,而且通观大数据领域的发展也能看出,当前的大数据处理一直在向着近似于传统数据库体验的方向发展。

返回上一级

400-622-8990