微信说科研&微言谈教育 教育专栏 > 微言谈教育专题 > 图文动态 > 正文

大数据是互联网时代的重要资源

来源:山西十一选五计划网
作者:李志民

20170508110107549.jpg

教育部科技发展中心主任李志民(图片来源:互联网)

  在这个互联网时代,数据技术时代,大数据(Big Data,BD)是构成信息化世界的基本元素,组成了互联网上纷繁庞杂的知识和数据资源。通过合理的挖掘工具进行分析处理,可以形成国家、企业、机构管理运营的策略指南,可以是科研中的离子对撞机每秒运行产生的量子世界,也可以是有效避免和防范自然灾害的预警机制,还可以是反对恐怖主义的有力武器……

  一、大数据概念的起源

  1980年,未来学家阿尔文·托夫勒将大数据称作“第三次浪潮的华彩乐章”;

  2005年,Hadoop项目诞生,从技术层面上搭建了一个使对结构化和复杂数据快速、可靠分析变为现实的平台;

  2008年起,“大数据”成为互联网信息技术行业的高频词汇;

  2011年,IBM的沃森超级计算机每秒可扫描并分析4TB的数据量;同年,麦肯锡第一次全方面地介绍和展望大数据;

  2012年,美国软件公司Splunk成为第一家上市的大数据处理公司;

  2014年,世界经济论坛以“大数据的回报与风险”为主题发布了《全球信息技术报告(第13版)》……

  大数据从哪里来?大体可以简单概括成以下几类: 第一,物质世界本身数字化产生的大数据,例如一些医疗服务类网站,将医生信息、门诊信息等现实事物数字化,形成了大量网络数据;第二,互联网交流不断产生的大数据,大量移动电子终端设备的出现,更加剧了互联网信息制造的速度;第三,各种数据的积累、沉淀、及保存产生大数据,随着科技进步,时代变化,高性能存储设备日益发展普及,使越来越多的数据得以持续保存,形成越发庞大的数据集。

  二、大数据究竟指什么?

  大数据,顾名思义,海量数据或巨量数据。不同机构有不同的定义,基本上大同小异: Gartner公司认为“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”;麦肯锡全球研究所认为,大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。

  大数据有四个特点: 第一,数据体量巨大,可以称之为海量或天量;第二,数据类型繁多,涉及到人类生活方方面面所产生的数据源;第三,处理速度快,瞬间可从各类数据中快速获得高价值的信息;第四,数据动态变化,不断有新数据增加,采用合理的数据模型和分析处理方法,将会带来很高的经济和社会效益。

  究竟大到多少才算是大数据?从数字上说,到2012年,互联网数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。据估计,到2020年,全球数据量将达到2015年的44倍,增长速度超过摩尔定律。

  根据维基百科的定义,大数据的大小从TB到PB级别不等。然而,到目前为止,尚未有一个公认的标准来界定“大数据”的大小,其数据价值才是大数据的存在意义。换句话说,“大”只是大数据的一个表示容量的特征,并非全部含义。

  三、大数据的意义与应用

  刚刚过去的十一月,本人有幸当面请教数据库创始人、图灵奖得主Micheal Stonebraker,他认为,大数据这个词事实上是一些做营销的人发明的。提到意义、提到价值,首先就要将大数据联系到企业组织与管理方面,对大数据的合理解析可以帮助他们降本增效、做出更明智的市场决策,可以利用大数据进行精准营销与投资规划等等。

  大数据分析相比于传统的数据挖掘分析,具有数据量大、查询分析复杂等特点,大数据与云计算密不可分。大数据需要结合新的处理模式才能产生具有更强的决策力、流程优化能力等多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息,而在于掌握对这些含有意义的数据进行专业化处理的技术。

  如果将“大数据”在经济发展中的意义当作其全部价值,那确实有些坐井观天,违背大数据的内涵本身了。大数据在当前为人们发掘利用,对社会、军事、生活等众多领域所产生的影响既具有广度又具有深度。例如:许多国家政府机构建立了用于身份管理的生物识别数据库;美国政府通过启动Data.gov网站的方式进一步开放了政府数据的大门;欧洲一些领先的研究型图书馆和科技信息研究机构致力于改善在互联网上获取科学数据的方便性等等。不难看出,大数据作为一种重要的战略资产,已经不同程度地渗透到各个行业领域和部门,其深度应用不仅有助于企业经营活动,还有利于推动国民经济发展,可以说,大数据是一种反映社会竞争力的软实力,是一种无形的资产,是一件隐形的武器,蕴含着很多占领先机的优势。

  大数据的特色在于对海量数据进行分布式数据挖掘,它必须依托互联网的云服务进行分布式处理、分布式数据库和云存储等。如果把大数据比作一种产业,那么这种产业实现盈利的关键是提高对海量数据的“加工能力”。简单地说,大数据技术就是从各种各样类型的数据海洋中,快速获得有价值信息的能力。


访谈视频
访谈嘉宾
分享