《影响中国大数据产业进程100人》第85期 黄晖:创新引领国内大数据分析挖掘发展
发布日期:2017-02-042016年3月,由中国首席数据官联盟发起,北京大学信息化与信息管理研究中心、中国新一代IT产业推进联盟协办的“影响中国大数据产业进程100人”大型人物专访活动全面启动,被采访对象分别来自政府、产、学、研、企各个领域,他们将从不同角度,不同层面向大家阐述当前大数据产业热点、难点、疑点问题,为中国大数据产业健康、持续发展探索经验、保驾护航!
黄晖,首席数据官联盟专家组成员,上海天律信息技术有限公司CEO。美国北卡罗来纳大学信息社会学博士、上海市信息学会会长、上海市领军人才、国务院特殊津贴专家。长期从事大数据分析挖掘和机器学习算法研究,带领团队成功开发出中国第一套大数据分析挖掘软件“马克威分析系统”和“马克威云挖掘软件”。曾任美国MBNA银行数据挖掘顾问、美国FirstUSA银行数据挖掘咨询顾问、美国医学科学院数据挖掘咨询顾问等,在北美的信息社会学以及数据挖掘领域拥有超过十年的工程和管理经验。
首席数据官联盟:作为大数据分析挖掘资深专家,近些年数据分析挖掘技术发展及工具变迁是怎样的?
数据分析挖掘技术的发展经历了五个阶段,最初的数据分析工具主要是针对关系型数据库和文本格式的数据集。当多个数据库出现以后,就有了数据仓库(Data Warehouse)的产生以及针对数据仓库挖掘分析的需求。当数据量达到TB和PB时,以Hadoop为代表的分布式数据存储和云架构蜂拥而出,针对云端大数据的分析挖掘逐渐成为主流。然而,Hadoop架构在处理实时数据时出现不足,随之出现了以SPARK为代表的分布式内存计算技术,解决了数据处理过程中实时性的问题。当前,流数据的处理和计算正收到欢迎,以STORM为代表的流式大数据处理技术受到越来越多人的关注。总而言之,数据分析挖掘技术随着数据量及数据形态的不断变化而不断进步。
就数据分析工具的演变和发展而言,大致可以分为三代:
1.数据找算法时代,即基于关系型数据库的分析软件:以SAS,SPSS和马克威分析软件为代表。
马克威作为国产分析软件,属中国第一套完全自主知识产权的全中文统计分析和数据挖掘软件。经中国统计学会认证,该软件的算法是科学准确的,计算结果与国际同类成熟软件的计算结果一致。
2.算法找数据时代,即分布式挖掘软件:以马克威运挖掘软件、Mahout以及部分R程序为代表;
在分布式计算时代,马克威已经超越了传统分析软件巨头。竞争对手变为开源组织R和Mahout。传统分析软件由于不能针对分布式集群进行分析挖掘而正在淡出新一代分析师的视野。而R和Mahout仅有少量分布式算法,且作为开源组织,他们不保证计算结果的准确性,不提供技术支持和售后服务,需要用英文写代码进行操作。马克威云挖掘软件已包含近百种分布式算法,且数量仍在不断增加,操作界面采用拖拽的方式建立工作流,不用写代码,中文界面便于操作,软件内包括模型库,可做到一次建模,多次利用,支持二次开发。
3.算法互联网平台化时代:以马克威算法交易平台为代表。
马克威算法交易平台(www.markwaymall.com)作为中国第一个大型数据分析算法和应用模型共享平台于2016年12月16日正式上线。该平台包含大量独立封装的数据分析和机器学习算法工具,适应各种运行环境,海纳各种行业大数据应用模型,汇集全球开源算法和工具软件,提供丰富全面的数据分析知识库,为数据分析和人工智能开发提供一站式服务,助力中国智能化的发展以及企业决策科学化。
首席数据官联盟:从数据分析到云挖掘再到算法交易平台,天律公司过去15年间进行了三次产品飞跃,可谓与时俱进。请问当时这些新品推出背后,您的商业推断和市场发现是什么?(换言之:您是如何做到的?)
在美国学习和工作期间,我曾参与多个数据分析挖掘项目,深刻体会到数据挖掘对于一个企业,乃至一个国家的发展具有无法估量的作用。而当时的中国还没有意识到数据挖掘的重要性,数据分析也仅停留在依赖国外软件的阶段,对于数据安全性及数据价值并没有特别关注。2001年,我回国创业,第一件事就是想填补中国数据分析行业的空白,打造一款纯国产的数据分析工具。2003年,马克威分析系统成功问世,当中国统计学会认证,该软件的算法是科学准确的,计算结果与国际同类成熟软件的计算结果一致时,我知道我的想法已经实现,马克威分析软件也在用户的口碑相传中不断应用于各个政府部门、企业及高校。
随着互联网的发展,当阿里开始初露头角时,我开始意识到下一波的数据分析技术将面临大数据的挑战,同时这也是马克威弯道超车,超越老牌数据分析软件的大好机会。因此,当阿里委托我们为阿里云飞天云平台开发一套分布式分析挖掘工具的时候,我们几乎是一拍即合的。当马克威云挖掘软件研制成功时,我们在大数据时代已经占据技术领先地位。
作为一家高新技术企业,技术的发展,产品的更新始终是我不断思考的问题。当越来越多互联网企业如雨后春笋般出现,当国家开始鼓励大数据产业发展时,当算法时代,算法经济,人工智能这些字眼越来越为人们所熟知时,我开始酝酿马克威算法交易平台的研制和发布问题。当资本追捧独角兽企业的时候,我看到的是蚂蚁的力量,既然算法是未来的发展方向,那么集大众的智慧一定会使中国在算法革命的浪潮中立于不败之地。为了打造一个汇集全球所有能公开获得的算法库和行业应用模型库,为各行各业的分析人员提供一站式服务,我将数据分析和挖掘算法以及行业应用模型开发成独立封装、适应各种运行环境的产品放在互联网上,以PGC的模式带动UGC的效应,旨在助力中国智能化的发展。
首席数据官联盟: 大数据最近几年才深入人心,作为国内最早开发分析挖掘软件的公司,在产品推广应用中曾经遇到哪些挑战和困难?后来是如何解决的?
的确,先行者和先烈者往往只有一步之遥。天律公司成立于2001年,当时国内市场对于数据分析挖掘的需求还没有显现,产品的应用范围也不是那么广泛。我们公司的发展只有一个秘诀,就是善于啃骨头。当国家统计局遇到CPI难题,当2010年上海世博会遇到人流预测难题,当大型企业遇到决策分析难题找到我们时,我们都能用专业的知识,丰富的经验以及过硬的技术超过预期的满足客户的需求,口碑就是最好的广告。
在企业发展的过程中,我们也遇到过人才被挖走,市场推广不力的问题。但最主要的问题还是思想理念的问题。企业的经营、政府的决策到底是以经验为主还是用数据说话,模糊决策还是精准科学决策。可喜的是,国内越来越多的机构和单位都在走向科学决策和精准服务。
因此,数据分析和挖掘技术越来越被采纳或受到关注。
首席数据官联盟:目前公司主要服务哪些行业客户?传统的套装软件售卖模式逐渐不合时宜,在客户拓展和服务方面有哪些新实践?
我们的客户分为三类,政府、企业以及高校,包括国家统计局、国家海关总署、国家商务部、阿里巴巴、天弘基金余额宝、宝武钢铁集团、中国海运集团、海南航空、中国电信、中国移动、华中科技大学、南京财经大学、中南大学等等。
作为一家专业化程度比较高的数据分析挖掘软件公司,我们的核心竞争力在于我们自主研发的算法。我们的产品远不止套装软件,我们的定位是算法时代数据智能的引擎。马克威算法交易平台的推出也预示着我们将来的市场不仅是垂直行业,横向领域崛起的数据交易所、各大云平台以及看似同行的大数据应用企业都将成为我们的服务对象。