人工智能&统计&大数据带动数据时代

人工智能与统计与大数据统计学是基础，是理论,大数据技术是工具,人工智能是思想.根据调研发现，目前企业对大数据及人工智能的人才从学历上来讲主要集中在大专，本科，而从人才技能要求上来讲主要集中在一下几个方面：具有数据思维的大数据人工智能人才从事数据挖掘工作，运用算法来解决和分析问题，让数据显露出真相，这就考验了数据工程师具有数据思维，对于数据灵敏的挖掘能力，挖掘出想要的有用的信息进行分析。具有大数据人

文章共5,993字 · 阅读需要大约20分钟

一键AI生成摘要，助你高效阅读

问答

jone1024

4233人浏览 · 2020-11-08 09:32:54

jone1024 · 2020-11-08 09:32:54 发布

人工智能与统计与大数据


统计学是基础，是理论,
大数据技术是工具,
人工智能是思想.

根据调研发现，目前企业对大数据及人工智能的人才从学历上来讲主要集中在大专，本科，而从人才技能要求上来讲主要集中在一下几个方面：

具有数据思维的大数据人工智能人才

从事数据挖掘工作，运用算法来解决和分析问题，让数据显露出真相，这就考验了数据工程师具有数据思维，对于数据灵敏的挖掘能力，挖掘出想要的有用的信息进行分析。
具有大数据人工智能技术的专业技术型人才

负责大数据系统的研发，包括大规模非结构化数据业务模型构建、大数据存储、数据库构设、优化数据库构架、解决数据库中心设计等，同时，还要负责数据集群的日常运作和系统的监测等。
具有丰富的跨学科知识

随着大数据向各行业的渗透，大数据从业者往往身兼数职，需要同时掌握数据技术和业务知识。如数据分析师，不仅要具备数据分析、数据挖掘和机器学习等能力，还要具备市场营销、商业模式、数据产品等方面的知识和技能。

高校大批大数据专业获批，专业建设人才培养存在种种困难

为了应对目前市场对大数据及人工智能人才的需求，2016年2月，北京大学、对外经济贸易大学、中南大学首次成功申请到"数据科学与大数据技术"本科新专业。2017年3月，第二批32所高校获批。2018年3月，教育部公布了第三批获批设立的数据科学与大数据技术专业的院校名单，此中，有250所高校新增了该专业。在专业建设火热的背后，师资力量不足、缺乏系统教材、在校培养与业界脱节等问题已成为横亘在大数据专业人才培育上的大山。
专业交叉性强，学习难度

数据科学是一门交叉学科，除了计算机相关知识，还需要有统计学、数学基础，以及一定业务知识，这无疑增加了学生学习的难度。
可借鉴经验及师资力量不足

数据科学是新兴学科，今年是数据科学与大数据技术本科专业获批的第三年，即便在高校中，专门研究此领域的老师也比较少，许多高校对于完整的数据科学人才培养体系还没有一套成熟的规划方案，而可以借鉴的经验也很少。
项目实操环境及内容欠缺

要进行大数据分析，首先必须有充足的高质量数据。然而，多数高校缺少企业项目实战案例和可以用于研究的商业数据，使得学生难以做到学以致用。

在这里插入图片描述

人工智能产业生态格局的三层基本架构如下(军规)：

底层为基础资源支持层，由运算平台和数据工厂组成；

中层为AI技术层，通过不同类型的算法建立模型，形成有效的可供应用的技术；

顶层为AI应用层，利用中层输出的AI技术为用户提供智能化的服务和产品。

每一层架构中，都有不同的企业参与，最终形成围绕AI技术，产品和服务的生态圈。

4.2.1专用领域人工智能生态圈的格局

1、基础资源支持层实现路径：运算平台+数据工厂

基础资源支持层通过部署大规模GPU与CPU并行计算构成的云计算资源池（定义为超级运算平台）来解决AI所需要的超强存储和运算处理能力问题，并辅以能够抓取到汇聚了人类智慧的海量信息的大数据工厂作为数据集，为AI技术层的实现提供有利支持。

超算平台负责存储与运算。人类没有记忆就没有关联，也更不用说决策与创造，而构成记忆的基础正是有极大存储能力的脑容量，那么机器要模仿人脑也必然首先要拥有庞大的存储能力，海量数据的积累最终让机器的“存储”形成类似于人类的“记忆”。

百度在发展人工智能的道路上，首先做的也是不断扩大其存储能力。

除了存储的绝对容量之外，运算处理能力是第二个需要提升的硬实力。

运算处理能力有两个方面，第一是服务器规模，第二是特征向量大小。所谓特征向量简单理解的话就是指将文本语音图像视频等内容转化为机器能够读懂的一连串关键数据，数据越多，机器学习的就会越好，但对服务器的压力也会相应加大。百度能够仅用两年时间从10万特征向量直接飙升到200亿，足以见得百度服务器技术实力的雄厚。在这个过程中，还需要解决大规模GPU和CPU并行计算所带来的错误率提升以及散热难度加大等问题，因此，是否能够搭建超算平台成为了人工智能企业的重要进入门槛。

数据工厂实现分类与关联。数据工厂会对数据进行基础性的加工，而这种加工又非常关键。从人类的记忆联想模式分析，要调取某部分的记忆，就会很自然的联想到某个词，某个画面，某个音乐等等就能记起很多事情。这是因为人类大脑的神经连接结构允许我们这样去检索，而机器是不允许的，数据存储在硬盘上，机器想要找到某个数据，必须一个个访问过去，机器没有分类的概念。如果需要机器理解用户的语言，这种搜索技术也依然要机器的大脑配合才能达到，对每一个词的定义应该是一个库，而这个库中的每一个词又都各自构成库，数据工厂所依托的搜索算法，就是在这么一个数据海洋中去为他们建立管理，然后去索引。数据工厂相当于人脑中的记忆关联过程：将某个词同时与其他词或是某个场景等等建立起动态关联的过程。因此，通过数据挖掘和搜索算法对数据工厂中的知识库和信息库进行分类与关联的技术能力同样是人工智能企业的重要进入门槛。

2、AI技术层实现路径：面向特定场景的智能技术多姿多彩

AI技术层的作用是基于底层提供的计算存储资源和大数据，通过机器学习建模，开发面向不同领域的应用技术，例如语音识别、语义识别和计算机视觉等。

中间层的运行机制和人类的思维形成过程高度相似，是从感知到思考再到最终的决策行动甚至是创造，核心是机器学习技术的应用。首先，感知环节需要连接的是人、信息和物理世界，通过传感器，搜索引擎和人机交互来获取建模必须的数据，相当于人类的感知过程。依托于底层的高性能计算和弹性存储能力，中间层对感知到的数据进行建模运算，相当于人类的思考过程。最终，应用层利用数据拟合出的模型结果，对智能应用的服务和产品端输出指令，指挥包括机器人、无人机、3D打印等在内的各种设备响应用户需求。尽管目前由于思考层面的计算存储能力和建模能力的不足，导致人工智能还无法达到和人类相接近的“智慧”程度，但也足以支撑包括语音识别、图像识别和知识图谱在内的各种AI技术在特定场景下的应用。

另外一方面，在具体的应用场景中，更为优化的算法和更为准确的背景知识库数据集等因素都有助于在不提升计算资源的前提下实现更优的结果。这就给众多专业领域的AI公司带来了巨大的市场机遇。我们看到，专用智能的商业化应用风生水起，在这个领域，巨头和新贵都处于同一起跑线上，产业格局会趋于分散，先入者优势明显。我们判断，在数据、算法、云计算资源等几个关键因素中，数据的获得以及算法的优化是先入者的护城河，能够帮助他们在专用领域的特定场景下，迅速实现AI的商业化应用，从而抢占市场。我们关注到国内市场已经出现了这样的局面：语音识别领域的科大讯飞、计算机视觉方面的格灵深瞳、语义识别方面的小i机器人、人脸识别方面的face++等等细分行业龙头，都在具体应用场景的技术结果上，实现了对百度、谷歌、微软和IBM等AI巨头的超越。

3、AI应用层实现路径：以Nest为代表的专用智能产品和服务风起云涌

专用智能的应用水平不断提升将推进智能产品和服务的智能化程度。为了能够满足用户需求，智能产品和服务需要多种不同的AI技术支撑：

（1）谷歌的无人驾驶汽车，在驾驶过程中需要计算机视觉对不同路况做出相应的决策。为了实现无人驾驶，车辆需要配置激光测距系统、车道保持系统、GPS惯性导航系统、车轮角度编码器等设备，通过收集到的数据实时生成前方路面的三维图像，并用计算机视觉技术判断潜在的风险。毫无疑问，脱离了谷歌大脑的计算机视觉技术的支撑，谷歌无人驾驶应用就是空中楼阁。

（2）再以Nest的智能温控技术为例。为了能够通过不断地观测和学习用户习惯的舒适温度来对室温进行动态调整，并节约能源，Nest安装了六个传感器，不停地对温度、湿度、环境光以及设备周边进行监控和衡量，它能判断房间中是否有人，以决定是否自动关闭调温设备。依托于强大的机器学习算法，Nest则能自己学习控制温度。在使用这款调温器的第一个星期，用户可以根据自己的喜好调节室内温度，此时Nest便会记录并学习用户的使用习惯。为了能让居室变得更舒适，Nest还会通过Wi-Fi和相关应用程序与室外的实时温度进行同步，内置的湿度传感器还能让空调和新风系统提供适宜的气流。当用户外出时，Nest的动作传感器就会通知处理器激活“外出模式”。毫无疑问，脱离了深度学习技术的支撑，Nest的智能温控是无法实现的。

（3）微信朋友圈的推送广告服务。微信朋友圈的信息流（Feeds）广告推送基于自然语言解析、图像识别和数据挖掘技术，通过分析用户朋友圈语言特性，以及朋友圈图片内容，根据对用户收入和消费能力的分析来刻画用户画像，并决定投放何种广告。信息流广告与社交平台上好友发布的信息形式类似，广告本身内容将基于微信公众账号生态体系，以类似朋友圈的原创内容形式进行展现，融合在信息流中，在基于微信用户画像记性定向的同时，通过实时社交的混排算法，依托关系链进行互动传播。如果没有自然语言解析和图像识别等AI技术的支撑，微信的信息流广告推送服务的用户体验将大打折扣。

通过以上三个例子，我们不难看出，智能产品和服务是否能够切中用户的痛点需求，依赖于人工智能技术在产品背后能够给予多大的支撑。当前的智能产品市场之所以出现产品热，需求冷的局面，主要的症结在于所谓的智能硬件大多是“伪智能”产品，只是把功能性电子产品加上联网和搜集数据的功能，例如以手环为代表的可穿戴设备，以智能机顶盒为代表的智能家居设备等等。我们认为，杀手级的智能产品和服务必然是建立在强大的AI技术支撑下的。AI具体应用层应该是以Nest及更为先进的智能产品和服务为代表。我们梳理了当前智能产品和服务产业链上主要参与公司，典型的战略布局分别有：

（a）以海尔和美的为代表的家电企业转型智能家居方向；

（b）以小米和360为代表的互联网新贵从硬件入口开始卡位；

（c）以百度和谷歌为代表的互联网巨头从AI技术发力打造生态圈；

（d）以海康威视和大疆创新为代表的计算机硬件制造商转型智能硬件的行业应用。

4.2.2 未来跨场景通用人工智能生态圈的格局

1、基础资源支持层实现路径：颠覆冯·诺依曼架构人脑芯片等技术将突破计算能力极限

未来的人工智能将致力于通过底层硬件架构的变革来实现。不同于现阶段底层对云计算的依赖，硬件模式将直接从芯片层面实现对人工神经网络的模拟，目标是构建一个硬件大脑。我们认为，这种突破将是下一代计算机科学的发展的重要方向。因为最近10年计算机科学更多关注的技术进步在于信息处理的标的这一层面，可以称之为“大数据”或者“数据大爆炸”时代。在不远的未来，数据大爆炸造成的结果是信息处理能力的瓶颈很快达到，因此，未来10年计算机科学的关注点将会转移到如何突破现阶段的计算能力极限，也就是颠覆冯·诺依曼的硬件架构。这个方向可能是AI在硬件设备上的一个终极解决方案，但从目前的技术成熟度上看，这条路径距离目标还有非常遥远的距离。目前已经看到的方向大致有以下三种：

（1）人脑芯片。2014年8月，IBM宣布研制成功了一款大脑原型芯片TrueNorth，主攻超级计算机专业学习领域。TrueNorth微芯片由三星电子为IBM生产，使用了三星为生产智能机和其它移动设备微处理器所使用的相同制造技术。IBM就该芯片的底层设计与纽约康奈尔大学（CornellUniversity）纽约校区的研究人员进行了合作。自2008年以来，这一项目获得了美国五角大楼高级计划研究局的5300万美元注资。这款芯片集成了100万个神经元和2.56亿个突触，与普通蜜蜂的大脑水平相当，而人脑平均包含1000亿个神经元和难以统计数量的突触。目前，这款芯片每秒每瓦可实现460亿次神经突触操作，它能像人脑一样去探测并识别模式。简而言之，当人脑芯片发现与字母不同部分相关联的模式时，能够将这些字母关联在一起，从而识别出单词和整句，但距离可以商用的智能化程度还遥不可及。除IBM外，芯片巨头英特尔、高通等公司也拥有了被工程师称之为“神经形态”（neuromorphic）的自主芯片设计。人脑启发软件公司Numenta创始人杰夫霍金斯（JeffHawkins）认为，类似TrueNorth这样的二元芯片未来将让位于能够更有效地模拟出人脑联系功能的芯片产品，找到正确的神经元结构需要经历多年的研究过程。

（2）量子计算。量子计算机是一种使用量子逻辑实现通用计算的设备。普通计算机存储数据的对象是晶体管电路的状态，而量子计算用来存储数据的对象是粒子的量子状态，它使用量子算法来进行数据操作。量子计算机的优势在于强大的并行计算速度。现在的计算机毕竟是二进制的，一遇到比较复杂的建模，像准确预测天气，预测更长时间后的天气等等，就会很费力费时；而超快量子计算机就能算，算得超快。因为当许多个量子状态的原子纠缠在一起时，它们又因量子位的“叠加性”，可以同时一起展开“并行计算”，从而使其具备超高速的运算能力。2014年，谷歌公司与科学家联手研制量子级计算机处理器，目的是未来使机器人像人类一样“独立思考问题”。但达到这个未来需要多久，目前我们还无法预知。

（3）仿生计算机。仿生计算机的提出是为了解决如何构建大规模人工神经网络的问题。通用的CPU/GPU处理神经网络效率低下，如谷歌大脑的1.6万个CPU运行7天才能完成猫脸的无监督学习训练。谷歌大脑实现模拟人脑的突触数量仅为100亿个，而实际的人脑突触数量超过100万亿。采用CPU/GPU的通用处理器构建数据中心，占地、散热以及耗电等都是非常严峻的问题。成本方面，这样级别的数据中心，除了谷歌、百度之外，其他互联网企业根本无力搭建。专门的神经网络处理器成为解决以上问题的钥匙。目前国内的陈云霁团队所搭建的寒武纪神经网络计算机正是基于仿生学的原理，通过寒武纪生物大爆炸中获取的线索，实现的无需访问内存，减少90%以上的片上通讯时间，并支持几乎现有主流机器学习算法的网络计算机。寒武纪神经网络计算机跟主流GPU相比，取得了21倍的性能和300倍的性能功耗比提升。

2、AI技术层的实现路径：通用智能实现跨场景的终极应用

在专用智能的时代，AI的技术应用是要针对不同的场景才能有效的。例如，格灵深瞳的计算机视觉技术，在安防视频监控领域可以识别出犯罪分子的异常行为举动并予以报警，但换做是商场中，格灵深瞳的三维摄像头就无法识别出客户的性别年纪等特征，并根据客户在不同柜台中逗留的时间，分析出客户可能偏好的产品并向其推荐。这两个应用场景其实都是依托于计算机视觉技术进行识别和响应的，但是专用智能时代，受到计算能力和建模能力的约束，同样的计算机视觉技术却无法解决跨场景的应用。

在未来，通用智能到来后，AI技术层的普适性将极大地提升。同样一个视频监控的摄像头加上背后的计算机视觉的云平台，放在不同的场合中，就能够根据用户不同的需求进行不同的识别并做出智能化的决策行为。这种终极应用的到来，必须依赖于计算资源上突破现有的能力极限，并且在建模上超越现阶段的深度学习算法的极限，真正让AI像人类一样去观察和思考并做出行为决策。

我们认为：在通用智能时代，进入门槛最高，护城河最宽的是底层AI资源支持的平台企业；其次是技术层中在细分领域具备核心竞争力的领先企业；门槛最低的是应用层的企业，标准化程度越高意味着同质化竞争越激烈，但消费电子的产品属性也将允许差异化竞争的空间。