
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
大数据的认识
今天昆明达内培训小编为大家介绍一下大数据,和对大数据的一个基础的认识。
一、数据——人类建造文明的基石
如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力的话,那么数据将成为下一次技术革命和社会变革的核心动力
广义的数据(或数据的真实)的含义:互联网行的任何内容,如文字,图片和视频都是数据;医院里的含医学影像在内的所有档案是数据;公司和工厂的各种设计图纸也是数据;出土文物上的文字、图示,甚至它们的尺寸、材料也都是数据;信件、电话、电子邮件等都是数据。
数据与信息的区别:信息是关于世界、人和事物的描述,它比数据来的抽象。信息你即可以是我们人类创造的,也可以是天然存在的客观事实。并非所有数据都承载了有意义的信息。
数据中隐藏的信息和知识是客观存在的,但是只有具有相关领域专业知识的人才能将他们挖掘出来;对数据?呃信息进行处理后,人类就可以获得知识,知识比信息更高一个层次,也更加抽象,它具有系统性特征。
数据的作用:文明的基石。人类的文明过程伴随着的流程:获取数据——分析数据——建立模型——预测未知。因而可以说,数据是人类文明的基石。
相关性:使用数据的钥匙。数据和所想获得的信息之间的联系通常是间接的,它要通过不同数据之间的相关性才能体现出来,相关性是让数据发挥出作用的魔棒。
统计学:点石成金的魔棒。越想要得到准确的结果,需要的统计数据量就越大,统计还除了要求数据量必须充分以外还要求采样的数据具有代表性。
数学模型:数据驱动方法的基础。数学模型的简单化,其理论基础为:当数据量足够时,就可以用若干个简单的模型取代一个复杂模型,这种方法被称为数据驱动方法。
要建立数学模型就要解决两个问题:选择模型,模型的参数。如果一开始模型远得不好那么以后修修补补就很困难,有了模型之后就要找到模型的参数,以便让模型至少和以前观察到的数据相吻合。
找到模型的参数再过去不被重视,但在今天它又有了一个比较时髦而高深的词——机器学习。
二、大数据和机器智能
在有大数据之前,计算机并不擅长于解决需要人类智能的问题,但今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新的一轮技术革命——智能革命。
什么是机器智能?能够通过图灵测试的机器都可以称作机器智能,而符合以下几种的情况中的一种,就可以认为它有图灵所说的智能:
语音识别
机器翻译
文本的自动摘要或者写作
战胜人类的国际象棋冠军
自动回答问题
使用统计学方法+大数据的方式开始了现代人工智能的新的研究方法。
大数据big data的特征:
体量巨大。量大到足以消除不确定性。
3V特性:Vast 大量、Variety 多维度、Velocity 及时性。互信息,交叉验证。
全面性、完备性。两个数据源一致,交叉熵为零。即设置模型和用模型的是一个数据源。
Big,not Large or Vast. 相对小的大,抽象意义的大。
三、思维的革命
在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。
思维方式决定科学成就,从欧几里得、托勒密到牛顿。基于逻辑推理的公理化系统不仅为几何学、数学和自然科学后来的发展奠定了基础,而且对整个西方人的思维方法有着极大的影响。
人们将牛顿的方法论概括为机械思维,其核心思想可以概括成以下几点
世界变化的规律是确定的
因为有确定性做保障,因此规律不仅可以被认识的,而且可以用简单的公式或者语言描述清楚
这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践
机械思维直接带来了工业大发明的时代
机械思维的重要特征就是所有问题有一个通用的解决方案
香农提出的信息论借用了热力学中熵的概念,它与机械思维截然不同,它是建立在不确定性基础上,这种思路成为信息时代做事情的根本方法。
香农第一定律:对于信源发出的所有信息设计一种编码,那么编码的平均长度一定大于该信息的信息熵,但同时香农指出,一定存在一种编码方式,似的编码的平均长度无限接近于它的信息熵。这带来一种方法论,经济学上的吉尔德定律,即尽量多地采用便宜的资源,尽可能节省贵的资源,与信息论中的霍夫曼编码从本质上讲是相同的。信息时代,由于摩尔定律的作用,计算机是便宜的资源,而且越来越便宜,人力成本则会越来越高。因而计算机逐步替代人的工作。
香农第二定律,信息的传播速率不可能超过信道的容量。商业中人脉就是人与人交往的带宽。
昆明达内培训小编认为世界的不确定性:主观方面的和客观方面的两因素。首先,我们对这个世界的方方面面了解得越来越细致之后,会发现影响实际的变量其实非常多,已经无法通过简单的办法或者公式算出结果,因此我们宁愿采用一些针对随机事件的方法来处理他们,人为地把他们归为不确定的一类。不确定性的第二个因素来自客观世界本身,它是宇宙的一个特性。
信息论中的最大熵原理:当我们要对未知的事件寻找一个概率模型时,这个模型应该满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。这个已经不同于我们使用了几百年的“大胆假设,小心求证”方法论!
大数据时代的思维:因果关系转变为强相关关系。数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上而取代原来的因果关系,帮助我们得到我们想知道的答案。Google公司的成功不仅仅是技术、是数据,而是采用大数据思维。不再花费大量时间和资源去寻找确定的因果关系,而是通过从大量数据中挖掘相关性,直接用于产品。
想要获取更多相关资讯敬请关注昆明达内培训网站。