我们只能收集少量的数据进行分析
第二个特征:数据类型够多(Variety),数据形式包括文本、图片、视频、机器数据、地理位置等信息。
第三个特征:数据价值密度低(Value),以视频监控为例,在连续不间断的监控过程中,可能有用的数据仅有一两秒。
第四个特征:数据具有时效性(Velocity),数据处理速度快,即时输入、处理与丢弃,立竿见影而非事后见效,比如我们在百度输入一条查询信息,后台必须经过大量计算迅速呈现,而不需要等很长一段时间。”
“大数据”已经在各行各业衍生出形形色色的数据应用,而掌握大数据技术的意义也不在于掌握庞大的数据信息,而在于对这些有意义的数据进行专业化处理,这就需要我们好好掌握大数据思维。
7.1 大数据库时代的思维变革
在数字化时代,数据处理变得更加容易、快速,人们能够在瞬间处理成千上万的数据,但当我们谈论能“说话”的数据时,指的远远不止这些,大数据库思维的转变还包括以下3个方面。
1.不是随机抽样,而是全体数据
很长一段时间以来,精确分析大量数据对我们而言都是一种挑战,尤其在过去,记录、储存和分析数据的工具不够好,我们只能收集少量的数据进行分析,这让我们一度很苦恼。为了让分析变得简单,我们会把数据量缩减到最少,在进行市场数据调研的时候,更多的是采取随机抽样的方法,而这种方法也是一种无意识的自省,因为这种随机抽样的方式只是在当时的技术条件下的一种人为的限制。如今,技术条件已经有了很大的提高,虽然人类可以处理的大数据库依然有限,拥有的也有限,但是我们可以处理的数据量已经大大增加,而且未来还会越来越多。
在信息处理能力受限的时代,世界需要数据分析,却缺少用来分析所收集数据的工具,因此,随机采样应运而生,它也可以被视为那个时代的产物。如今,计算和制表不再像过去那样困难,感应器、收集导航、网站点击等工具在不经意间收集了大量数据,而计算机又可以对这些数据进行处理。
在大数据处理之前,采样一直有一个被我们广泛承认却又总有意避开的缺陷,即采集样本的准确率,即使采集样本做到很精确,可能准确率高达97%,对于某些事物来说,3%的失误率是可以接受的,但是你可能无法观察到一些细节信息,甚至还会失去对某些特定的类别进行进一步研究的能力。
当通过互联网等设备,我们可以收集全面而完整的数据,并且对这些数据进行处理和分析,也就是说当“样本=总体”的时候,样本分析毫无意义,社会科学也不再依赖简单的分析实证数据,不再依赖过去曾非常依赖的样本分析、调研和市场调查,而是记录下每一个人的平常状态,收集过去无法收集的信息。
2.不是精确性,而是混杂性
在越来越多的情况下,使用所有可获得的数据变得更为可能,但为此也要付出一定的代价。数据量的大幅增长会造成结构的不准确,与此同时,一些错误的数据也会混进数据库。当然我们在运作过程中,要尽量努力避免这些问题,也从不认为这些问题是无法避免的。
如今,我们已经生活在信息时代。我们掌控的数据越来越全面,它不再只包括我们手头现有的一点点可怜的数据,而是包括了与这些相关的大量甚至全部数据。我们不再需要担心某个数据点对整套分析的不利影响。我们要做的就是接受纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。
当我们掌握了这些大量的新型数据时,精确性就不那么重要了,因为我们可以掌握事情的发展趋势。大数据不仅让我们不再期待精确性,也让我们无法实现精确性。然而,除一开始会与我们的直觉相矛盾外,接受数据的不精确和不完美,我们反而能够更好地预测,也能够更好地理解这个世界。
值得注意的是,错误并不是大数据本身固有的,它只是我们用来测量、记录和交流数据所使用的工具的一个缺陷;并且错误并不是大数据固有的,在我们随机抽取数据的时候也存在这个问题,并且可能长期存在。在面对这个问题的时候,因为我们拥有更大的数据所带来的商业利益远远超过增加一点精确性,所以通常我们不会再花大力气去提升数据的精确性,也就是说我们能接受不精确的数据存在。
大数据要求我们有所改变,同时我们必须能够接受混乱和不确定性,精确性似乎一直是我们的支撑,就像我们常说的“丁是丁,卯是卯”。但认为每个问题只有一个答案的想法是站不住脚的,不管我们承不承认。一旦我们承认了这个事实,则我们离真相就又近了一步。
3.不是因果关系,而是相关关系
知道“人们为什么对这些信息感兴趣”可能是有用的,但这个问题目前并不是很重要。但是,知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅是电子商务。所有行业中的销售人员早就被告知,他们需要了解是什么让客户做出了选择,要把握客户做决定背后的真正原因,因此他们的专业技能和多年的经验受到高度重视。大数据却显示,还有另外一个在某些方面更有用的方法,但对于电子商务运营人员来说知道“是什么”就足够了,没必要知道为什么。
另外相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础,通过找出可能相关的事