假数当道，谁比谁更假！

By 吐了一地 at 2017-05-11 • 0人收藏 • 393人看过

　　有人说，当一个行业人人都在谈数据时，这个行业离死也不远了。　　在这个人心浮躁的时代，各行各业都充斥投机资本不断吐出的泡沫。科技越来越进化，人性却越来越退化，处处依赖机器与数据，却忘记了去分析事物的本质。　　不可否认，数据已经成为现代商业不可分割的一部分，但人人却也陷入了数据的迷雾，动辄强调“用数据说话”，甚至陷入“唯数据论”，不看事实、不看现象、不闻，走向任何结论都要靠数据说话的极端。　　言必称数据且大者，实际上忘却了数据的根本。任何行业新盛的核心原因，都是人的创造力，数字只是锦上添花的推动力。当你不假思索地拾起遍地皆是的数据并且加以应用，那么，在绝大多数情况下你都会死的更惨。你真的相信市场调研？样本偏差可以颠覆调研结果　　逻辑上讲，大多数市场调研的本质都是等距抽样，就像我们要看清下面一张图，我们需要看到每个像素的信息，才会看的非常清晰。但如果费用或者其他资源让我们没有能力看到每个像素，我们就必须采取抽样的方式，也就是每个一个固定的举例，扫描图片上的一个点，然后把这些点按照原来的相对位置加起来，最终我们看到的就是一张打了马赛克的有码照片。　　但在实际的市场调研中，往往受到预算或者抽样能力的限制，我们最常犯的错误有两种：其一是受制于预算约束，我们只能抽取很少的样本，这样我们看到的就是一张马赛克很厚的图片。由高清无码到薄码影片已经是一种不爽，但是由薄码一下子变成了厚码影片，你说看片的人会是何种感受？　　第二种常见错误就是抽样范围不合理，尤其是当今社会，愿意接受调研的人原本就是少数，最终你调研可以抽取的样本全都是一小部分特定群体，最终反馈回来的图像就像看了之前被广电总局剪辑过的大头贴一样。人的真实需求远非数据可以回答，用户都不知道自己的未来　　除了样本偏差等客观条件制约外，还有调研对象——人的主观因素。人是很复杂的一类动物。以调研问卷为例，可能产生误差的原因就是，每道问题其实都是带有情感色彩的，虽然相同的含义，但换一种问法通常会得到完全不同的答案，提问本身就会产生偏差。　　大家都希望通过数据调研来预测未来，但事实是，用户都不知道自己的未来。这也是普遍做样本调查容易产生的误区。　　如果时间前溯10年，你问一个用户，你会去买苹果手机吗？他肯定会说，你是不是疯了。但是当真的很酷的苹果手机放到他手上，他才会有感觉。这是有真实案例的，十几年前，手机还叫大哥大，还是大款们才特有的玩物，真有调查公司跑到路边采访行人，说你需要买手机吗，行人纷纷表示不需要。他们不知道这玩意对他们人生的改变有多大。10年前，又有类似的事情，上网当时被认为是不务正业的表现，报纸媒体开始忧心忡忡年轻人的网瘾和被网络的伤害；然后又有媒体去采访，很多人表示，上不上网无所谓。这些都是当年一些新闻电视里出现过的典型场景。如果你相信，你就真完了。凡是和计算机相关的数据，都可以造假　　计算机的普及以及互联网的飞速发展，使得互联网广告行业以及基于此的效果评估等第三方公司，都得到了空前繁荣。在这个数据为王的时代，数据造假也如同癌症一样，侵入到各行各业的缝隙中，有人甚至提出这样的观点：凡是和计算机相关的数据，都可以造假。刷量遍地而在，互联网反造假的监测成本太高　　我们说个微信公众号自媒体的例子吧，自从阅读数出现之后，微信的很多数据就出现在了人们的眼中，当然随之而来的另一个弊端就是刷量平台应运而生，很多账号存在阅读量造假的问题，但是阅读量造假这事儿目前来说还没有平台监测可以做到，因为服务器成本太高，且并无多大意义，本身互联网的水就很深，所有内幕大白于天下终归是不好的。　　真正能够监测到阅读量造假的技术是将监测阅读数的时间无限细分，时间段无限取中位数，最后描绘出较长时间周期内的阅读走势。而这样以来会大大增加服务器的成本，刷阅读量的服务器成本是远远低于监测成本的，因而有人感叹：有水分的互联网还是不要太过吹毛求疵的好，睁一只眼闭一只眼，你高兴我也自在。数据逻辑更改，可以使点击率高估一倍　　点击率欺诈是互联网的热门话题，但这里却有很多细节并非如大家想象那样。比如，我们通过可控的客户端采样监测，得到了一定样本的，包含google搜索url特征的日志记录，得到google的搜索量；同样的样本下，采集到包含google adwords广告url特征的日志记录，得到google的广告点击数。那么，理所当然&一厢情愿的用点击数/搜索量，得到点击率。　　但是，这个点击率是显著错误的，理由是，google的adwords广告点击，并不只发生在google的搜索结果中！当时的情况是，点击率被高估了一倍。（其实已经区分了adsense和adwords广告点击的url特征，但是adwords也会出现在其他网站。　　对数据逻辑及相互关系的理解不透彻，就会带来错误的解读。单纯数据推算，可能与实际结果背道而驰　　我们来举个简单的例子，当欺诈点击出现时，业界又提出反欺诈点击的方法来应对。简单来说，就是用一定的点击过滤策略来进行。当你引入一种新的过滤策略，势必会带来更加严格的过滤，于是按照新的策略跑一遍旧的日志，得到结论，额外过滤了若干点击，价值若干，会导致收入下降若干。　　但是这个结论是彻底错误的。当严格的策略执行之后，客户对该系统信心增加，竞价价格提升，广告预算提升，收入不降反升。　　但这种单方面做数据推算，却忽略了与用户、客户的交互影响，最后导致做出错误的推断。数字化生存时代，我们是否有足够的能力来处理数据？　　即便是作为科技领域的执牛耳者，谷歌的大数据预测也是不准的。为什么呢？发表在2014年3月14日《科学》杂志上的一篇文章指出了两个主要原因。一是大数据浮夸，二是算法变化。大数据浮夸指的是，以为大数据可以完全取代传统的数据收集方法，而非作为后者的补充。大数据浮夸的最大问题在于，绝大多数大数据与经过严谨科学试验得到的数据之间存在很大的差异。　　另外，搜索引擎算法的改变和用户的搜索行为会影响到预测结果，比如媒体对于流感流行的报道会增加与流感相关的词语的搜索次数，进而影响GFT的预测；相关搜索算法也会对GFT造成影响。例如，搜索“发烧”，相关搜索中会给出关键词“流感”，而搜索“咳嗽”则会给出“普通感冒”。　　此外，互联网数据基本处于各大平台各自垄断，数据支离破碎的情形。对于全平台数据的使用，还存在着很多问题，具体表现为：　　第一，目前大数据存储于多个独立的平台之中，打通、整合这些数据亦然非常困难。于是目前的大数据服务提供者只能做到各有千秋，但谁也无法提供一个全套服务。　　其次，当下的大数据模型还只是刚刚服务于市场，我们积累的经验还不足够充分，很多不可预知的错误随时都会发生，这里仍然需要足够经验丰富的人进行方向把控。　　第三，大多数大数据的技术团队仍然与数据需求者脱节，也就是研发人员自嗨，需求人员只能看热闹。而真正有价值的模型必须是一个跨界团队共同完成的。写在最后我们遗憾地发现，本因充满创造力和想像力的影视行业和广告行业，越来越为数据所捆绑，从业者沉迷于各种数据，希望挖掘出消费者的喜好与价值的最大化，而结果却常常背道而驰。数据并不是越多越好，还要看如何分析和利用数据，进而得出最契合实际的结论，并且有效利用这一结论。还是那句话，一个跪舔数据的行业，是看不到前途的。相关链接：虚假数据中的真营销营销假戏真做里奋斗 | 专题洞察 | 数据还是做数据？资本到底喜欢什么（媒介360原创文稿详情点击阅读原文）（如需转载请在后台留下您的公众号信息获得授权后方可转载更多回馈欢迎私信或投稿 tougao@chinamedia360.com）

imedia360

登录后方可回帖