大数据还能火多久?

  ———————————————————————————————————————

  我感觉很多朋友,对“大数据”、“机器学习”、“深度学习”等概念挺晕的,没有感官的认识,这里,我简单说一下:

  “大数据”、“人工智能”、“机器学习”、“神经网络”、“深度学习”。这几个词往往掺杂在一起,让人不知所云,这里我简单说一下,不求细节上100%准确,只求能给各位一个感官上的印象,明白说起这几词时,通常都是说什么。

  首先,“人工智能”这个词。大家说,什么是人工智能?每个人在自己心里,都有一个特定的人工智能定义。有人认为,老版《星际迷航》里“Datas上校”这个东西叫人工智能;有人认为《机器公敌》里机器人应该叫人工智能;有人认为电影异形里的“大卫”,这么个东西叫人工智能。近一点的,有人认为谷歌开发的下围棋的系统“AlphaGo”,很吊,这玩意是人工智能;谷歌大脑能通过自己看视频,自动识别出猫,这就人工智能了;还有公司,我们通过“人工智能”干了XXXX。。。。。。因此,可以看出,这个词大的没边,因此,真追究起来,谁要说这个词,除装逼外,你就当他什么都没说就行了。

  当前,“大数据”这个词,也跟“人工智能”这个词一样,大的没边,虚无飘渺的没边,谁要是说这个词而不说具体的东西,你也就当他什么都没说就好了。

  回过头来,我们再看“人工智能”这个词。究竟什么是人工智能?计算机的神级人物图灵给出了“图灵测试”,定义了人工智能——图灵测试(The Turing test)由艾伦·麦席森·图灵发明,指测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问,进行多次测试后,如果有超过30%的测试者不能确定出被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。(摘自百度百科)

  上面,图灵神人说神话,凡人听不懂。针对“人工智能”,用人话讲,如果,某个东西,具有了“学习”、“分类”、“预测”能力,我们就认为这个东西是智能的。比如,我们说人。我们说诸葛亮,料事如神(预测能力强)、神机妙算(“分类”强)。。。因此,诸葛亮很智能。

  其实,现实中很多问题,都可以转化为分类问题和回归问题,如何即“准”又“稳”的把事物分类,是我们追求。比如,我们根据一系列指标,把一个妹子分类为“漂亮”、“不漂亮”;把某件事根据一系列指标,分为“可以干”、“不可以干”;把某个人,分为“人品好,可以交”、“人渣,不可交”;这类就是二分类问题。也有多分类问题,比如,把一篇文章,分类到“财经新闻”、“娱乐八卦”、“武侠小说”、“”。。。。等等多个类目下的一类中。

  因此,为了给编个有“智能”的软件,赋予它分类能力呢。简单,用编程语言语言里的判断语句都能行:

  各位看官也许会笑,这TMD算哪门子的智能。但是,在现实中,就这样用编程语言的特性,编出来的软件,在很多不懂计算机父辈们眼中,就很智能,就能把他们镇住。。。。。

  当然,这么low的方案,计算机的神级人物们,是不屑的。毕竟,现实太复杂,对这个复杂的现实建模,对复杂的事物分类,岂能是几个判断语句所能够描述的。所以,大神们,搞出来很多算法策略来搞这件事。这下算法,主流的也就那么多,比如说:决策树算法、随机森林算法、逻辑回归、SVM、朴素贝叶斯、K最近邻算法、K均值算法、Adaboost 算法、神经网络算法、马尔可夫算法,还有最近火的“深度学习”算法、增强对抗网络算法。。。等等。这些算都叫“机器学习”算法。

  讲到这里,各位看官,应该对我们经常讲的“人工智能”、“机器学习”、“深度学习”,这些虚无缥缈的词大概是什么意思,有个感官的认识了。

  好了,现在我们讨论“人工智能”、“机器学习”、“深度学习”等等这些词时,具体就讨论这些算法就行了,那些虚无缥缈的概念,留给装逼的人、想要吸引投资的人去说吧。

  从总体理论方向来说,来说,这些算法,大体上可分为两类,“神经网络”算法和“深度学习”算法,算作一类,其它的算法作为另一类。

  但是,不管怎么分类,这些算法要想正常的工作,对事物的分类能够达到实用的水平,两个条件是不可或缺的,那就是“数据”、“计算力”。计算力很好理解,这些算法,都比较复杂,没有强大的CPU、内存等硬件支撑,这些算法,要么不能运行,要么猴年马月也运行不完,给不出结果。如果你训练模型,利用这些算法编好程序后,扔给计算机,它花了半年才计算完,给你打印出结果。你心中,也一定是一万个“草泥马”飘过。。。。。对于数据的要求,这是因为,这些算法的背后的数学原理,大部分都跟概率论有关。各位看官,如果兴趣,可百度“VC维”理论,针对“深度学习”的可学习性的理论解释,人类现在也没有研究透,只知道这玩意挺管用,在很多方面效果挺好,科技前沿,给出的解释是用“泛函空间概率论”来解释。但不管怎么说,就是概率论,就是瞎猜。瞎猜嘛,当然是依据越多,猜的的越准,猜的越稳。也就是数据越多,这些算法就会猜的越准,猜的越稳。好了,现在“大数据”,就可以搀和进来了。没有数据,或者数据很少、数据纬度较少,不够详细,这些算法“巧妇”,也会无米下锅,做不出可口的饭菜的。

  有了所谓的“大数据”和云计算,我们就可以方便的命令这些算法“巧妇”们给我们做饭了。从‘数据’这个“米”的角度说,我们可以HDFS存储更多的米,更丰富的食材;从‘大数据组件’这个锅碗瓢盆的‘工具’角度来说,我们有了spark等组件(利用深度学习算法,比较强大的组件是TensorFlow),有了更强大的计算工具,我们可以利用这些组件调用这些高大上的分类算法,再加上所谓的“大数据”、“深度学习”、“机器学习”,就可以做出更好吃的饭了。从系统架构上来说,猜嘛。猜对、猜错都是很正常的,可能这么猜不对,换个参数、换个算法 重新猜一下,就猜对了。因此,也就有了“数据挖坑一身功,全靠调参”的说法。这就要求,我们的系统,有更好灵活性,方便我们对针对这些算法“休妻再娶”。

  有了上面大体的介绍,针对“大数据”、“人工智能”、“深度学习”、“机器学习”等具体行业应用,我再简单说两句。

  以电商行业为例,有一个概念叫“用户画像”,它是很多系统的基础,比如推荐系统、精准广告系统、大数据风控系统的等等。

  用户画像,是什么呢。说到底,就是对用户的分类数据。比如说,ID 1,性别:女,性格描述:萌妹子,性格特点描述,资产状况描述,信用状况描述,喜欢的颜色,钟爱的品牌,大姨妈的日期,上周的购物。。。。。。。。有了这些信息,我们就可以针对这个用户,进行精准的广告营销、精准的购物推荐、个性化的服务。。。。。。

  那么问题来了。现实中,这位妹子注册信息时,性别栏里,可能填的是“男”,年龄栏里填了“5”或者“150”。你怎么知道这个妹子,可能喜欢相宜本草的面膜,她又没明确告诉你。。。。

  没办法了,只能猜。如果,我们有了关于这位妹子的各类“大数据”,再结合上面的各种算法,就可以猜了。如果这个ID的用户,上购物网站时,经常浏览的是“胸罩”、“卫生巾”等女性用品,我们的算法(机器学习、深度学习等)把他猜成“女性”,是可以理解的。当然,如果是位暖男,为他女朋友、老婆买这些东西,也是可以理解的。如果我们再增加一个纬度的“大数据”,这个ID用户,最近经常看韩剧,那么他是女性可能性,就又提高了。再增加一个纬度的“大数据”,这个ID在某个评论里说“最近刚生完宝宝,听老公说XXXX,我觉的XXXX”。。。。这里,针对这个ID的画像,把他的性别改为“女”,是可以的,是有99.99%的把握的。但也无法排除0.01%的变态。。。。。

  实际工作的过程中,情况和限制,也就更多更复杂了。针对各类企业、每个企业,我想都在某些时刻,有去猜(也就是去分类)某些事情的需求。此时,找猜的“米”时,一看,之前很多数据没保存,无米下锅。没有人才,没多少人会利用这些牛逼的“算法+数据”去猜。更多是没有数据意识,针对马云口中“DT时代”,没有感官认识,不明白具体是什么意思。。。。。。

  在具体落地的解决方案过程中,数据收集、存储、计算工具等等方面,现在技术发展的还是可以的。再具体“怎么猜”(是利用if elif else与语句猜,是利用线性模型猜,还是利用“深度学习”猜)的过程中,那就要具体情况具体分析了:

  总共才两三中情况,看一眼就知道怎么回事,提炼出规则,编程成固定规则就行了,上深度学习,纯属脑子有病;

  但像BAT这种大公司,有很多牛叉的研究员,整天研究如何利用尽可能对的数据(“大数据”),比较牛逼的算法策略(比如“深度学习”等),尽可能多猜的更准、更稳。哪怕猜准确率提高1%,那么可能多销售几个亿的商品。。。。。

  目前,语音识别、机器翻译。等等,本质上,也是“猜”嘛。英语中某个句线%准确率,用上深度学习后,猜对的可能性提高到了45%。。。。。某段录音,根据记录的音波,之前猜对概率是85%,积累的数据多了,用的算法牛逼了,参数调的好点了,猜对概率95%了,这就是进步啊。等到,你说依据话,计算机猜你的意思,猜对的概率是99%了,我想那时,你百度什么东西,就不用输关键词了,对这电脑说就行了。。。。

  但无论怎么样,即便是BAT、谷歌等大公司,前沿研究除外,能为资本家带来直接利润的机器学习算法,目前还是比较简单的机器学习算法为主,比如一些线性模型类的算法(我记得我第一次学线性回归时,在初中数学里的内容),所以,这些算法的原理也是比较简单的。上世界90年代各方面就研究的很透了,只不过那时候,人类积累的数据少(数据就在那里,每天都在产成,只不过,那是没有性价比高的记录手段)、计算机的计算能力不足。。。。。。至于更高大上一些的算法,比如深度学习等,主要用来对系统里的某一些环节改造,增加猜对的概率。严格意义说,跟所谓的“大数据”,没多少直接关系。即便是没有“深度学习”,用其他的算法,要想达到实用效果,所需要的数据量也不一定少。

  回望,很多概念,“火”与不“火”的历程也是有规律可循的。07、08、09年时,与“云”有关的很火,什么“公有云”、“私有云”、“混合云”,12、13、14年时,“大数据”很火;现在,16、17年,“机器学习”、“人工智能”很火。有了“云”架构,我们有了灵活手段的去调度硬件资源,所以要利用搞点事情啊,再加上谷歌的工程师发表了著名的三篇论文,全世界的工程师开发了相关软件;因此,后来的“大数据”火了,这时的“火”,更多是建立“数据仓库”等存储等阶段,针对数据利用、处理,也是普通简单算法范围,如统计一下数据,出一些Top榜什么的。。。。后来,有了积累了多数据、更多资源了,我们有什么理由不把跟牛逼的策略、算法搬出来,对数据挖的更深、利用的更好呢。。。。从中可以看出,这些概念火起来,是计算力的进步,是人类收集、存储、加工、处理、利用信息能力的进步。。。。

  ————————————————————————————————————————

  首先声明,本人现在杭州一家互联网公司做大数据平台架构师和数据分析师。因此,以下的回答,可能带有自己的视野局限,敬请各位看官理性地指教,讨论。

  根据我个人的行业经验来看。现在很多人,对大数据的理解都有些偏了。目前,对大数据的主流看法就是深度学习,人工智能等很火,很高大上的东西,都需要大量的数据,所以大数据会怎样、怎样。。。。其实,大数据的背后,是人类处理信息(也就是数据,大家不要认为大数据,这个概念中的数据,是12345等阿拉伯数字组成的东西,凡是能存电脑里的东西,都是数据)的IT系统的一次革命性升级。这次技术的升级,是继数据库系统后,人类处理数据手段和技能的提升。下面,我以一个例子,来说明我们信息处理手段的提升。张三是个创业者,每晚到夜市摆摊。由于摊子很小,每天回家后,找一只笔,一个香烟盒子纸,就能把账算了、把货盘了,这时,凭借着一只铅笔,一张破纸,就能把该处理的数据信息处理了。后来,摊子稍微大了一点,张三到门口小超市花几块钱买了个计算器,每天在计算器为零的帮助下,再加上一只笔、一张纸把信息处理了。再后来,张三开了个小超市,他处理信息的能力也增强了,用上了Excel、word等软件来处理信息。后来,张三开开了个大超市,其信息处理工具也鸟枪换炮了,用上了进销存管理系统、财务管理系统、人事管理系统。。。。这些系统,在数据存储方面,用数据库,如mysql。在业务处理方面,招几个程序员,用php、python或java,写具体的业务处理逻辑(也就是当年张三在纸上写写画画的处理过程)。这一阶段的IT处理段位,是目前大多数中小企业所在的段位。可以看出,这个段位的IT系统和处理能力有以下不足:1、只能处理结构化数据,对大量非结构化数据(文字、语音、视频等),处理能力严重不足。2、能处理的数据量还是太小,比如,用张破纸,你处理10条数据没问题,给你个计算器,你处理100条数据没压力。用Excel,你处理10万条无压力。给你个mysql,你在千万条数据的级别范围内增删改查无压力。但是,当你要面对的数据是100亿条级别时,你的数据库、存储、业务处理代码等,就有可能分分钟闹毛病给你看。 注意:利用各种中间件构建分布式关系型数据库集群,是能应付的。此处,各位看官领会我说的什么意思就好,先不要纠结具体技术解决方案。3、处理的手段单一,只能跑程序员编好的程序,比较死板。只能按着代码逻辑跑,一点都不智能。4、从技术上讲,灵活性还是不足。你的进销存、财务、人事等系统。程序员编完,能用了,也就完了。没有重要问题和需求变更,也不会去频繁升级、重构和迭代更新。从这方面讲,也会造成企业在想要XX数据时,发现没有。想要XX功能时,发现要实现的成本太大。或者,在你的威严下,你手下的程序员辞职了,你满心委屈我不就是想要个这么小、这么简单的功能么。这小子居然花了那么长时间弄,还TMD辞职了,90后,真是一代不如一代。。。。。所以,这些,到最后,大多都不了了之。。。5、从具体的实际流程上看,流程太长、太慢。比如说,您是集团公司的老总,有一天突发奇想,想到了一个项目,想看看相关数据。此时,你的秘书帮你去搞数据了,北京分公司的数据,很快上来了,上海分公司的数据,秘书打了好几遍电话,才要来。山东分公司的说,我们这边忙着陪客户吃饭喝酒了,具体数据没收集呢,您稍等,我帮您问问、查一下。浙江分公司的,数据报上来了,刚放你办公桌上,你刚翻了一下,他们打电话说,数据报错了、漏报了,您稍等,我们组织人力物力,重新帮你核查。。。此时,时间上,少说也一个月过去了,还不一定保证数据都正确。数据收集上来,您也不用分析了。市场风云变幻,黄花菜都凉了。。。.......鉴于此,大数据处理系统来了。有了hadoop、spark、storm、hbase、 Elasticsearch、zookeeper等等大数据工具搭建起来的数据处理集群,张三终于炮换导弹了。1、有了hdfs,张三可以把以前觉得没太大价值的数据保存起来。未来的事,谁知道呢,数据总是要的,说不定以后用的到呢。如果阿里巴巴没有保存、整理用户的交易数据等,花呗、借呗等业务,开展起来,简直就是做梦。巧妇难为无米之炊。2、有了spark等编程框架,你的业务处理流程,也更加灵活和牛逼了。你可以用python、java,scala等编写一些脚本似的数据分析程序,尽情地挖掘出有价值的东西。这一个个的job,写完后,扔给调度系统,定时,每天晚上让集群帮你跑出来就好了。挺灵活的。3、调用一些开发库,你可以玩一些机器学习等高大上的东西。出去吹牛逼也有料了。4、建立统一的数据处理中心,再加上互联网的力量,终于可以在可接受的时间范围内获得你想要的数据了,而且数据还能详细,方方面面的数据都有,最后还附有机器人小优的智能建议和温馨提示。5、借助比如storm等实时处理框架,很多结果可以秒级回馈。性能遇到瓶颈了,大不了加机器。反正一切都是分布式的。.......

  我记得13、14年时,大数据最火的时候。在一次电视节目中,李彦宏面对杨澜,大谈大数据,并举例谷歌利用大数据预测流感。。。。等等balabala的一大通,全是忽悠套路,没一点干货!!我想大多数人,听到这些东西,一般都不care,说不准还暗暗的骂一句草,这些关我鸟事。。。最近,谈起大数据,很多人都往人工智能等高大上的东西上。我想大多数人,特别是中小企业,也不会关心。那是BAT等大公司的事,我们公司小、数据少,业务也简单。分析,也是电脑不如人脑。因此,大多人,也是觉得,大数据或许是未来,但是,对我来说,似乎也没多大用处。如果,此人当时心情不好,还多半认为大数据,纯粹是瞎忽悠。回到本次线;,这个问题,这就要看大数据的本质了。在我看来,我们业内目前讨论大数据,应该更倾向于看它背后的技术对当前企业IT系统的革新。就如同目前大多数企业以关系型数据库为中心的IT系统一样,现在,我们处理信息的手段中,又添加了新的成员。现在,如果你向老大建议,我们不要以关系型数据库为核心的各类进销存、财务等系统了,全体回退到以Excel、word来处理信息,我相信,他会分分钟扇死你。我相信,20年后,你向老板建议,我们放弃各类以大数据处理集群为核心的精准营销系统、智能客服系统、用户智能分析系统等等,大家集体回退到以纯关系型数据库为核心的时代;我相信,他也一定会分分钟扇死你。

  当前,我们对大数据的理解,越来越清晰和接地气。阿里巴巴已经把他们的大数据系统,改名为了maxComputer。从名字不难看出,大数据就是大电脑,这意味着更大的信息处理能力、更高的灵活性。。。

  大数据能火多久,如同穿越到上世纪80年代,去问个人电脑能火多久一样。现在,我们都不会认为个人电脑很火。因为,它已经成为了人类工具箱里一件强大的工具,提高了人类的生产力。我相信,大数据,也会成为我们的工具箱里的这么一样工具的。

  目前,看知乎里的答案。很多人讨论起大数据,很多人的看法,还是照搬教科书里的内容。其实,对真正大数据圈而言,大数据已经落地了。下了凡的七仙女,虽然是神仙,但也成为了农家媳妇,没太大讨论的必要了。大数据从几年前很火,到现在,从PPT上下凡到数据中心,也就没多大的讨论必要了。用就行了,有啥好瞎bb的。。。。。。

  这个问题本身就矛盾了,大数据被人工智能取代?本身大数据就是对海量数据的挖掘,分析,然后用在各个方面,人工智能势必会用到这些统计结果,所以学习大数据就能做人工智能,而不是被人工智能取代 ,接下来可以看完以下的文章,就知道大数据在今后的发展趋势。欢迎加我一起学习讨论更多的大数据以及人工智能的相关问题

  大学申报新专业和申请撤销专业眼下正在公示期,从教育部公示的名单上可以看到,从去年开始大热的“数据科学与大数据技术”专业今年继续保持优势,是全国高校申报最多的新专业;

  2012年,教育部修订形成了《普通高校本科专业目录(2012年)》和《普通高校本科专业设置管理规定》,规定专业设置和调整实行备案或审批制度:如果高校自主设置的是《专业目录》内的专业,报教育部备案即可;如果想增设《专业目录》没有的新专业,则需报教育部审批;备案和审批每年进行一次。

  教育部今年公示的名单显示,2018年全国高校申报的新增专业共有2542个。据不完全统计,今年申报“数据科学与大数据技术”专业的高校,全国超过220所,远远超过其他专业。

  大数据在带来极大商业价值的同时,也面临着巨大的人才需求。据数联寻英发布的《大数据人才报告》称:目前我国大数据人才仅 46 万,在未来 3 - 5 年内大数据人才缺口达 1,500,000 之巨。

  数据人才缺口,远比你想象的还要大。所以数据人才在就业市场的待遇好到令人仇恨,根本不足为奇。即使没有学历文凭的优势,有数据分析技能的加持,你也能找到一份“高薪”职业。

  更不必提像阿里、滴滴、网易这种依赖于数据的大平台了,求职时的选择多一倍,“钱”途更广。

  1)广泛的行业适用性:目前,数据分析职位缺口主要集中在三大巨头行业:移动互联网、计算机软件以及金融,总占比64%,同时非典型数据产业,潜移默化、迅速崛起。说明数据分析是各个行业都是通吃的技能,且都能期待不错的收入水平。

  2) 职业发展具有多样性。初期发展方向可以细分为BI专家、模型算法专家、业务分析专家。圈内不乏这种经典案列:技术岗沉淀数据分析思维和技能,转战产品经理、运营经理、管理经理、甚至是公司层面的Sales, 且都是同期的佼佼者。

  3) 入门并不难,并且越久越香。很多数据分析师并非都是科班出身,不乏来自经济、管理、化学、甚至英语专业,入门数据分析师并没有我们想象中那么难,相反是可以快速入门的高薪、市场急缺的、发展空间大的热门职业。一旦你在拉勾、猎聘等大的招聘网站上发布职位跳槽信息时,几个小时内绝对会被HR、猎头锁定。

  短短的二三年时间,各行业的研究报告表明,大数据在现在、甚至未来都会是各个公司的核心资产,并且其商业价值会越来越高,并且在很长一段时间内供不应求。

  大数据还能火多久,大数据是不是泡沫! 行内人都会告诉你大数据会火很久,大数据不是泡沫!但是所有人看了都不屑一顾!为什么? 因为这个回答没有从根本上解决疑问者的疑问。

  1、应用方向:营销、金融、工业、医疗、教育、交通、智慧生活、执法、体育、政府、旅游等等,大数据真正覆盖全行业,也就是未来所有行业都需要大数据的支撑。

  从大数据的应用方向和未来发展趋势可以看出,在未来10年、20年社会及企业发展过程中,大数据是我们无法离开的技术。云服务、人工智能越来越火,没有大数据谈何云服务,没有大数据谈何智能?

  就目前科技飞速发展的现状来看,大数据技术会不会出现取代者,相信没有人敢特别肯定的说没有,但也没有人敢肯定的说有,这就如同10几年前的手机,在当时没有人能够想象到手机有一天会成为一部“无所不能”的机器。

  我是从机械转型大数据的,目前就职于西班牙外企,谈谈大数据发展的7个趋势。

  当一项新技术刚出来的时候人们会非常乐观,常常以为这项技术会给人类带来巨大的变革,对此持有过高的期望,所以这项技术一开始会以非常快的速度受到大家追捧。

  然后到达一个顶峰,之后人们开始认识到这项新技术并没有当初预想的那么具有革命性,然后会过于悲观,之后就会经历泡沫阶段。

  等沉寂一定阶段之后,人们开始回归理性,正视这项技术的价值,然后开始正确的应用这项技术,从此这项技术开始走向稳步向前发展的道路。

  从大数据的历史来看,大数据已经历了 2 个重要阶段:过高期望的峰值和泡沫化的底谷期 。现在正处于稳步向前发展的阶段。

  前面已经提到过,大数据已经度过了过高期望的峰值和泡沫化的底谷期,现在正在稳步向前发展。做这样判断主要有以下 2 个原因:

  虽然现在人工智能,区块链抢去了大数据的风口位置,也许大数据成不了未来的主角,但大数据也绝对不是跑龙套的,大数据仍将扮演一个重要而基础的角色。可以这么说,只要有数据在,大数据就永远不会过时。我想在大部分人的有生之年,我们都会见证大数据的持续向上发展。

  之前大数据遇到的最大挑战在于数据规模大(所以大家会称之为“大数据”),经过工业界多年的努力和实践,规模大这个问题基本已经解决了。接下来几年,更大的挑战在于速度,也就是实时性。而大数据的实时性并不是指简单的传输数据或者处理数据的实时性,而是从端到端的实时,任何一个步骤速度慢了,就影响整个大数据系统的实时性。所以大数据的实时性,包括以下几个方面:

  目前以 Kafka,Flink 为代表的流处理计算引擎已经为实时计算提供了坚实的底层技术支持,相信未来在实时可视化数据以及在线机器学习方面会有更多优秀的产品涌现出来。当大数据的实时性增强之后,在数据消费端会产生更多有价值的数据,从而形成一个更高效的数据闭环,促进整个数据流的良性发展。

  目前 IT 基础设施往云上迁移不再是一个大家还需要争论的问题,这是大势所趋。当然我这边说的云并不单单指公有云,也包括私有云,混合云。因为由于每个企业的业务属性不同,对数据安全性的要求不同,不可能把所有的大数据设施都部署在公有云上,但向云上迁移这是一个未来注定的选择。目前各大云厂商都提供了各种各样的大数据产品以满足各种用户需求,包括平台型(PAAS) 的 EMR ,服务型 (SAAS) 的数据可视化产品等等。

  大数据基础设施的云化对大数据技术和产品产生也有相应的影响。大数据领域的框架和产品将更加 Cloud Native 。

  。我们知道每个公有云都有自己对应的分布式存储,比如 AWS 的 S3 。S3 在一些场合可以替换我们所熟知的 HDFS ,而且成本更低。而 S3 的物理存储并不是在 EC2 上面,对 EC2 来说, S3 是 remote storage 。所以如果你要是 AWS 上面做大数据开发和应用,而且你的数据是在 S3 上,那么你就自然而然用到了计算和存储的分离。

  ,与 Kubernate 的整合大势所趋,我们知道在云环境中 Kuberneate 基本上已经是容器资源调度的标准。

  全链路化是指提供端到端的全链路解决方案,而不是简单的堆积一些大数据产品组件。以 Hadoop 为代表的大数据产品一直被人诟病的主要问题就是用户使用门槛过高,二次开发成本太高。全链路化就是为了解决这一问题,用户需要的并不是 Hadoop,Spark,Flink 等这些技术,而是要以这些技术为基础的能解决业务问题的产品。Cloudera 的从 Edge 到 AI 是我比较认同的方案。大数据的价值并不是数据本身,而是数据背后所隐藏的对业务有影响的信息和知识。下面是一张摘自 wikipedia 的经典数据金字塔的图。

  大数据技术就是对最原始的数据进行不断处理加工提炼,金字塔每上去一层,对应的数据量会越小,同时对业务的影响价值会更大更快。而要从数据(Data) 最终提炼出智慧(Wisdom),数据要经过一条很长的数据流链路,没有一套完整的系统保证整条链路的高效运转是很难保证最终从数据中提炼出来有价值的东西的,所以大数据未来产品全链路化是另外一个大的趋势。

  上面讲到了大数据的全链路发展趋势,那么这条长长的数据链路目前的状况是如何,未来又会有什么样的趋势呢?

  我的判断是未来大数据技术的创新和发力会更多的转移到下游数据消费和应用端。之前十多年大数据的发展主要集中在底层的框架,比如最开始引领大数据风潮的 Hadoop ,后来的计算引擎佼佼者 Spark,Flink 以及消息中间件 Kafka ,资源调度器 Kubernetes 等等,每个细分领域都涌现出了一系列优秀的产品。

  总的来说,在底层技术框架这块,大数据领域已经基本打好了基础,接下来要做的是如何利用这些技术为企业提供最佳用户体验的产品,以解决用户的实际业务问题,或者说未来大数据的侧重点将从底层走向上层。之前的大数据创新更偏向于 IAAS 和 PAAS ,未来你将看到更多 SAAS 类型的大数据产品和创新。

  2、2019 年 6 月 10 日,Salesforce 宣布以 157 亿美元的全股票交易收购 Tableau ,旨在夯实在数据可视化以及帮助企业解读所使用和所积累的海量数据的其他工具方面的工作。

  面对最终用户的大数据产品将是未来大数据竞争的重点,我相信会未来大数据领域的创新也将来源于此,未来 5 年内大概率至少还会再出一个类似 Looker 这样的公司,但是很难再出一个类似 Spark 的计算引擎。

  学习过大数据的人都会感叹大数据领域的东西真是多,特别是底层技术,感觉学都学不来。经过多年的厮杀和竞争,很多优秀的产品已经脱颖而出,也有很多产品慢慢走向消亡。比如批处理领域的 Spark 引擎基本上已经成为批处理领域的佼佼者,传统的 MapReduce 除了一些旧有的系统,基本不太可能会开发新的 MapReduce 应用。

  Flink 也基本上成为低延迟流处理领域的不二选择,原有的 Storm 系统也开始慢慢退出历史舞台。同样 Kafka 也在消息中间件领域基本上占据了垄断地位。未来的底层大数据生态圈中将不再有那么多的新的技术和框架,每个细分领域都将优胜劣汰,走向成熟,更加集中化。未来更大的创新将更多来来自上层应用或者全链路的整合方面。

  在大数据的上层应用方面未来将会迎来有更多的创新和发展,比如基于大数据上的 BI 产品, AI 产品等等,某个垂直领域的大数据应用等等,我相信未来我们会看到更多这方面的创新和发展。

  大数据领域并不是只有 Hadoop,Spark,Flink 等这类大家耳熟能详的开源产品,还有很多优秀的闭源产品,比如 AWS 上的 Redshift ,阿里的 MaxCompute 等等。这些产品虽然没有开源产品那么受开发者欢迎,但是他们对于很多非互联网企业来说是非常受欢迎的。因为对于一个企业来说,采用哪种大数据产品有很多因素需要考虑,是否开源并不是唯一标准。

  产品是否稳定,是否有商业公司支持,是否足够安全,是否能和现有系统整合等等往往是某些企业更需要考虑的东西,而闭源产品往往在这类企业级产品特性上具有优势。

  最近几年开源产品受公有云的影响非常大,公有云可以无偿享受开源的成果,抢走了开源产品背后的商业公司很多市场份额,所以最近很多开源产品背后的商业公司开始改变策略,有些甚至修改了 Licence 。不过我觉得公有云厂商不会杀死那些开源产品背后的商业公司,否则就是杀鸡取卵,杀死开源产品背后的商业公司,其实就是杀死开源产品的最大技术创新者,也就是杀死开源产品本身。我相信开源界和公有云厂商最终会取得一个平衡,开源仍然会是一个主流,仍然会是创新的主力,一些优秀的闭源产品同样也会占据一定的市场空间。

  1、目前大数据已经度过了最火的峰值期和泡沫化的底谷期,现在正处于稳步向前发展的阶段。

  大数据还能火多久,应该没人能够说出一个定数,但大数据当前已经是爆发期阶段了,毕竟火爆的AI是要站在大数据的肩膀上才能走得更远。

  现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,而大数据就是这个高科技时代的产物。 一位商业大佬就曾经说过,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,因此大数据的重要性不言而喻。

  大数据并不仅仅指“一个数据的集合”本身,它可能还意味着从数据的收集、整理、分析和商业洞察、以至于市场转化的全过程。在从事大数据的这个团队中,可能包括数据工程师、分析师、产品专员、市场专员和商业决策者等各种角色,共同完成从原始数据到商业价值的转换,他们是支持企业做出商业决策、发掘商业模式的重要群体。

  有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。因此许多企业都非常重视大数据,致力于更高效地处理和应用数据信息。比如华为云的智能数据湖作为一个开放的数据处理平台,通过数据的云上融合,实现多域融合决策,使能人工智能,帮助企业在物联网时代更好的利用数据创造价值。

  此外在大数据领域,人才缺口仍然非常大。由于国内的大数据工作还处在一个有待开发的阶段,因此能从其中挖掘出多少价值完全取决于工程师的个人能力。已经身处这个行业的专家给出了一些人才需求的大体框架,包括要有计算机编码能力、数学及统计学相关背景,当然如果能对一些特定领域或行业有比较深入的了解,对于其快速判断并抓准关键因素则更有帮助。

  除此之外,还要具备一定的逻辑分析能力,并能迅速定位某个商业问题的关键属性和决定因素。而满足这些要求的人才实在是少之又少,这也是制约国内大数据发展的一个重要因素。

  “大数据能火多久”这个问题,要看大数据的本质。我们目前业内讨论“大数据”,应该更倾向于看它背后的技术对当前企业IT系统的革新。就如同目前大多数企业以关系型数据库为中心的IT系统一样,现在,我们处理信息的手段中,又添加了新的成员。如果你向老大建议,我们不要以关系型数据库为核心的各类“进销存”、财务等系统了,全体回退到以excel、word来处理信息,我想,他会分分钟让你滚。20年后,如果你向老板建议,我们放弃各类以大数据处理集群为核心的精准营销系统、智能客服系统、用户智能分析系统等等,大家集体回退到以纯关系型数据库为核心的时代,我相信,他也一定会分分钟让你滚。

  当前,我们对大数据的理解,越来越清晰和接地气。阿里巴巴已经把他们的大数据系统,改名为了maxComputer。从名字不难看出,大数据就是大电脑,这意味着更大的信息处理能力、更高的灵活性……

  大数据能火多久,如同穿越到上世纪80年代,去问个人电脑能火多久一样。现在,我们都不会认为“个人电脑”会“火”,因为,它已经成为了人类工具箱里一件强大的工具,提高了人类的生产力。我相信,“大数据”,也会成为我们的工具箱里的这么一样工具的。

  现在讨论起大数据,很多人的看法,还是照搬教科书里的内容。其实,对真正的大数据圈而言,大数据已经落地了。下了凡的七仙女,虽然是神仙,但也成为了农家媳妇,没太大讨论的必要了。大数据从几年前很火,到现在,从PPT上下凡到数据中心,也就没有多大的讨论必要性了,用就行了。

  首先,大数据企业众多,逐步形成产业化。从08年开始,大数据就成为互联网信息领域的大热门。由此而来,大数据企业像雨后春笋般层出不穷。

  其次,大数据人才需求量大,薪资相比其他行业遥遥领先。数万家的企业都把大数据当做企业业务发展的制高点,都在不惜代价的抢滩大数据人才。就拿互联网金融行业来说,不低于一万家企业,平均每家企业都需要10人以上的数据人才,BAT就更不用说了,每家的数据人才都是以千计。

  最后,大数据代表未来高科技发展方向,不管是智能社会、智能城市、智能社区、智能交通、智能制造、智能理财等等,都依赖于大数据基础,这是多么巨大的市场和发展机遇。

  所以,在现阶段,无论你何时去决定投入,都有非常大的机会,至少未来十年,大数据一定不会衰落。都看到这了点个赞在走吧

  未来大数据的身影应该无处不在,就算无法准确预测大数据终会将人类社会带往到哪种最终形态,但我相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每一个角落。

  比如,Amazon的最终期望是:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。”Google也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内容,而这并不需要用户给予Google太多的提示。

  而当物联网发展到达一定规模时,借助条形码、二维码、RFID等能够唯一标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析,这些数据能够支撑智慧城市,智慧交通,智慧能源,智慧医疗,智慧环保的理念需要,这些都所谓的智慧将是大数据的采集数据来源和服务范围。

  未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。

  谢邀,会一直火下去了,当然,名词可能会换,比如今年,人工智能这个概念,就差不多有点取代大数据这个概念了。概念可以不断更换,但是技术就是解决人们需求的。大数据能让生活更便利,能让机器更懂你。满足了这两点,这项技术就不会被消亡,只会不断更新,满足更多的需求。关注大数据的朋友,欢迎加我微信公众号:大数据二三事。

  毫无疑问,作为技术概念的“大数据”拥有光明的前途,它是人工智能的基石,是未来世界的“石油”。但作为生意的“大数据”,在中国正走到一个关键的转折点。

  从业者都很焦虑。对大众来说,2019年3月以来,围绕着“大数据”而密集发生的丑闻似乎是一种监管加紧的信号——前有“315”晚会上集中曝光的大数据黑色产业链,后有号称拥有8亿国人真实信息的“大数据公司”——巧达科技被查。但对于一向嗅觉灵敏的中国大数据行业的从业者们来说,这并不突然。

  从2017年底开始,中央网信办、工信部、公安部和国家标准委等部门就开始密集合作,针对国内大数据行业野蛮生长中的各种乱象展开各种行动。进入2018年,相关工作组先后多次对微信和淘宝等“国民级”应用进行隐私保护评估,提出整改意见。同时,重点垂直行业和地方监管机构也明显提高了约谈频率。2019年2月,银监会和保监会约谈银行高管,谈及app收集信息的问题;上海网信办连续约谈辖区内应用程序,而北京市公安部门也在“净网2019”行动中将“非法爬取数据”作为整治重点。

  2019年1月,中央网信办、工信部和公安部牵头的多个机构开始对违规收集数据信息进行专项治理,被业内形容为“史上力度最大”的治理行动。此后,相关部门还着手制定“大众化应用基本业务功能及必要信息规范”,3月,工作组更直接在微信上开通公众号“App 个人信息举报”,直接接受用户的侵权举报,并在4月就对30多款应用提出整改要求。

  在PingWest品玩与近10名来自大型互联网公司数据部门以及“大数据公司”的从业者的接触中,他们普遍认为,315晚会“抓典型”和“巧达数据”被整治,更像是一系列行动的结果,而非开始。

  “其实能感受到所有的环境都跟两年前不同了,美国有Facebook出的事,欧洲又有GDPR(《通用数据保护条例》(General Data Protection Regulation,简称GDPR,为欧盟条例——PingWest品玩注),以前觉得这都不影响我们国内的业务,但去年以来一扭头却发现,国内管得也更严了。”一家总部在杭州的电商公司相关数据算法部门的团队高层对PingWest品玩说。

  然而,无比焦虑的从业者们似乎仍然没有意识到,监管层面的变化背后,本质还是国内广大用户们数据隐私意识的觉醒。

  “我们最近的政策法规研究以及行动的节奏很大程度是受到大众对隐私保护的意识觉醒的影响。”一名接近公安第三研究所网络安全法律研究中心的人士对PingWest品玩透露。他们正参与到多部委联合推进的个人信息保护法律法规研究中。3月上线的“App 个人信息举报”微信公号投诉平台,某种意义上就是在帮助法规制定者们更直接的感受大众的态度。新华社的一篇报道介绍这个公众号处理投诉的方式:“对于用户实名举报的信息,工作组逐一与举报人沟通。”

  很明显,在监管者以及广大用户看来,“大数据”在中国作为一门生意,如今在各个环节都已出现必须纠正的问题。

  2018年4月23日晚,北京市公安部门公布了此前“巧达数据”被查案件的细节。这也与PingWest品玩与多位从业者探讨时的判断接近:一家被巧达数据爬取过简历数据的公司,向公安举报了巧达。之后北京警方在数个月的调查取证后,将其作为”净网2019“行动中的典型,予以处理并拘捕了公司实际控制人。

  根据警方通报:“嫌疑人通过利用大量代理IP地址、伪造设备标识等技术手段,绕过该公司服务器防护策略,大量窃取存放在服务器上的用户数据…… 经初步查明,巧达科技公司采用技术手段在未经授权的情况下,恶意窃取上述报案公司的用户数据,并将其用于自身经营。”

  “爬虫”指的是开发者设计一套程式让它按照一定规则,自动抓取互联网上的海量信息。一位曾在巧达数据短暂工作的员工对PingWest品玩表示,他们的团队有不少来自主流招聘平台的员工,他们往往对前公司的系统比较熟悉,能够更高效地爬取平台上的简历,在反爬虫措施出现之前完成足够多的抓取。据他介绍,这种爬取招聘网站简历的方式,在所谓的“简历大数据”公司是一种常态。

  与巧达数据收集数据方式相似的还有许多,比如总部位于上海的e成数据。e成数据的员工对PingWest品玩透露:这家公司的数据来自猎聘和智联招聘等网站爬取,其官方网站声称“积累了1.3亿份有效简历”。今年3月,e成再次获得C轮8000万人民币的融资。

  总部在武汉的“简寻”,同样主打爬取公开简历的生意,其官网显示“产品可通过自然语义处理的技术爬取简历”,实质也是通过爬虫技术爬取几家主要的招聘网站,这家公司在去年完成千万级A轮融资。

  “从这个角度看,巧达数据像是被当作典型给抓了。或者也是因为它做的太大了。”上述员工说。

  此外,虽然此次的公告中没有提及,但据PingWest品玩了解,巧达数据还涉及购买“非法获取的数据”的问题。上述员工对PingWest品玩透露:他多次参与过团队在一些业务领域的竞标活动,也就是多家“大数据公司”竞争同一个服务客户,尝试为其提供数据分析等服务。而在竞标前,他们往往会密集从黑市上买进大批数据。

  “巧达自己有许多接口能拿到简历,并不会将大部分精力放到撞库等做法上。但那些数据中介可就不是了,他们每天就是撞库,什么数据都有。”

  “撞库”指的是利用已经泄露的用户信息,去尝试批量破解用户在其他网站上的账号。据巧达离职员工介绍,在特定的招标前,他们会购买与此次竞标贴合的特定类型的数据,用于提供更多维度的交叉验证,让自己的数据能力在竞标时看起来更强。

  根据多家媒体此前的报道,这类提供敏感数据的“数据掮客”大量活跃在暗网中,链条大致是“黑客通过攻击获取数据,之后在暗网卖给一些数据中介,数据中介再转手多次,卖到那些需要这些数据进行精准营销的公司手里。”一位从事数据埋点的工程人员表示。

  “所以,当你看到最后这些公司花了多少钱买来这些高度隐私的真实数据时,其实价格已经翻了几倍,而且这些数据只是露出水面的冰山一角,下面藏着的被获取和交易的数据,隐私和敏感度还要更高。”

  这种生意随着“精准营销”和“个性推送”的走红而需求大增,一些“明星公司”也开始做起类似的生意。最典型的当属新三板上市的数据公司“数据堂”。

  2018年7月,新华社报道,山东省破获的“特大侵犯公民个人信息案”中,数据堂“在8个月时间内,日均传输公民个人信息1亿3000万余条,累计传输数据压缩后约为4000G”,这些数据包括手机号码、上网基站代码等40余项信息要素,“记录手机用户具体的上网行为,甚至部分数据能够直接进入公民个人账号主页”。 而将这些数据以产品的形式出售,是数据堂这类“大数据公司”的重要业务形式和收入来源。

  据上述巧达员工透露,巧达数据自己其实也在扮演着”数据中介“的角色,其CEO曾高调地表示:“简历是最有价值的自然人数据。巧达数据通过大数据及人工智能技术研发的认知引擎,能够快速还原网上自然人的清晰画像。”本质上这部分生意就是在贩卖“真实数据”,这与大部分的“数据中介”所从事的地下业务十分相似。

  随着大数据概念的兴起,中国诞生了一大批自称为大数据公司的初创企业,它们为那些不具备数据采集、分析能力的大量的中小互联网企业提供数据服务,并借此积累起自己的数据。这种长尾效应让他们的数据库也十分可观,他们往往像巧达数据一样,一边会从其他渠道购买数据,一边也会以同样方式销售自己收集来的数据。这些大数据公司和以BAT为代表的本身拥有海量用户数据的公司一同,成为数据最主要的归处。

  而据PingWest品玩接触的包括百分点和同盾等在近几年高调地将自己定义为“大数据公司”的数名现员工以及前员工证实,他们普遍都购入过来自“黑市”的数据,且多发生在一些竞标之前。

  这种事实上违法的获取方式,在这些大数据公司的PPT中,摇身一变以“外部购买”的名义暧昧呈现。“其实业内的人都知道这是什么意思,你能从哪买啊,最大的数据要么就在BAT手里,人家没必要卖给你赚这点钱,要么在政府手里,不会卖给你。你能买到的有用的数据,就只有那些渠道。”

  这背后的数据归属明显存在严重问题。黑产市场的数据掮客,一向是警方严打的对象,他们在非法售卖公民个人信息上的犯罪事实比较明显,尤其在《网络安全法》发布并实施之后,整治和惩罚都更加严格。与此同时,通过爬虫进行数据爬取的行为,在近些年也在产生越来越多的纠纷,监管者也在处理过程中逐渐建立应对的逻辑。

  2015年,新浪微博将职场社交app脉脉告上法庭,指责后者在合作协议之外爬取了大量微博平台上用户数据,并在合作终止后拒绝删除数据。案件经过近两年审理后,在2017年初终审判决,脉脉被判“不正当竞争”。这起案件被许多律师视作标杆性的判罚。其中明确的爬取其他平台用户数据时的“三原则”,在之后贯穿于国内的各类判罚中——当两个平台希望就数据进行分享合作时,数据提供方应首先取得自己用户的同意,之后当数据获取方收集数据时,应获得数据提供分的授权,并且还需要再次告知用户,并再次获得他们的授权。也就是“用户授权+平台授权+用户再授权”三原则。

  在这种逻辑下,2017年大众点评起诉百度爬取其网站数据的案子中,百度败诉;2019年3月,天津市滨海新区人民法院就微信起诉抖音擅自获取微信用户数据一案,给出一份临时禁令,要求抖音停止将微信/QQ开放平台授权登录服务提供给多闪,停用此前获得的微信用户头像和昵称等。而今日头条对PingWest品玩表示,“此案目前没正式进入实体审理,并没有判决。”

  尽管没有直接对爬虫行为进行约束的法律法规,但在这些案例中,最常用到的法规包括《反不正当竞争法》中,第十二条第二款规定的“经营者不得利用技术手段……破坏其他经营者合法提供的网络产品或服务正常运行的行为”。而涉及刑事犯罪时,往往触犯了《刑法》第285条规定的“非法入侵计算机系统”罪。

  爬虫的问题在美国互联网界也屡屡成为争议的焦点,其中《1986年计算机欺诈与滥用法》(CFAA)是经常被援引的条款。CFAA规定,未经授权及超过授权故意访问计算机,并从有保护的计算机获取信息,都构成犯罪。严重者甚至可能是刑事犯罪。

  不过,2017年著名的“hiQ VS Linkedin” 的判决,却显示出与国内大部分判决不同的思路。Linkedin指责创业公司hiQ爬取其网站数据时违法其使用条款,但hiQ认为其爬取的都是公开数据。最终加州法院“站”在了爬虫方一边,认为Linkedin被爬取的数据都是网站上的“公开数据”,且单靠Linkedin单方面的条款和事后发出的警告,都不足以触发《计算机欺诈与滥用法》,反而是LinkedIn有利用市场领先地位不正当竞争的嫌疑,法院要求它解除对hiQ爬虫设置的临时禁令和IP封锁。

  研究个人信息数据保护的公众号“Martin的读书笔记”在分析这些爬虫判例时认为:美国对爬虫“正在慢慢突破合同法思维和CFAA的限制,开始更多考量公共利益的优先性。”

  但仔细观察这些案例会发现,无论是在国内的案例还是美国案例中,更多的关注点在于平台之间的数据归属争议,却往往有意无意回避了一个更重要的问题:在平台彼此争夺数据归属的背后,真正产生数据的用户对数据的归属拥有怎样的权利?

  “如果需要,其实我们可以还原你使用我们app时在屏幕上的所有操作。”一名总部在上海的O2O公司数据部门相关负责人对PingWest品玩表示。“你先点了哪里后点了哪里,你上下滑动屏幕的速度,你停留在哪个产品时间较久,我们在后台都知道。相当于给你的所有操作录屏,并且传回了我们这里。”

  当然,这些app并没有真的给你录屏,实现这种“恐怖”的数据收集,依靠的是“埋点”技术。也就是在特定的位置加入相应代码,收集用户在这些位置的操作行为,并发回到后端进行收集分析。这种技术早已是互联网公司的标配,如今常常以一个SDK(软件开发工具包)的形式添加在应用程序里。用户在使用应用的过程中,不知不觉地就被应用收集了所有数据。

  而随着精准推荐的需求越来越高,采集数据的需求也跟着增加。“到最后,数据采集的埋点越来越多,几乎成了全范围的埋点,管它有用没用都先采集回来再说。”上述O2O公司员工说。而在这样的思路下,许多对用户来说十分敏感的数据信息,也成了采集信息的目标。据两名知情人士对PingWest品玩称,今日头条已经开始采集用户安装应用的列表,用于分析用户的特征。而这样的权限在其他一些大厂的数据采集中是“不敢碰”的。

  而对于那些没有能力自己埋点,或自己埋点性价比不高的中小企业来说,则普遍选择使用第三方的SDK(软件开发工具包),这些SDK由近年来诞生的“大数据公司”提供。

  由于这些埋点和SDK的行为都是由互联网应用自己决定,缺少技术知识的用户很难反过来进行监督,无法搞明白自己到底哪些信息被收集。更多时候,是分发这些应用的应用商店来对应用的程序包进行审核。其中,由于苹果的封闭生态,iOS系统的应用都只能通过苹果App Store分发,苹果对应用调取的权限等规定更加严格,iOS系统向这些应用分享的底层数据也较少。但作为开源的Android系统,可以获取的底层数据权限相对更多。

  “比如,同样的一个应用,Android版的往往能更加准确地获得用户的位置数据,就是因为它底层的Wi-Fi列表数据是可以获得的,我通过分析Wi-Fi属于哪个店铺,结合GPS就能获得更准确定位,但iOS的Wi-Fi列表权限不开放给第三方应用。”一名资深App开发人员表示。

  而且,国内各类应用商店也更加鱼龙混杂,在审核上尺度不一。这些因素在一起造成许多安卓应用,在获取权限和收集数据上变得十分贪婪。而尽可能多的获取用户各种行为数据,也成了第三方大数据公司们竞争的焦点。他们推出的SDK要求的权限不断增加。

  据了解Talking Data相关业务的人士介绍,其提供的SDK 有能力收集与用户蓝牙配对的其他移动设备的信息,能够收集Android用户设备上的安装程序列表,一方面可以用于借此分析用户的喜好,另一方面也借此统计各类app的市场占有率,后者是其数据分析业务的重要组成。

  类似的模式普遍存在于这类通过提供SDK而进行数据采集和分析业务的公司中。关注移动互联网行业的人会经常看到如TalkingData、易观和个推等企业发布的行业份额类的数据报告,这背后就是基于它们广泛提供的SDK。

  而近几年,这些公司都开始主打“可视化无埋点SDK”技术,让购买服务的公司可以通过直观的可视化操作页面完成数据采集——“使用者不需要有太多代码知识”。

  但这也引起一些技术人员的质疑。“所谓无埋点,其实是全埋点,能埋的都埋了,能收集的都先收集走再说。”一家在杭州某电商类创业公司从事数据分析的工程师对PingWest品玩表示。“而且,我认为这种傻瓜化的产品和宣传,其实造成的一个更危险的问题是,那些真的不懂或者不去关注这些第三方SDK的使用者,一方面不知道自己平台的哪些数据共享给了这些第三方公司,另一方面甚至有时候不知道自己触碰了用户的哪些权限和数据。”

  每个提供SDK服务的大数据公司,都会把收集来的数据中的一些“占为己有”,从而丰富自己的数据资源,然后再把这些资源反过来集成到所谓的数据分析平台上,卖给客户。也就是说,这些数据并不是只用于收集者自己的平台,而是作为某种商品进行了出售。

  大数据公司百分点为此提出一个新的概念——“第二方数据”:“指企业和合作伙伴共同拥有的数据,所有权如何分配是商谈出来的。在使用这些数据时,也要遵循双方共同的利益”。

  但在这过程中,用户却完全缺席,这些数据采集过程中,很多都没有经过用户的同意授权,甚至是没有明确告知用户。最近频频出现的怀疑app“监听”自己,指责输入法泄露自己隐私等新闻,就都是来源于用户的不知情。

  在2016年时,Google Play就曾集中下架一批使用TalkingData SDK的应用,原因正是过度收集用户数据。之后TalkingData对外表示这是“沟通误会”,并在之后单独为Google Play 设计了一个改良版本。而据上述知情人士介绍,对国内各大Android应用市场的版本,依然可以获取被视为高度隐私的权限。“这样的现象不只是TalkingData,类似个推等其他提供SDK服务的第三方公司,其实都有这样的现象。”而绝大多数国内Android用户的app正是来自这些应用市场。

  对于这些数据采集的行为,大数据公司们的一个常用解释是,数据已经“脱敏”。但目前全行业并没有关于脱敏的统一标准,也没有相关详细法规。脱敏与否,完全成了大数据公司们的一种自觉,全靠一家公司的“底线”和价值观来决定。

  而与此同时,随着各类公司对精准营销和个性化推送等效果的更高要求,对“用户画像”的极度痴迷,客观上形成了谁越能无限逼近用户的真实身份,谁的数据服务就更有吸引力的事实。这种商业上的动力和脱敏的安全考量之间出现了明显矛盾。很多漏洞也因此出现和被利用。

  比如,在目前的许多第三方大数据公司的数据库中,在脱敏处理后,用户数据也依然会被分配各自的独立ID。但是很多app其实同时都在收集用户的设备号,其中主要的是手机的Mac地址和机器的IMEI号。前者全称Media Access Control,是手机网卡的ID,用来定义网络设备的位置。后者是 International Mobile Equipment Identity,相当于机器的身份证。两者都具有唯一性。尽管第三方公司将自己分配的独立ID形容为一种将用户真实身份去掉的方式,但显然,只要将两者对应,这些ID本身依然是一种真实信息。

  而在电信实名制的当下,想要让ID直接变成真人,只需要一步:当这两个数据与电话号数据对应上时,用户的真实身份就会彻底暴露。

  今年315晚会上曝光的“探针盒子”,就是用来完成这最后一步。据央视的调查,这个设备能在发现用户手机信号后,识别出用户手机的MAC地址和IMEI号,并利用背后的“大数据技术”,将这些设备号转换成手机号码。

  随着用户被收集的数据种类越来越多,用户的隐私变成了一张拼图,要不要把用户的真实信息“拼”出来,完全取决手握这些拼图的大数据公司们自己。

  “目前很多案例都是集中在厘清平台之间互相争夺数据的问题,但之后肯定不可避免的要深入到,用户自己对个人数据的权利的问题。” 接近公安部第三研究所的人士透露。

  最近一年,各类公司过度收集用户数据成为整治的重点。据新华社报道,中央网信办、工信部、公安部和市场监管总局在今年年初成立app违法违规收集使用个人信息专项治理工作组,“截至4月16日,举报信息超过3480条,涉及1300余款app。对于30款用户量大、问题严重的app,工作组已向其运营者发送了整改通知。”

  上述人士表示,在个人数据权利方面,相关部门一直在密切研究欧盟的GDPR,也就是欧盟去年5月开始实行的《通用数据保护条例》,它是全球现行的最严格的数据保护法案。而研究者对其过于严格的监管仍存异议。

  比如,GDPR中提到用户的数据可携权,要求Facebook和Google等主要网络将用户的数据“还给”用户,由用户直接跨平台掌握自己的所有数据。“这显得过于激进。”

  “过去的那种宽松,事实上是两方面原因,一是监管跟不上业内的技术;另一个也是因为,监管方面还是有些倾向于管的太严会扼杀创新的观点。”上述人士表示,这种倾向依然会继续存在下去。

  再比如,GDPR里的引言部分直接提出的“匿名化”的概念,规定个人数据要移除可识别的个人信息,与此同时在法案中对个人数据作出详细罗列,位置数据、IP地址、MAC地址都属于个人数据。这些数据在匿名化中必须抹去。

  但作为对比,2019年4月10日,公安部第三研究所等机构联合发布的《互联网个人信息安全保护指南》中,在提到个人信息的保护时,则避免了使用“匿名化”这个比较激进的概念。“我们的概念还是和欧盟GDPR的匿名化有些不同的,最后我们只是直接引用《网络安全法》里的概念。” 相关人士表示。在这份指南中,对个人信息的保护要求的描述为“经过处理无法识别特定个人且不能复原” 。

  “总体上你能看到有两个思路,保证用户隐私肯定是第一位的,二则是,数据只在用户手里是没有价值的,所以还是要鼓励公司对数据的合规处理。”上述人士透露。

  最高人民法院司法案例研究院4月的一篇文章也透露出这样的思路。文章指出,解决用户个人数据保护的关键在于“区分包含用户个人信息的原始数据与处理加工形成数据产品后的衍生数据,并分别判断归属”。文章认为,原始数据归属于用户,而衍生数据则归属于运营公司。这样不仅能合理平衡双方利益,更能“鼓励网络企业不断进行技术创新和产能创造,促进社会总体财富增加的需要。”

  这些年这种客观上“先发展再监管”的环境,导致许多互联网公司根本的商业模式有很大一部分已经是基于这种野蛮的数据收集以及分享的基础上。此外,人工智能发展中最为关键的算法模型,也极度依赖这些数据。

  海银资本创始合伙人王煜全就认为:在人工智能的竞争中,焦点就落在数据上,随着企业越来越多的把数据拿出来给机器训练,人类正进入一个低隐私社会,这成为一种不可逆转的趋势。

  而这就导致事到如今,大数据从业者们对“隐私”的理解与用户产生了差距,一提到保障隐私,大数据行业给出的应对往往是“不再和其他平台分享数据”,而用户希望的则是连你这个平台自己也干脆不要收集我的数据,出现了明显的沟通障碍。

  在这种情况下,监管部门也不可避免的要面对两难的处境。一个可能的方式是,首先让用户和大数据公司们回到一个能够沟通的状态中去。比如要求这些大数据公司用普通人听得懂的话向用户说明白每个数据采集行为的目的,获得用户的正式许可,并且通过一定的方式让用户分享利用他们数据生成的收益。同时,在法律层面很难明确对数据归属进行明确确权的情况下,可以通过更加严厉的事后惩罚机制,来提高过度收取用户信息以及贩卖用户信息等行为的成本,也为用户提供某种类似遗忘权的权利,让他们拥有更强的事后防御能力。

  在大数据时代,数据的确是拥有巨大潜质的新石油,但若在用户权利和行业发展之间无法正确权衡,这种新石油也一样能带来巨大的污染。

  这段歌词出自于美少女组合SHE演唱的歌曲《superstar》,本意是形容粉丝追求偶像的疯狂和梦想,但最近几个月来,公众对于大数据的态度庶几近之。

  似乎是从上一次领导换届后,大数据这个概念开始在IT业界流行起来。几年前,本人某个在知名企业工作的本科同学,被委任领导大数据方向的研发工作,开口闭口都在宣传大数据的美好前景。而最近一段时间,和人工智能深度学习等时髦词结合后,大数据似乎有席卷天下之势,众多IT大佬不扯几句“大数据”,都不好意思在江湖混了。 顺带着,IT业界外慢慢也流行大数据的神话,好像有了大数据,传输中的宝藏大门就有了打开的契机。

  到了17年年末,随着国家主。席。的表态,大数据概念的狂热达到了一个新的顶峰,年底的股市爆炒,互联网大会论坛上的喧嚣,新华社的报导,微信上大数据神话视频的传播,鼓吹一波接着一波,似乎在大数据的助力下,第四次技术革命的曙光已经在望。

  首先要指出的是,大数据的此番炒作,主要源自于IT业界的扩张需求。为什么大数据概念声势如此喧嚣?因为IT业界天生就和媒体结合得很紧密,在创造噱头方面向来都是和媒体一拍即合。 有一句老话说得好,最高明的广告就是洗脑。当IT业内巨头垄断已定时,为了避免内耗,IT业迫切需求进入其它行业。如果大数据概念深入人心,在数据收集上天然便利的IT巨头自然如鱼得水,典型例子就是Google的自动驾驶概念,一个和汽车行业八竿子都搭不上的企业竟然被认为是新时代的汽车标杆。

  简而言之,IT业界利用大众的认知差距,把有一定作用的数据分析和相应的渐进改进效果吹成革命性的突破,忽悠其它行业出钱出力,顺带建立IT巨头的核心地位。

  事实上,大数据不是新鲜概念,查查Gartner过去20年的技术炒作曲线,按照Michael 的说法,大规模数据和内容分析已经在炒作周期中三进三出:数据挖掘(90 年代)让位于分析(2000 年),分析随后又让位于大数据(2010 年)。每次勾起业界兴趣后,都遭遇了不少难题,无法达到预期效果,销声匿迹一阵子,披个新马甲又重出江湖。这次也不例外,大数据和背后的深度学习有一定的用途,但IT企业为了进入和引诱传统产业,吹得泡泡太大,过多的噱头挟裹下,大数据终将撞上现实的南墙。

  为什么互联网时代的大数据没有想象中的神奇功能?在详细解释原因之前,先回顾一下历史。

  大数据其实是一个古老的概念,在计算机和互联网崛起之前,在很多领域,早就应用了大规模数据分析。很多科学定律都是科学家收集了海量数据后推导出来的,最典型的就是开普勒的行星运动三定律。

  德国天文学家开普勒因为以数学方式总结出行星运动三定律,被很多人认为是近代天文学的一位重要奠基人。但事实上,开普勒的成就是建立在其老师第谷的工作之上。第谷在自己的私人小岛上,用自制仪器观察星空,在长达20年的时间内,仔细记录,积累了那个年代堪称海量的天文数据。临死前,第谷把这些数据交给了开普勒。在这些史无前例的数据帮助下,开普勒在天文学的数学化方面取得了关键性的突破。

  在这之后,还有很多很多的科学家,借助数据积累取得了在科技方面的贡献,比如卢瑟福的原子模型,再比如双螺旋结构。中学和大学教科书上,这样的例子数不胜数。而在科技之外,在其它领域,也有很多依靠数据分析获得成功,甚至开创新局面的例子,比如按揭买房贷款。

  对于从小就浸润在科技氛围的现代人而言,大数据的好处似乎是天经地义的。那么多前辈依靠数据分析而成功,现在移动互联网时代,海量数据能获得的回报应该也不会少。事实上,众多IT企业也有不少成功的例子,因此,大数据的狂妄并不是建立在沙滩上。

  但正如数学推导中要区分充分条件和必要条件,大数据的重要性并不意味着大数据的万能性,大数据在某些方面的成功不能推导出大数据在其它方面就一定能得心应手。 即使在科学领域,也不是所有的定律都是依靠数据分析得出的。甚至可以说,很多重要科学成就和大规模数据分析无关,最典型的是爱因斯坦的相对论。 爱因斯坦的相对论,尤其是广义相对论,是理性思维和大胆假设的结果,在此过程中,并没有海量外部数据来为爱因斯坦提供帮助。

  在社会领域,最新大数据失败的例子就是2017年的爆款电影《战狼2》。如果在前两年,咨询来自IT企业的跨界电影制作人,什么样的电影能取得票房成功?这些人会喊不犹豫的说,IP(不是网络IP协议)+小鲜肉明星。在这之前,无数此类的电影已经取得了成功,最典型例子就是《小时代》系列电影,《同桌的你》以及《爵迹》等。这些电影以小搏大,其回报率羡杀《太平轮》这类的传统大片。某IT巨头的电影部门负责人甚至公开宣称,以后不需要专业编剧,IP改编就行了。为什么有这样的自信?因为这些IT企业依据过往的大数据进行分析,IP+小鲜肉明星是一条成功的捷径。但2017年的暑假档给了这类电影一个大耳光,《三生三世十里桃花》,《悟空传》,《鲛珠传》走的都是“大IP+小鲜肉”的模式,但在《战狼2》的巨轮前,统统被碾成碎渣。《战狼2》的空前票房纪录表明,创意+精心制作仍然是电影成功的基本因素,但创意这个东西,是大数据所不能企及的。

  为什么大数据不能无往不利?因为建立在计算机技术基础上的大数据,其背后的指导思想本质上还是“量变导致质变”,不涉及,也不可能涉及范式转移。

  前面提到开普勒的成功建立在第谷积累的数据基础上。那为什么第谷没有做出相应的发现?因为在中世纪的欧洲,天文学范式是地心说。即使在哥白尼提出日心说以后,第谷依然坚持日心地不动模型。他认为所有行星都绕太阳运动,而太阳率领众行星绕地球运动。他的体系本质上还是属于地心说。在这样的范式模型下,再多的数据积累也不可能给出正确的行星运动定律,只会在错误的道路上越走越远。而开普勒突破了地心说的范式,换一个角度来考虑问题,把地球当成一颗普通行星,第谷在地球上观测到的数据才有意义,才能总结出正确的关于行星运动的数学描述。

  康德有句名言,人的理性为自然立法。人类的大脑具备有先天综合的能力,能洞察出纷繁数据后的本质规律。当数据的连续积累效应无法起作用时,莫可名状的人类直觉能实现惊人一跃,实现范式突破。所以,开普勒突破了地心说的窠臼,转而用日心说来考虑问题;化学家凯库勒想到了笨分子结构中,碳原子链可能咬尾;卢瑟福突破了物质均匀分布的框架,提出了原子核模型。

  与人类大脑的涌现特性想反, 现代计算机体系是彻彻底底的决定论。任意给定一个时刻,在知晓计算机的当前状态和计算机后面的输入数据基础上,计算机内部的任何细节理论上都是线性可预测的。现代计算机是数学家拉普拉斯所推崇的决定论的完美体现。建立在计算机技术上的大数据分析,代码赋予其能力,也束缚了其范围。

  举一个关于曲线拟合的例子。一台理想中的计算机,其附带的曲线拟合程序代码中,已经内嵌了关于多项式函数,指数函数,正弦函数等无数的经典数学函数。对于绝大部分曲线拟合,在不知道数据点背后产生原因的情况下,程序拟合出来的曲线,在一定范围内,其外推性也是足够精确的。而且,数据越多,精确性越高,这体现了程序背后的微分原理----在某个点附近,导数乘以自变量的微小变化约等于函数值的微小变化。但如果现在碰到类似x(i+1)=k*x(i)*(1-x(i))这样的迭代方程给出的数据点,程序要抓狂了,原因很简单,这类数据点对于参数k和初始值是极度敏感的,其混沌效应不是任何经典数学知识所能预测的。在这种情况下,再多的数据也无法帮助程序来拟合这类曲线,因为这涉及到代码之外的东西。面对这种数据,需要的是人类的大脑的创新和抽象思维能力。

  现在流行的大数据,缺乏的就是这种能力。收集了数据,并不意味着数据能自动告诉使用者怎么做。数据必须借着程序的威力来展现自身,而程序是由人编写的。代码是编程者对世界的认知模型,从输入计算机的那一刻开始,这个认知模型就已经固定了,除非手动修改。而现有的各种认知模型本质上都是从某些侧面对复杂世界所做的局部剪影,这种模式建立在已有范式上。相应的计算机程序帮助人类在有限范围内活动。但由于计算机的决定论特性,程序无法跳出代码的框架,程序完成后,如果想追求范式之外的发现,只会缘木求鱼。所以数据分析给出了“大IP+鲜肉”的电影票房成功模型,但程序不会知道,观众已经厌烦了这一个固定套路,后来者只会落得东施效颦的下场。反而是人类大脑能够敏锐的发现,市场已经起了变化!《战狼2》的硬汉模式正当其时!

  事实上,网络上到处都有这种僵化的数据分析结果。本人曾经在百度上搜索过“果汁机”,结果一段时间内,到许多网站访问时,弹窗广告都给我推荐果汁机”,问题是我搜索“果汁机”,只是想看看果汁机怎么用,而我早已经买过果汁机了。

  如果说,大数据分析在科学定律的发现过程中有着重要作用,具体到人类的技术领域,大数据起的作用可能会更小。因为科学定律有着时空上的稳恒性,众多的数据或多或少会反映定律的某个侧面,因此数据积累总体而言是有意义的。但技术的核心是实践,技术与现实世界相互依赖,相互反馈。任何革命性技术的普及,不仅要考虑到技术本身的优劣,更重要的是能与现实世界成功互动,受制于世界,但更能超脱世界。

  现有的大数据概念,为了吸引金主,提出了各种各样的口号,其中最具有蛊惑性的就是“大数据能帮你更好的了解用户和问题”。这口号有问题吗?貌似没有问题。有很多例子表明,基于消费者的数据积累能帮助企业更好的了解产品的缺陷,进而通过技术融合和扩展制造出更好的产品。消费者(或者使用者)的意见肯定很重要,但问题是消费者真正明白自己需要什么吗?消费者现有的需求是建立在企业现有产品上,分析数据的人员也是为企业服务的。大数据分析能够帮助企业了解消费者的表层需求,进而改进现有技术,但这一过程不能无限推进,数据分析并不是万能的。大约十年前,移动运营商的短信服务曾经风靡一时,运营商做了大量市场调研和数据分析,推出了各种各样的短信服务套餐(如10元包300条短信),力图满足各层次消费者的需求。“拇指一族”在某个时候肯定是感激涕零,运营商也是志得意满。但微信的降维打击来临时,运营商突然发现,所谓的消费者大数据分析很大程度上是自欺欺人。

  和需求导向不同,世界上有一个被称为供给学派的经济学支派,他们更推崇的是“供给创造需求”,好产品自动会引发需求。因为很多时候,消费者(或使用者)往往会处于既有范式之中,所谓的需求会局限于老产品的逐步改良上。在19世纪末到20世纪初这一段时间内,西方城市交通的主力是马车,城市里塞满了马,随之而来的牲畜排泄甚至导致各国召开了一次国际会议来讨论处理城市马粪问题。

  在这个时候,如果咨询消费者,你需要什么样的交通工具。消费者肯定是围绕马来进行改进,亨利福特有一句名言:他们会说需要更快的马!最终,城市交通问题的解决不是依靠马,而是更高层次的汽车!亨利福特以其勇气和智慧给世界带来了海量的便宜汽车,彻底改变了城市交通面貌。

  这样的例子举不胜举,最近的例子就是风靡整个中国的共享单车。历史已经一再证明,能改变或创造一个产业的大创新,更需要的是突破现有范式的洞察力。这种洞察力不是大数据和背后的计算机程序能够提供的,只有人的大脑才能胜任这样的工作!

  因此,在大数据沸反盈天之时,我想问一声,大浪退去之时,谁来给大数据概念穿上泳衣?

  也因此,从某种程度上来说整个《三体》世界的遭遇就是“信息不对称”的终极演绎,只不过在大刘的春秋笔法之下变成了一幕幕太空歌剧。

  往小了说,数据涉及到个人隐私,诸如是非、对错和立场;往大了说,数据正在参与并干预整个人类世界的社会生活,不管是昨天、今天还是明天。

  当越来越多的历史被网络誊写、越来越多的痕迹被网络捕捉、越来越多的情绪被网络放大;不知不觉,我们竟然已经习惯了空间中充斥WiFi、空气中弥漫byte的生活;就像飞鸟对于自由的渴望、鱼儿必须生活在水中,我们也很难逃脱那张触手可及的“网”。

  2018年8。

上一篇:消费市场趋稳?百度搜索大数据回复“YES”
下一篇:工信部发指导意见 着力打造工业大数据生态体系

 

相关资讯 Releva ntnews
热点资讯 Hot spot
现代快报多媒体数字报刊平台
服务热线

http://www.artbyannashapiro.com

中港彩票,中港彩票平台,中港彩票官网,中港彩票开户,中港彩票注册,中港彩票投注,中港彩票登录 版权所有

网站地图