隐私泄露下的数据暗网:大数据广告精准推送原理


自打人类进化中出现了商业的那一刻起,营销,就成为了人类钻研的核心。交易的本质是价值交换,但世界上不存在永远对等的价值,所以交换中存在套利空间,这些套利空间,成就了商业的价值。逐利是人的本性,这是刻在基因里的。

如何把一件产品附加上额外的价值,卖给自己的同类,换回更多的金钱,成了最打动人心的事情,比世界和平还要打动人。毕竟和平是所有人的,而金钱是少数人的。越少越珍贵。纵观人类历史的每一个时代,最先进的技术往往都是最先应用于军事和贸易,而军事,很多时候也都是为贸易所服务的。从古至今皆是如此,大数据年代也不例外。

在这个人人标签化的数字年代,广告业前所未有的深入到了我们生活的方方面面,影响了我们的各种决策。你以为你做出的购买决策是基于自身的意愿,但现实并不一定如此。作为一个整日与数据标签打交道的风控,反商业作弊也是我的日常工作,如果不懂商业广告的底层逻辑,那么是做不好风控的。

这篇文章将给大家科普大数据广告的精准推送原理,我想为大家展示一下数据在合理的策略里可以完成多么恐怖的事情,这是真正的改变世界,或者说是掌控世界。这里面有谣言,也有真相,更多的是真相与谣言参半。甚至有时候真相比谣言更加魔幻。

让人掏钱,不是一件简单的事情,哪怕是有技术的支持。数据广告推送,本身是一个极为复杂的工程,这里面涉及数据采集,数据清洗,口径对齐,数据关联,模型训练,策略迭代,场景验证,流量分配,成本控制,渠道管理等一系列工作。

每家合格的数据驱动的营销公司,都会有一只数百到上千人的团队专门做相关的工作,数百个聪明的脑袋996只为做一件事。让你在不知不觉中心甘情愿的掏钱。

靠一篇文章写全这些,既不太现实,也没必要,所以我决定围绕一个关于大数据广告非常经典的谣言,从辟谣开始,来一步步拆解数据广告推送的基础知识以及对我们生活的影响。

很多人在网上说自己的的手机被人监听了,原因是自己刚和别人讨论了某个话题,没过多久,手机上就出现了类似信息的广告。例如自己口述了想喝奶茶,打开外卖软件就出现了奶茶推送。自己说想去欧洲旅游,打开网页就出现了旅游广告。自己谈到了某种商品,打开购物APP就出现了类似商品的推送。

所以很多人觉得自己在被自己手上的APP所监听,然后这些监听依据相关的关键词拆解讲话的意思,然后就推送给自己各种各样的广告,精准不精准不说,着实是吓人一跳。有段时间,整个互联网都在盛传某某APP拿录音权限就是为了实时监控用户,甚至某些APP还在偷偷录像用户云云。

我得承认大家的想象力是很丰富的,在不懂网络广告推送机制的前提下,提出这些猜想某种程度上也是合理的,但这都是谣言。互联网公司不会用这种方式来做所谓的精准推送。不是他们良心发现,而是这么做没有性价比。商人逐利。

为什么不用录音做推送?从用户角度思考方案,可能只考虑这件事是否能实现,监听录音从技术上可以实现;但是作为商业公司评估方案,除了需要考虑能不能实现这一点之外,还要综合考虑成本,效率以及风险,马虎不得。商场如战场。

利用录音做信息收集,然后做广告推送,在当下,是一件成本极高,效率极低,风险极高的事情。不仅要投入大量成本,连毛都赚不回来,还要面临侵犯用户隐私的指控,脑子没冒烟的公司都不会做这件事,即使是冒烟的公司,做到一半就会发现划不来,然后不做了。

录音牵涉的主要问题如下:

  1. 录音功能会让APP消耗海量手机资源。

当一个APP在后台持续录音的时候,不仅是APP本身运转会变得迟缓,更多的是会造成手机本身的耗电量和发热大幅增加,一来二去,用户直接就不使用了,因为一用你的APP手机就不好,市场上可选择替代品又太多。

当年滴滴和快的大战的时候,滴滴在关键时刻胜出靠的就是腾讯支持的1000台服务器以及数百名顶尖工程师,比快的早半个月实现了用户体验的质的飞跃,后面的故事大家都知道了。

  1. 录音文件本身是占用手机存储空间的,并且占用极大。

大家可以自己录一段30分钟的录音看看,这个音频文件会有多大,一个APP如果持续录音,在用户重度使用的情况下,可能几天就把手机彻底塞满了。这会造成非常荒谬的后果。

  1. 录音录下来之后,无法及时处理这些录音数据。

如果把录音处理模型放在本地APP里,那么一个是APP安装包臃肿,一个是会被竞争对手反编译,商业机密直接透明,把核心能力包在APP本地,是很愚蠢的事情,吃鸡为什么外挂屡禁不止,就是因为运算整体在本地文件,无法抵挡本地篡改,所以本地存储方案不靠谱;

如果走实时上传,那么传输过程中需要流量,这造成用户的流量损耗极为恐怖,并且很容易就被识别出来上传用户信息;这些数据属于无用数据。

  1. 录音分析来的数据价值低,且不准确。

如果手机APP监听录音,那么首先得保障他监听到的是你本人讲的话,因为推荐是要对你本人进行操作的,但是在现实生活中,录音没法保证只录某个人的声音,要录就是一起录音,这就导致录下来的声音也不知道是谁的。

想想看,我在你身边走过,冲着隔壁的人大喊一声“杜蕾斯”。然后你打开手机给你推荐杜蕾斯,这种沙雕推荐是不是非常魔幻?这就是无差别录音带来的问题。

  1. 语义分析在目前依然面临无法解决的语言本身的问题。

人类的语言是一门艺术,汉语更是高阶艺术,而机器尚未破解这一艺术。如果大家试过录音转文字,或者语音输入法,就会发现,机器没有办法完整的识别有效的语言场景。

我们来做一个语义识别题:

领导:“你这是什么意思?” 小明:“没什么意思,意思意思。” 领导:“你这就不够意思了。” 小明:“小意思,小意思。” 领导:“你这人真有意思。” 小明:“其实也没有别的意思。” 领导:“那我就不好意思了。” 小明:“是我不好意思。”

这里面的每一个意思,都是什么意思?机器根本做不到识别这些内容。甚至很多时候你只要讲方言或者讲话一快,机器就根本不知道你在说什么了。精准推送的前提是数据可靠且精准,录音绝不在这种数据中。

  1. 录音带来的风险,要远远超过收益。

录音这件事情,本身是非常敏感的,要是哪个APP能被明确抓出来在偷偷录音(目前所有的质疑都只是质疑,没有明确的数据和代码证据),第一个搞他们的不是网民,而是工信部。这种侵犯隐私的行为,正是抓紧去教育的好时机。

而公司只为求财,不想求进监狱里。

看到这里,我想很多人对于录音这种谣言已经足够了解了,但是还是有疑惑自己身上发生的神奇的事情,没关系,我们继续讲下去,看看真正的数据推送是怎么做的。我们如何通过巧妙的技术把我们自己困在广告里。

数据推送是如何实现的?

    一套最最基础解法是,X+N=Y,这是最简单的公式。X是指的用户特征变量(用户画像),N是指变量应用(算法,策略),Y是指推送效果(用户是否购买)。所有收集来的用户数据,经过标准化ETL(数据处理),再经过特征工程,形成有效的X。有了X之后,N就是如何使用X,让最终结果更接近于Y。

这里可以利用算法,也可以使用策略包,目前的主流是使用策略包,因为算法的效果随机性比较大。所谓的精准推送,本质上其实就是一个用X和N寻找接近Y的过程,所谓的训练模型,只不过是在已知X和Y的情况下,找寻可以让X更接近Y的算法,找出更好用的N。

单纯这么说比较抽象,我举一个例子大家就明白了。小A是一个18岁的美少年,曾经在淘宝上买了很多XX品牌的跑鞋,并且经常搜索大体重跑鞋。从广告推送的角度,针对美少年小A的推送会这么做。首先拆解小A身上的标签,做成X。男性,18岁,XX省人,学历XX,跑鞋,大体重,常用购物平台,手机型号,APP来源,手机入网时长,话费消费记录等等,这些标签都是X,来自于各种各样的数据源。

然后通过过去的购买记录,找到半佛曾经购买过的商品,就是各类跑鞋,做成Y。一个简单的用户画像就出来了:年轻男性,热爱跑步,胖,乐意花钱,有品牌倾向性,喜欢在淘宝购物,多数购物来自于主动搜索。

那么这时候就可以通过一定的策略,给半佛推荐大量的符合他历史购买习惯的跑鞋(从品牌到型号到价格),如果成交了,就代表算法有效,进一步强化推送;如果没有成交,就弱化部分特征,推送新一批跑鞋,只要成交,就依据成交结果修正算法。最终小A只是无聊刷淘宝,但是最终买了1000双跑鞋回家,然后又挂到了闲鱼上,创造了好几次GMV。

当然实际应用中会比这个公式要复杂很多,各种变量间的衍生变量,不同用户间的关系网络变量,同一个用户在不同场景中要匹配不同的Y,X作为Y,Y作为X,用户消费心理勾画,产品要素设计等等等等,广告推送可以说是互联网最复杂的应用,可能都没有之一。因为人的购买欲是不稳定的。

上面举的例子仅仅是复杂度为1的情况,实际在应用中,数据和公式的复杂度基本是10086起。考虑到本文是科普性质,所以我只拿最基本的东西来讲,大家了解这个数据推送的逻辑就可以了,算法本身不是重点。真正的重点在于精准数据的获取,这才是对我们生活影响最大的。数据时代的我们,一切都可以量化。

很多人所谓的自己偶尔说了什么,然后就收到了相关的广告,所以怀疑自己被录音。我理解这种想法,但我要说实现这样的效果,根本不需要录音这么麻烦,有的是更精准的方法来获取你的X。

  1. 最基础的就是你的主动搜索记录。

包括你在搜索引擎上的搜索,你在购物网站的搜索,你在各种APP(不一定要是购物)中的搜索,这些你主动搜索的信息,都是高权重的X。

如果是网页端的搜索,那么浏览器和搜索引擎都会留存你的cookie,即使你有定期清除浏览记录的习惯或者知道每次上完网清cookie也没用,现在云计算的发展已经可以做到实时上传,你清除也没用。

  1. 除开搜索记录和购物记录外,最精准的数据之一就是你的手机App List以及注册APP列表。

就是你的手机曾经安装过哪些APP,当前手机安装了什么什么APP,以及每一个APP的打开率,使用时长等等。

这个通过用户授权直接读取APP列表以及通过短信验证码反推安装注册可以实现,即使是号称IOS,也可以通过APP跳转撞库的方式来撞出至少48个APP。

每一个APP都是代表了一大串的X,毕竟每个APP都有自己的属性和目标用户,这些特征都是很显著的。你安装了拼多多,可能代表你是一个价格敏感型用户,可以给你推送便宜货;你安装了Bilibili,可能代表你是一个喜欢二次元的用户,可以给你推荐动漫周边;你每天大量时间沉迷在抖音,可能代表你是一个热衷于Kill Time的人,当然头条还会用你在抖音中的浏览记录来更精细化的推荐各种二类电商产品;

你用什么APP,某种程度上在机器眼中你就是什么人。

  1. LBS地理位置是一个非常有用,但是很多人都会忽略的内容。

很多所谓的谈到奶茶后,打开外卖APP会弹出奶茶店铺广告的案例,其实都是因为使用了LBS推送。大家都知道APP会实时获取用户的地理位置,生成与之相关的X,而外卖店铺,本身也有自己的业务辐射范围。

当你走入到这个外卖店铺的辐射圈子的地理位置时,就给你推送相关的信息,让你不得不看。

某著名网红插,就经常喜欢对自己门店2公里内的外卖APP用户进行无差别推送,别管你喝不喝,来了就先看个广告吧。获取LBS的途径有很多,很多时候通过WIFI的固定连接点,也可以识别你是不是在那幢楼办公或者生活,然后围绕这一变量给你进行推送。你在哪里,你就是谁。

  1. 聊天记录读取,短信读取,这种东西都太寻常了,我要说的是,输入法。

只要你打字,你的输入法是知道你键入了什么内容的,这部分内容,都会被留存下来,然后作为你特征变量的一部分,这可比录音要好多了,因为百分百是你本人打的字,而且文字表达的含义也更加清晰。

某些输入法,就在做着这样的事情。输入法既然可以监控你的录入,当然也可以直接读取你的剪贴板,看到你曾经读取过什么。甚至技术厉害一点的,可以直接监控你的键盘轨迹,连你曾经打出来但是又删除掉的内容都拿到。

哦对了,关于录音,有一点是真的,就是当你用输入法的语音录入功能的时候,他们确实是知道你的录音的,只不过不是读声音,而是通过录音转录文字后的关键词,是读文字。输入法对于用户隐私的监控与泄露,是非常严重的,而且大多数人都无从感知。你忘记的,输入法都记得呢。

  1. 当然,手机本身,就是一个最大的隐私收集器,在系统厂商和硬件厂商眼中,大家其实都是裸奔的。

再讲一个恐怖故事,这些从各种APP,各类输入法,各种手机中收集来的用户数据,都是可以交易的,各家公司都在利用这些数据。

随便举一个例子。用户在今日头条APP中用百度输入法输入【尿不湿】,百度和今日头条都知道用户在今日头条输入了这个【尿不湿】,他们有了这个数据,这个数据并且是直接关联用户手机号的,就是说,大家知道是谁,在什么时间,在哪个APP里,输入了什么。

而这条精准的用户信息,是可以卖给淘宝或者京东的,淘宝获取了这个信息后,就可以对这个手机号关联的用户去进行相关的推送。这个市场的体量和交易额远远超出所有人的想象,但是知道的人却寥寥无几。

如果要穷举各种APP各种手机收集和利用用户隐私的案例,可能讲几天几夜也讲不完。我来给大家讲一个基于数据采集的用户画像案例吧,看看我们的一生是如何被数据拆解的。下面的文字部分为正常生活描述,括号内为获取这些数据的途径。

小明,在广告公司上班(通过短信读取公积金信息,或者支付宝绑定公积金)。28岁,男性(身份证号拆解)。本科学历(学信网接口通过身份证号调用),外地人(身份证号前6位对比工作所在地)。租房(租房APP或者代缴水电费账户名字与本人不同)。贷款买了一辆小车(贷款APP数据,支付宝绑定行驶证,每月短信还款提醒)。平时的消费爱好是买书和拼多多(支付类APP付款记录),以及打手游(游戏类APP以及账号体系)。经常去XX网吧通宵(外卖收货地址,网吧管理软件用户体系)。住在XX小区(快递收货地址,手机LBS活跃圈,WIFI连接热点)。偶尔也去旅游(车票酒店购买记录,异地网红店消费记录)。甚至喜欢看点小电影(浏览器记录,购买付费记录,转发记录)。朋友很多(好友数,日常活跃好友数,通话记录与通讯录的交集),朋友们的消费水平也一般般。收入一般般(短信读取银行到账短信,手机话费余额消费账单)。有一个女朋友小红(聊天记录,通讯录,通话详单),已经同居(购买大量女性生活用品)。女朋友公司在XXX(基于小明除家里以外的收货地址,关联一些女性物品交易记录)。快要结婚了(网上搜索大量与结婚有关的信息,下载了婚礼类APP)。最近可能要当父亲了(查看婴儿用品,网上搜索很多育儿经)。最近手头有点紧(下载了很多借款APP,读取短信可以知道有些下款了,外部可以采购到他的多头负债情况)。等等等等等等等(10086个等等)。

如果你是广告商,你拿到了这些数据,你可以非常精准的在小明人生的每一个阶段,都恰恰好推送一些恰恰好的广告,很多人可能光看描述就已经在构思营销方案了。

而且,这还只是小明一个人的数据,如果再加上小红的数据,小明朋友的数据,小明父母的数据,最终就会成为一张关系网。例如当小红在搜索孕妇装的时候,其实就可以给小明推荐奶粉和婴幼儿保险了。例如小明在搜索各种片子的时候,其实就可以给小红推荐一些情趣用品了。

这种关联多如漫天繁星。星空下是我们平凡的人生。如戏一般的人生,剧本不在我们手中。我们只是一颗棋子。

斯诺登的棱镜事件大家都还记得吧,美国政府在全世界范围搞监听。但要我说,棱镜那个东西,在大数据多维交叉验证面前,只是上个世纪的玩具。通过数据挖掘和收集,我知道你的爱好,知道你的活动范围,知道你的详细信息,知道你的社交圈,知道你可能要做的事情,知道你的一切。我比你还要懂你。

为什么我国政府近几年特别重视个人隐私,对于各种滥用隐私行为都是严厉的打击,每年都有大量数据从业者被送进去?因为当企业知道用户的一切的时候,某种程度上,就可以通过推送,来影响用户的一切。

这个影响可以是精准推送赚钱,也可以是做的更多。

还记得美国大选的时候,FaceBook直接倒卖用户数据来监控舆情,甚至通过精准推送来影响大选的结果?这是一种超越国界的能力。不仅仅是改变世界,甚至是掌控世界。

而回到我们自己。我们的一切,在公司眼中,只是一个个数据标签,是达到他们目的的必要生产资料而已。他们做的就是把我们做成数据,然后向我们灌输数据,从我们身上得到他们想要的东西。

我们一生的欢笑与泪水,开心与难过,认真的思考,谨慎的决策,最终都不过是一组数据,都是可以被拿来利用的。他们甚至都不屑于支配我们,你会去冲着一堆数据使劲儿吗?他们只需要调整参数就可以达到目的。

现在巨头们已经完成了数据的合围,然后通过交易来垄断这些数据。我们的一切都透明了,再技术飞速进步的年代,钱和权力都无法阻止这一切发生,除了死亡外,人类在大数据面前也是平等的。

这一切都不是秘密,完全是公开的事情,甚至那些卖数据的公司都恨不得自己去打广告找到更多的买家来买,因为卖的人太多了,市场竞争过于激烈,数据量过于饱和。这魔幻又现实。

我们的一生的故事都在里面,爱也在,恨也在。

大数据的发展确实给生活增加了便利,这无可否认。但如何掌握数据采集和数据应用的度?这是一个很大的问题。更大的问题在于,这种被设计好的生活,真的是我们想要的吗?我还没有答案,你呢?

原文地址


文章作者: ghf
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ghf !
评论
 上一篇
树莓派安装OpenWrt 树莓派安装OpenWrt
树莓派安装OpenWrt开启网卡混杂模式 sudo ip link set eth0 promisc on 创建网络docker network create -d macvlan --subnet=192.168.198.0/24 --g
2020-03-21
下一篇 
有哪些大家不说,但需要知道的社会规则? 有哪些大家不说,但需要知道的社会规则?
有哪些大家不说,但需要知道的社会规则? 1、女人都以为男人说的“我养你”,是可以让她在家看看书、练练瑜伽、养养花、遛遛狗,下午再出去和姐妹逛逛街、喝个下午茶、做个美甲、敷个脸的那种“我养你”; 而男人所理解的“我养你”,是让你在家洗衣、做饭
2020-03-04