院长
发表于 2021-5-28 14:35:41
现在没有一个很好的实验方案,我们无法科学地证实或者证伪阿里系手机软件具备监听周围环境语音来进行推荐模型修正的功能。
在Android环境下你真的怕它监听,建议你这样保护自己。
最大的前提是,不要使用阿里YunOS、MIUI、EMUI、360OS等国内定制版Android。使用原生Android以及基于AOSP的第三方ROM,比如LineageOS。输入法仅使用Google拼音,或者一些没有联网功能的旧版本输入法。
首先把所有的阿里系应用、所有能调用支付宝接口的应用(知乎也是)的录音权限全部禁止。
然后使用绿色守护或黑域等软件,彻底阻止所有此类app的后台自启,防止这些玩意在锁屏时偷偷启动。如果软件需要Root、安装Xposed或者Magisk之类框架才能发挥全部威力,就照做。如果还是不放心,可以考虑能冻结用户应用的软件,阿里系应用平时冻结,需要时再解冻。
还有,现在低月租卡这么多(推荐米粉卡和联通的老1元日租卡/天神卡,月租仅5元),一个人养五个以上的手机号都是很轻松的事。我是建议不同的银行账户、投资账户尽量绑定不同的手机号,和所有互联网账户绑定的手机号分开。绑定重要账户的手机号装到一个支持3G/4G的功能机、运行原生Android且未安装任何应用的智能机、或未登录Apple ID的iPhone里,关闭数据网络和Wi-Fi功能,如果可能,禁止使用2G网络,只用于通话和短信(包括验证码)。
院长
发表于 2021-5-28 14:50:43
不想再多解释了,技术上可以实现可以实现可以实现,好了吧?求求各位大神别再在评论里说这个了,首先要实现的话,照你们说的肯定要做离线语音识别,现在是2018年1月31号,app store里淘宝手机app整整200m的东西,我不认为淘宝这么蛋疼给你放个离线语音识别功能,再说了,通过监控用户日常对话做推荐真的是非常非常非常蠢的行为,我根本不认为这能推荐出什么东西。
如果淘宝真有什么不可告人的原因要搜集某个用户的数据,我相信他有无数种方法通过淘宝或者是支付宝把你日常对话和甚至是摄像头能扫到的一切图像给获取到,但是你要说他用这个方法给你做推荐真的是很扯蛋的。
最后,真要担心隐私的话,为啥你不担心你微信、陌陌以及各种即时通讯类app里的东西?微信号称点对点加密,消息发送出去到了服务端鬼知道是不是有wj能随意看你的聊天记录?之所以你的信息是安全的是因为你没犯事,上面也对你没兴趣而已。
再说点近的,你猜猜看你在公司用QQ聊天的时候,网管是不是知道你所有的家长里短?
分割线下是原答案
先说结论:监听对话从技术上是可以做到的,但是手机淘宝是绝对不可能通过监听对话来做商品推荐。原因如下
一、技术上角度出发:想要在本地就完成如题主所说的语义分析,首先得能识别每一句话+分词,然后从每天一大堆的语言中提取出几个关键字,手机淘宝就100多m的东西应该是放不下这么强大的训练模型的,如果是每句话都上传那就更不可能了,真当服务器资源不要钱?以手机淘宝的用户量,还每时每刻都上传语音去服务器上做分析然后再推荐?另外,如果有用户用抓包软件看到时时刻刻都有大量不明信息上传服务器淘宝还不完蛋?
二、再从实际效果上说:多少读书党上课玩手机的?你们有没有被推荐过五年高考三年模拟啊?作为一个码农每天上班玩都和同事说接口接口前端后段服务端啥的为毛我从来没被推荐过技术书籍啊?我每天早上去麦当劳都是咖啡咖啡也没见淘宝给我推荐咖啡啊?年轻人不要总是想搞个大新闻。
在知乎,黑百度黑阿里仿佛已经是政治正确,这个问题下有种三人成虎的感觉,有另一位答主也从各种角度上做了分析表达了不能通过监听对话来做商品推荐并且有理有据,然后竟然就被别人说成洗地的。。。
总体而言,在这个个人隐私无处遁形的时代,大家对自己未知的领域还是有莫名的恐惧
院长
发表于 2021-5-28 16:30:52
正好前一阵看了这么一个新闻,17年底的事儿,尽管不能直接回答这个问题,不过...
https://www.nytimes.com/2017/12/28/business/media/alphonso-app-tracking.html
That Game on Your Phone May Be Tracking What You're Watching on TV
Yet these apps, once downloaded onto a smartphone, have the ability to keep tabs on the viewing habits of their users — some of whom may be children — even when the games aren't being played.
It is yet another example of how companies, using devices that many people feel they can't do without, are documenting how audiences in a rapidly changing entertainment landscape are viewing television and commercials.
The apps use software from Alphonso, a start-up that collects TV-viewing data for advertisers. Using a smartphone's microphone, Alphonso's software can detail what people watch by identifying audio signals in TV ads and shows, sometimes even matching that information with the places people visit and the movies they see. The information can then be used to target ads more precisely and to try to analyze things like which ads prompted a person to go to a car dealership.
More than 250 games that use Alphonso software are available in the Google Play store; some are also available in Apple's app store.
大体就是说Alphonso是一家为广告商提供电视节目观看数据的企业,广告商可以通过用户的电视节目观看习惯来更好地推送广告
那么它是怎么收集这些数据的呢...
通过用户的手机话筒来检测电视里面的声音
那么它是怎么跑到用户手机上去的呢
内置在游戏里,而且谷歌商店上已经有超过250个游戏内置了Alphonso的软件...
当然这家公司宣称不会收集手机用户的对话信息,也拒绝公布到底收集了多少数据,只是说用户可以自己选择关掉访问话筒的权限
要放了以前我觉得手机软件实时监听用户对话,有点儿阴谋论的感觉...
现在可以完全确认的是
通过话筒监听对话技术上没有难度
已经有别的公司确实这么做了,而且还是正规的企业,而且(貌似)还没因此受到处罚,而且还会继续做下去
根据部分答案可以疑似确认的是
手机淘宝在用户没有进行语音输入的时间段使用了话筒
淘宝上推送的商品和用户日常对话有关联性
emmm.....这个趋势太可怕了
院长
发表于 2021-5-28 19:10:33
反对@Matrix.小泽直树 的答案,不要低估阿里系对数据的欲求。
这位答主这么想,一定是没有看过安卓版支付宝隐私事件的内容:
据网友爆料信息称,支付宝Android版每隔几分钟会在后台启动摄像头进行拍照、录音,并上传到服务器,甚至会扫描通讯录,通话记录,以及附近WiFi等信息。该网友还附上了详细的数据和截图显示爆料的真实性。
我推测淘宝的做法同样是隔一段时间开启麦克风录音,并上传至云端分析,事实上上传一段录音并不需要多大流量,微信语音文件就很小很小。并且,支付宝会这么干,淘宝同样很有嫌疑。
…………以下是原回答…………
我也是这样的!前几天在超市,跟女友讨论过要不要买点香肠回去,后来不是很想吃就作罢。之后还讨论了小时候街边的腊味店。
结果今天就看到了淘宝推送"猜你喜欢,香肠"
它绝对在监听用户!
院长
发表于 2021-5-28 21:33:40
APP监听纯属扯淡,毕竟一个人每天讲过的废话实在太多了,如果淘宝真要录音,你的广告列表早就飞一样,不断飘过“早饭,外卖,明星同款”等等,根本不可能出现众多答案下那种准确的建议。
但是以下几个技术是确实存在的:
1. 关联行为推荐
比如你在其他地方浏览过酒宴,搜索过婚姻登记处地址等,这些数据被共享给淘宝并导致系统推送婚纱照广告。
2.千人千面画像预测
每个人的性别,年龄,婚姻状况等都可以通过收集行为和购买记录进行推断,然后在每年结婚的黄金月份前统一进行广告推送。证据就是我已经结婚多年还经常在微信朋友圈刷到韩式婚纱照优惠,这属于大数据分析失败:)
3.亲邻推荐
这招不常用,我也不确定阿里系是否有单独团队在做这种小众算法。它的心理依据就是你家买东西总是由特定人物负责,因此你需要的东西应该推送给掌握着钱的人。系统根据IP地址,送货地址电话,亲密付等关系网推算出和你最亲近的人物,并把你需要的商品推送给她。所以可能会出现公用一个家庭WIFI的人看到了彼此感兴趣的商品。
院长
发表于 2021-5-28 23:22:02
楼上那么多人都以黑科技、成本高等来认定这个系统不可能存在,我想说,如果这个系统真的存在,它根本不需要每条语音都传回服务器,只需要客户端识别关键字,再把匹配的信息传回服务器就行了;这个系统的识别率也不需要多高,要知道传统广告转化率还不到1%,它能做到1%的识别率,转化率就能完败传统广告;并且它占用的是客户的资源,对阿里来说成本很低。
院长
发表于 2021-5-28 23:39:35
我是做通信的,
在天朝,只有gongan部门可以有权限监听某个人。
而且需要层层层层层层审批,先拿到他们自己系统的审批单子,然后发函给省移动大佬从上到下再批一遍,申请到移动后台金库口令,才可以开始监控。
今年配合干了几回,仅仅只是定个位而已,gongan那哥们儿每次都要个审批单过来和一叠子档案备份来申请金库口令。
技术上先不说能不能达到,即使能达到,马云也不敢去做好不好?就像你可以去抢银行,但你敢去抢吗?
你觉得听到你一个普通用户要买什么洗衣球然后为给你推送来洗衣球????就这点出息?
那万一听到哪个领导大佬说些机密的东西,马云是不是要推送自己的人头过去?
上个图你们就明白了,你们手机和网络所有的交互都是有记录的。
但是需要层层申请金库口令和工单号,才可以查询。
每个地市只有一个帐号有最高权限进这个平台,进来没有口令和工单也查不了。
用户资料都是绝密级的。
你几点几分几秒干了什么,是发了红包还是看了附近人,是打了车还是支付了,这些用户资料可以随便给别人看?你们太天真了。
这一年只有一回,gongan那哥们儿打电话过来紧急查个人的位置,也是先知会两个系统上面的大佬才敢定位,查到人已经在飞机场了,再晚一会儿估计人就跑了。
院长
发表于 2021-5-29 01:19:14
幸存者偏差呀,淘宝辣么多用户,总会有一部分用户的推送恰好符合最近提及并需要的(况且人家的千人千面技术确实很厉害啊,要是一个用户都不中,那这个项目太失败了),然后这部分人就上来吐槽了,不符合的就不吐槽了呗。
院长
发表于 2021-5-29 01:53:26
说一件事。
iPhone用户,仅仅是在App Store下载了一个股票模拟软件,打开看了几只股的情况,没有注册,没有填任何信息。
从第二天开始到现在,微信上有所谓“老师”来主动加我,人在西南有山东等地的电话打我问我要不要“学习”“选股”。
另说一句,我就压根没炒过股,连户都没开过。
所以,仅仅因为我在App Store下了股票模拟软件并打开过,我的微信和手机号就被人知道了,注意,我的微信还不是用手机号注册的。
也即是说,因为下载并打开这么一个app,它不仅通过ios系统拿到了我的手机号,还能拿到我手机里微信这个app里存的微信号。
那么,到底:
1、这个app牛逼,可以在没有苹果授权的情况下拿走系统的手机号,并且可以穿透app墙,到另一个app里去窃取信息。
2、苹果跟该app开发公司有PY交易,明说没有授予权限,背地却帮其收集ios用户信息。
3、苹果存在中国的服务器里的信息可以被第三方随意获取并使用。
这里哪一种是真相呢?
聪明的小伙伴们,请告诉我。
院长
发表于 2021-5-29 03:30:15
对于利用收集语音来做推荐这个事还没有哪个答案能在实验设计上实锤,但是对于阿里采集用户数据这个事上我倒是理解,主要用途大概是风控吧。
阿里作为互联网交易枢纽之一,必然聚集了大量黑产从事刷单,作弊,欺诈,套现,洗钱等总总风险,不止是阿里,任何一家涉及到资金相关的app都会尝试去采集更多的数据信息,主要是三部分用途:
1、设备真实性,会采集摄像头麦克风等环境设备,传感器,设备硬件及文件特征,以及一大堆进程检测等,用于判断设备是否处于模拟环境。
2、环境安全,采集基站扫描,wifi扫描,gps定位,内外网ip等,用于判断所处环境是否安全。
3、账户信用数据,主要是短信,通讯录等高级权限,用于构建用户信用完成授信。
语音数据作为典型的非结构化数据,除了风控应该就是用于以后的语音样本,现阶段做成推荐难度应该是很大的。