果壳酱 发表于 2023-2-17 13:19:10

摄像头是手机上最宝藏的一个模块吗?

摄像头是手机上最宝藏的一个模块吗?
-----------------------------

love恋猫人 发表于 2023-2-17 15:08:19

先说结论:
1、四舍五入,可以这么说。
2、当然,手机的 CPU 和屏幕代表了人类的顶尖制程工艺,手机里的AI芯片代表了人工智能的蓝海。但要论想象空间,摄像头确实是个剑走偏锋的好答案。
3、就拿手机来说,摄像头是连接虚拟世界和现实世界的桥梁。无论是 AR(增强现实)还是 XR(混合现实),两个世界的信息都只能通过摄像头来传递。比如很多手机正在添加了用摄像头为物理世界在虚拟空间里建模的功能。
4、当然不是说最近一两年手机摄像头相关的应用就一定会迎来爆发,但是,各行各业的牛人却正在这个方向积极探索。毕竟机会只会留给有准备的人嘛!
不久前,我刚刚和淘宝还有夸克的技术大牛们聊过这个问题,他们给我描绘的未来还是挺有趣的,我贴在这里,希望对你了解这个有些缥缈但激动人心的未来有帮助呀~
像素时代的黄昏和“淘宝叛军”

文|史中

如果我们的后代站在未来回望,很可能会把60后、70后、80后、90后、00后、10后,都归为“同一代人”,这个时代就叫“像素时代”。
而从“20后”开始,新一代人出现了,他们的时代叫作“体素时代”。
此时此刻,我们也许正站在历史的转折点上,少数人欢欣鼓舞,而多数人懵然无知。
我厚颜无耻地希望,这篇文章也许能成为大家理解未来的一个小小扳手。
(一)像素时代的“黄昏”
用轻松的方式开场吧,来回顾一下俺们的共同回忆。
比如,我们一起经历过战争与和平。



体验过爱与死。



见证了荣耀与梦想。



也品尝过柴米油盐、江湖恩怨。



但是,你有没有发现一个问题——无论如何努力回想,这些经典的画面都只能以“平面”的方式在我们脑海里放映:
魂斗罗、坦克大战当然本身就是平面游戏;
《大话西游》、“奥运开幕”也是同样,我们只能站在摄影师的角度去还原当时的场景,至于镜头里恰好背对我们的人,当时他们有怎样的表情、状态,将成为一个谜,重温者永远不得而知。
网页就更是平面的了,一般人根本不会提出“网页的背面长什么样”这种蛇精病问题——它就没有背面。
平面信息是如此深刻地渗入我们的生活,以至于万物都离不开一个关键词:“像素”。
屏幕要看像素,摄像头要看像素,照片、视频都要看像素。仔细想想,世界上没有任何一个专业技术词汇能像“像素”这样被普通大众所理解,普及到一个农村阿姨也能脱口而出。
看到这儿,你也许有点摸不着头脑——像素有啥不好?我从小喝到大,生活中一切需求都能满足啊。。。



你看,有人把电影的演职员表展开,就是一大张图片。
这里按下暂停键,我必须强行问你一句:真的是这样么?
如果把“像素”换成“体素”呢?
1、防止有浅友不知道,我先解释一下什么是“体素”。
其实很容易理解:在平面空间组成信息的元素叫像素,在立体空间里组成信息的元素就叫体素。(一个像素包含xy两个参数,而一个体素包含xyz三个参数。)
比如:《仙剑奇侠传》里李逍遥就是用“像素”拼成的,而在《我的世界》里,主角史蒂夫就是由体素组成的。



2、再解释一下什么是“体素时代”。
当日常生活中的大多数信息都以体素来“标记”和“传递”的时候,我们就四舍五入迈进了体素时代。
举个简单的例子:
你拼了一个很好看的汽车模型,想跟朋友显摆一下。
今天的操作是,你选一个(或几个)角度拍“照片”发到朋友圈,大家可以放大、缩小,随便看;
但未来很可能是,你用手机环绕模型拍一圈,它就会在三维世界自动生成一个立体的模型,你把这个“影像”发到朋友圈,大家就可以随意转动,相当于从无数个角度无死角欣赏你的作品。
当然,你有没有勇气让别人无死角欣赏自己的作品是另一个问题,但这里我想说明的是:
“体素时代”能够传递的信息,比“像素时代”要完整和丰富得多。
就像这样↓↓↓



你还记得《三体》的结尾有一个经典情节不?
太阳系被未知文明的二向箔从3D状态“拍”成2D状态。“程心旅行团”一行在冥王星上目睹了地球“躺平”的全过程。
文中描述,三维世界的地球内部有丰富的结构,在不损失信息的情况下变成二维的,面积就会变得巨大,像一张宇宙烙饼。
难以想象么?没关系,在B站上有同学(@Ele实验室)用数学方法模拟了这个过程,就如下图:




(链接附后,感兴趣浅友可以移步看完整版)


地球的故事告诉我们,如果“体素时代”的信息量是“弱水三千”,像素时代就只是“取了一瓢饮”。那,有没有一种可能:踏进体素时代,就像一个人住过别墅花园,再也回不去鸽笼蜗居?
体素时代早有征兆:
比如,《黑客帝国》开创的“子弹时间”和《阿凡达》开创的“3D 电影”;比如,以《绝地求生》《堡垒之夜》为代表的第一人称游戏;
比如,Oculus VR 眼镜、正在赶来的苹果 AR 眼镜和各路牛鬼蛇神的元宇宙雏形。




Meta 的“VR 社交平台”Horizon Worlds


这些尝试的意义在于,它们为世界积累了“3D建模系统”、“虚拟渲染引擎”、“头显硬件”等诸多技术。这些技术,可以看做是涓滴细水,而它们终究会汇在一起,成为“时代的泥石流”。
现在,泥石流近在眼前。
最先进入体素时代的将会是我们生活的哪个部分呢?
我盲猜有三个:电商、社交、搜索。
这三个领域,熟不熟悉?梦回2000年,互联网的流金岁月,我们的生活不恰恰也是从这三个领域开始变革的吗?
如果,我们20年前经历的那一波以“像素”为代表的的科技浪潮,在今天以同样摧枯拉朽的姿势重新席卷一遍——我们也许将看到体素时代的淘宝、微信和百度。
这不是在凭空想象,端倪已经出现。
就在前两天,我和淘宝的几个前沿技术团队聊了聊。在他们眼里,体素时代正如黎明一般迫近。而这群技术理想主义者,趁其他人还没睡醒,就已经背上行囊向星辰大海进发了。



(二)前辈们留下的“两把钥匙”
说实话,现在为“体素时代”擂鼓助威,我心里也有点发虚。
为啥呢?因为历史上,这个时代四舍五入已经“来”过一次,而且又走了。。。
那是遥远的2016年,还没有国际形势的剑拔弩张,只有人们对爱与科技的幻想。
那一年,谷歌地球的创始人,整天幻想怪物出没的老男孩汉克搞出了《PokémonGo》(宝可梦Go),人们拿着手机对准无趣的草丛和平常巷陌,就能发现宠物小精灵隐藏其中,一个精灵球甩过去,捕获神兽,爽点爆棚。






《PokémonGo》和汉克


VR/AR 的热潮就这么出现了。
彼时尚未嗅到命运血腥的暴风影音信心满怀推出 VR 眼镜;光线传媒、爱奇艺这样的顶级内容制作商也开始重金制作 VR 影片;明星初创公司 MagicLeap 在网上强推了一个短片——篮球场的木地板上,一只鲸鱼腾空跃起,收获四座尖叫。



当时的淘宝也深受鼓舞,在2016年的“淘宝造物节”上推出了VR购物模块——“Buy+”。人们不用买VR眼镜,也能在手机屏幕上体验到“3D购物”的乐趣。
现在说起“Buy+”,其实很多人都不太记得。
这是因为,Buy+本身就是实验性的。虽然大家第一感觉很惊艳,但在那个技术尚不成熟的世界里,要把“脑袋”转到对准地上的箭头才能走路,可以说“举步维艰”;好不容易走到货架前,商品种类也是有限的,还不能享受和店家讲价的快感。体验并不完善。
所以,尝鲜之后,大多数人也就淡忘了。





但从历史的角度看,Buy+ 意义重大。
因为它证明了“体素时代”虽好,但没办法跑步进入。而且,它还用自己的经验教训给后人留下了进入体素时代的“两把钥匙”:
第一把钥匙:人人都得用得起;
这里的人人包括两个,卖家和买家。
当时为一套洗发水3D建模所花的钱,恨不得能买半车洗发水,除了大厂,又有几家公司用得起呢?而且,如果模型稍微精细一点,一般的手机就跑不起来,得用上专业的“头显设备”,这又有几个用户愿意用呢?
所以,大幅降低“建模建设”和“模型渲染”的成本,就是必要条件。



第二把钥匙:体验不能凹造型。
还拿洗发水举例,这类生活用品人人都熟悉,连质感气味形状都知道,好像不必通过3D模型了解。。。这样的场景就很难给人提供新的刺激。
所以,找到能发挥3D模型功能的独特场景,也是必要条件。



2016年的那波 AR/VR 热潮很快就过去了。但“降低成本”和“寻找场景”这两把钥匙却传给了后来人。(这两把钥匙我用绿色字体表示,后面说到钥匙的时候,我还会用绿色标注。)
灰烬之下,开始有了新芽。
(三)体素时代的“商品详情页”
不妨把进度条拉到2021年,也就是我们今天故事的前夜。
你会发现,那时的“淘宝App”就像一个大逃杀战场:很多当年大开大合的 VR/AR 功能都已残血进入了蛰伏期,而一些实用的小功能,反而因为用户的支持“苟”住了。
比如,“AR试”。
也就是通过摄像头来试鞋、试妆、试表和试眼镜。



“AR试”之所以能通过大逃杀活下来,恰恰是因为手握那两把钥匙:1)一目了然就能看到商品上身的效果,给用户提供了很实在的参考,这是场景合适;2)运用了一种名叫 WebXR 的轻量化技术,几乎所有手机都能无压力地运行3D计算,这是成本低廉。
注意,刚才我提到一个生词,WebXR。
多介绍几句,WebXR 最早是2016年由 Mozilla(就是做火狐浏览器那个)的几位技术宅提出的框架,它的理想就是:手机上不用下载任何软件,仅仅打开浏览器就能进入3D世界。(XR的意思就是AR、VR、MR,什么R都行)
那几年,虽然 XR 产业遭遇了血雨腥风,但 WebXR 技术本身却在社区的贡献之下日益精进,越来越轻量化,越来越亲民。



好了,有了这些铺垫,现在请上我们今天第一位主角,承越。
承越是个资深 XR 爱好者,2016年的时候就吃了螃蟹——当时他看完 HTC Vive 头显的发布会,直接上头,下单剁手。




(和我打视频电话中的)承越


2021年时,他在淘宝的技术团队负责会场、频道的开发,一方面看到“AR试”很受欢迎,一方面看到 WebXR 在互动技术上有了新进步,他又有点上头:
既然手表、鞋,这种东西能在线试,那么更复杂的东西,例如小家电的拆装和使用,能不能在线试呢?
想到这,他坐不住了,带着几位同学成立了一个“f(x)团队”,尝试把 WebXR 这几年的最新技术推进实战。
调研了半天,他们决定先做一个“商品说明书”。
啥是说明书?
我们分析发现了一个有趣的现象:人们浏览淘宝商品的时候,通常会在“物品+场景”那张图上停留很长时间,这说明人们不止关心商品本身,更关心商品和环境在一起的信息。也就是,“商品应该用在哪里”。
比如一个吸尘器,有很多组件、吸头,它们怎么装配才能吸地毯,怎么装配才能吸瓷砖呢?
这些信息虽然在家电说明书里都有记载,但人们看上去不直观,我们就把这些组件都做成3D模型,用户在3D空间里拆装、使用,很快就能明白它的用法,这就是“商品说明书”啦。
承越说。
我仔细体会了一下,这么说来,要想做出一个好的“商品说明书”,承越他们不仅需要把“商品本身”变成“可拆装的3D模型”,还得把“商品使用的场景”变成“3D空间”。



但这件事儿没有说起来那么容易——在商品过剩的时代,用户是很挑剔的,你这说明书但凡“不流畅”或者“不真实”,大家就会觉得没必要在这浪费时间,转头就走。。。
于是,第一个坑来了。
悖论摆在面前:要保证流畅,3D模型就要精简;可模型一精简,就会失真,变成五毛特效。
思来想去,承越他们只好对模型分情况“雕刻”——用户可以互动的地方,模型就尽量做得精细,用户不互动的地方,就尽量把模型做小。



说到互动,第二个坑来了。
如果想实现“互动”功能,就必须往这些模型里注入“灵魂”,也就是“功能代码”。但这些代码也会占很大一部分空间。。。
承越告诉我,标准的 WebXR 框架包括很细致的交互动作。比如,你的手放到一个物体上,可以触发一个命令;手指移动,也会触发命令;移动停止也能触发命令,抬起手指还会触发一个命令。
作为一个框架,设计的时候当然要考虑所有情况,无可厚非。但如果直接拿来就用,就会让最终的成品充满无用代码,变得很臃肿。直接表现就是——用户点开之后,要看着进度条加载半天。
所以,要想做出好东西,精简“WebXR”的框架是不可省略的动作。
承越说,为了搞清楚一堆代码之间的调用关系,他们把所有功能都画在墙上,然后用“连连看”把不同模块的关系搞清楚,最后,再一根根剪断。
有点像拆弹部队,面对一堆杂乱无章的线,却不能犯错误。一旦把有用的功能给剪掉,就会“爆炸”。
他笑。
从2022年春节开始,雕刻了两个月,成果斐然,f(x)团队总算把这套 Demo 从最初的几百M精简到了10M以内。这就已经相当于一个短视频的大小了,普通手机、普通网速下载起来也没压力。



至此,不妨再跟着我想象一下这个说明书的样子:
1)一个3D小房间,里面有一个(或多个)商品。
2)你可以进入这个房间,仔细研究商品的功能,而商品各个部位的属性、参数,也都用悬浮泡泡的方式展示在旁边。
3)赛博空间里,这样的3D小房间还可以有很多,无穷无尽,他们之间相互连通,你可以走来走去。
你有没有发现:这个商品的3D小房间,有点像我们熟悉的“商品详情页”。而如果布置妥当,小房间能给你传达的信息,其实比详情页更多、更直接。
也就是说,“3D商品说明书”只是这个设想的初级阶段,未来它很有可能成为新一代的“3D商品详情页”。



说到这,你可能就明白了, 承越他们正是在为“体素时代”的到来寻找那把钥匙——合适的场景。(注意,是绿色字体)
承越帮我设想了一个标准场景:
未来朋友分享给我一个商品,很可能不是商品详情页,而是一个“3D房间”的链接,我只要点击,一秒就能进入这个3D房间,在里面体验过商品的详细功能,如果觉得好,就能直接下单购买!
这听上去还挺酷的。
好,我们继续。如果你接受了“体素时代会有很多3D房间”这个设定,就一定会想到:未来这些房间里恐怕需要大量的“3D商品”来填充。
于是,这些3D商品怎么才能“低成本”、“大量地”建模制作出来,就成了迫切需要解决的问题。
巧了,在淘宝技术团队,恰好有一群大牛在研究这个问题。



(四)“侵略者”和“造物者”
2021年春天,友闻开心地一蹦三尺。
缠绕在他心头的一团乱麻,被一把利剑劈开。
这团“乱麻”是啥呢?
多介绍一句背景:友闻带领一群技术宅,服务于“每平每屋”。应该有不少人用过“每平每屋”,就是阿里巴巴旗下的家居平台,可以在上面买家具,也可以请设计师帮你搞家居设计和装修。
然鹅,卖家居是个很费劲的事儿,因为家具款式和装修风格各有不同,顾客很难想象出一个沙发放到一种装修风格里的样子。。。想象不出来,就不敢买嘛。
所以,最好的办法就是“先尝后买”——下单之前,让设计师先帮你做出一套“3D设计图”瞧瞧。
就像这样⇓⇓⇓





但设计师干活儿是要钱的。一个装修方案的3D设计最少也得1000块,一个沙发的手绘3D模型最便宜也要200块。一般人看到这么贵,就打退堂鼓了,我还不如去线下家具店看看实物呢。。。
所以,友闻和团队的任务就是:找到一种方法,用计算机来代替人类进行“建模”和“设计”,大大降低“试”的成本。
但是这件事儿谈何容易。2020年,友闻和团队研究了一年,尝试了三种不同的技术路线,全都没能成功。。。




友闻


就在这时,那支“利剑”横空出世。
这就是谷歌发表在机器视觉顶级会议 ECCV 上的一种算法:NeRF。
看到这,可能有的浅友心中一惊:顶级会议的学术研究,估计完全看不懂吧。。。放心,后面我会用特别简单的例子来给你说明白。
NeRF 的核心奥义就是一句话:原本需要“手绘”的3D建模,用“拍照”的方式来实现。
NeRF 建模就像这样⇓⇓⇓



当然,建模的话,用一张照片肯定不够,得从不同角度多拍几张(或是绕着主体拍一段视频)——只要角度足够丰富,就能靠“想象力”把平面上的“像素”还原成空间里的“体素”。
这个想象的过程,靠的当然不是人脑,而是人工智能。
NeRF 有牛呢?它被技术宅们形容为:人工智能对图形渲染的一次“侵略”。
还是用实力说话吧。你看,给我几张谷歌街景的照片,就能还你一个3D世界的旧金山。。。



连一座城市都能还原出来,还原一个椅子和柜子,还不是小菜一碟么?淘宝商家自己绕着椅子拍一段视频,就能还原出椅子的3D模型,这简直是生产力的史诗级飞跃啊。。。
想到这里,友闻激动万分。
但很快,问题出现了:
NeRF的论文只是理论上可行,但真按照论文的方法做出来一个模型,要消耗大量计算力,渲染一帧就要20多秒;
有一种叫做 FastNeRF 的改良技术可以解决这个问题,但做出来的模型大小超过1G,完全没办法大规模实战。。。
但作为算法界的老炮,他是不会轻易认输的。
一个三维模型,只有表面这一层体素是最有意义的,至于物体的内部和外部的体素,其实并不包含重要信息。
举个例子:西瓜之所以看上去是西瓜,不是因为“西瓜瓤”,而是因为“西瓜皮”。你看不到西瓜内部,并不影响你判断它是个西瓜。
所以,在3D建模过程中,内部体素就可以大幅删减。



当然,举西瓜的例子只是为了说明模型精简的思路。整个2021年春天,团队都在研究一件事情,怎么像修剪树木一样,既不影响模型表达效果,又能把 NeRF 算法的计算量简化到最小。
两个月后,他们成功地把模型的大小从1G压缩到了70M,计算效率也比论文中提升了10000倍。
技术宅们赶紧找来一堆桌椅板凳,准备自己用手机拍的视频渲染一个模型。
新问题很快出现了:这套系统要求拍摄者必须是人肉三脚架、人肉稳定仪。稍微手抖一下,人工智能就会“想象不出来”,换句话说,就是建模失败。。。
即便建模成功,也有可能出现一个诡异的情况,那就是:从某个刁钻的角度看,3D物体会出现缺损。。。
就像这样⇓⇓⇓



这是为啥呢?
说到这,看来我还得科普一下 NeRF 进行“想象”时候的基本原理。
首先,系统会射出无数根“光线”穿过物体;



然后,通过不同光线上同一个点的坐标,反推计算,就能还原出3D模型中体素的准确位置。



在 NeRF 原版的设计中,从一个点射出的光线都是平行的,就像电影《英雄》里,秦国士兵射出的箭那样。结果,就会造成前文所说的“刁钻角度”下模型缺损的问题。
就像这样⇓⇓⇓



友闻他们眉头一皱,计上心来,做了一个小改动,把平行的箭改成了“乱箭”——让每一条光线随机选择角度。这样,在完全没有增加计算量的前提下,却一下子解决了建模质量的问题。
就像这样⇓⇓⇓



当然,类似这样的改进,他们还做了好多,就不一一详解了。这些改进综合起来,就大大提高了建模的成功率。
就像这样⇓⇓⇓



到了2021年10月,他们已经能做到:一个普通人,用普通手机,学习拍摄10次就能学会建模。
这时,友闻他们才觉得时机成熟了。
他们给这套系统起名叫做“Object Drawer”,在淘宝内部正式发布。
说到这,这个故事就和我们今天的主题联系起来了:因为友闻他们做的,恰恰就是寻找“体素时代”的那一把钥匙——“降低成本”。




你看,视频抖成这样也没问题。


说到这我还得提醒你注意:要想真正进入“体素时代”,降低成本绝不能靠粗制滥造的“五毛特效”,华丽逼真的模型是首要前提。
这不,“Object Drawer” 刚刚发布,就有一些商家申请内测,但是他们用过之后,给出了“吐槽”:
“形状嘛倒是还原得还可以,但是表面纹理为啥有点模糊啊。。。”
友闻有点挠头:“纹理”二字,可击中了人工智能的软肋。
因为人工智能的运算过程的本质是概率推理,这必然会造成相邻体素的参数有一定的相似性。换句话说,模糊就是人工智能甩不掉的内在缺陷。。。
但眼看万里长征已经走了一大半,不能功败垂成。友闻他们只好研究了另一种方案,把传统算法生成的纹理叠加在 NeRF 的模型之上。这样一来,在计算成本不提升的前提下,一下子就让表面纹理从“模棱两可”变成了“高清画质”。





至此,“Object Drawer” 被封装成了一个非常好用的“摄像头建模工具”。
虽然在友闻他们看来,Object Drawer 还有很大的进步空间,但不可否认,一个虚拟世界的“模型生产线”已经雏形初现!
注意,3D模型生产线和实物生产线有所不同:
一个以原子为基础的“物理商品”会随着时间损坏、变质;但以代码为基础的“3D模型”一旦被制作出来,就永远光鲜如初。
这些模型会成为赛博世界里的“基石”,永远坚硬,而且不断堆垒。
你有没有发现,这个过程很像淘宝过去的发展历程。无数商家们不断把自己的商品拍照上传,这些数以亿计的照片积累起来,就成为蕴含数据价值的金矿——可以通过人工智能学习服务商家,也可以用于未来虚拟空间的设计和搭建。



从这个角度理解,3D模型的价值,比图片的价值只多不少。
当然,这些设想都是后话。眼下,在这些模型积累的过程中,它们能发挥什么价值呢?
起码有一条路,已经能走通了:一群技术大牛,正在把这些3D模型塞进主播们的带货直播间,把“普通直播间”升级成“3D直播间”。
(五)3D直播间
经常看直播购物的浅友可能知道,现在的直播已经非常“卷”了,主播们光是在镜头前耍嘴皮子已经远远不够了。
他们得搞些大场面。
比如李佳琦,他的直播间就会在大促的时候,租下一个巨大的演播室,然后聘请晚会级的灯光、舞美团队。几百号人共同协作,才能完成一场直播狂欢。




这是李佳琦日常直播,也需要40-60人的团队。


但讲真,这样的大场面确实费钱,没个几百万是搞不下来的,不是头部主播根本不敢这样玩。
在长孙泰眼里,这样的实景直播好是好。。。但也。。。不是很有必要。。。
因为他和团队可以用一整套3D技术,实现虚拟场景直播——人只要站在绿幕前,就可以被传送到一个盛大的舞台中央。
这个舞台可以在深山老林,也可以在古堡花园,可以漫天飞着鲸鱼,也可以建在月球的环形山里,总之,压根不用受物理定律的限制。。。



这不,2021年的“618 大促”,小米在天猫进行了一场盛大的带货直播。
他们使用的技术就是“3D直播间”。
注意,这些舞台元素不是随便“Ctrl+V”过来的妖艳贱货,而是专门为这场直播从头设计的。但即便是专门团队制作了整套舞台3D形象,成本也只是几万元量级,比搭建实景舞台便宜得多。




这是小米的直播间


长孙泰伸出三个指头,给我科普:“凡是卖货的场景,都分为三个要素:人、货、场。”
所谓人,就是主播,用绿幕抠图的方法来捕捉影像。(当然也可以是数字人,这里篇幅有限不讨论了。)
所谓货,就是要卖的东西,它可以是主播手上拿着实物,也可以以“3D模型”的方式出现在主播身边的“虚空”中。
所谓场,就是舞台。
对于“3D直播间”来说,场,也就是舞台是最复杂的。
之所以复杂,还是因为要求高。由于直播效果是要和专业的舞台相对标的,所以这些背景模型没办法做到像友闻他们用 Object Drawer 扫描出来的模型那么小。
这就造成两个结果:
1、舞台目前还需要专业团队来制作;
2、要想把这个舞台运行起来,需要一个配置非常好的电脑。(手机暂时不行)
退回到2021年夏天,如果你想搞一个3D直播,需要有一个小团队去到你家辅助你:
一部分人负责支绿幕、打光;一部分人操作电脑,在旁边把人物影像和虚拟背景合成起来。



估计你也感受到了,这样的操作临时搞一两次还可以,但好像不能作为标准方法大量推广。
原因就是——这样的成本太高。
这么高昂的成本,是无法带领广大主播进入“体素时代”的。
于是,整个2021年下半年,长孙泰和团队就在尝试把这一整套系统搬到云端。
他们要达到的目标就是:
1、主播只需要像平常一样直播,可以有绿幕也可以没有绿幕,打光更好不打光也行,系统都能自动把他们的人像抠出来。
2、3D舞台和3D商品的计算全部在云端运行。主播的人像传到云端,和背景叠加之后,直接传输到千万剁手党的手机上。
这样一来,不用专人去现场辅助直播,成本直接大幅降低——无论是大主播还是小主播,就都能方便地搞出自己的“3D直播间”。




这是云上XR直播的全流程


长孙泰提醒我:“虚拟商品”这样的资产可以积累,“虚拟舞台”这样的资产也是可以积累的。
不妨拿乐高积木打比方:
乐高积木生产的过程固然比较复杂,需要在工厂里实现;
但是一旦生产出来,再用这些积木拼插出无数有趣的场景,就变得简单了,普通人也能玩得转。
主播可以买来“积木”自己拼搭,这就是它私有的直播间(不与别人分享);主播也可以选择在淘宝上直接使用公共3D直播间,在上面做个性化微调。
这样,使用“公共3D直播间”的主播越多,平摊下来,制作成本就越低。
假如制作一个精美的舞台用了5万块,结果有5万个主播都选择共用,那就相当于每人众筹1块钱。




长孙泰


说到这儿,我们不妨回到历史的上空,俯视现在这个时间点已有的一切:
我们正在拥有价格低廉的“3D模型”,也有了价格低廉的“3D房间”和“3D直播间”,它们共同构成了“体素世界”的雏形。
接下来,终于到了灵魂拷问:
普通人(也就是你和我)目前只能隔着手机屏幕*观察*和*控制*这个世界,但不能方便地“置身其中”。
之所以这样,是因为我们还缺乏一个成本低廉,表现稳定的“任意门”,这个任意门,就是“XR 眼镜”。
当然,无数技术人曾经和正在尝试造出这扇门,比如“先烈” Google Glass,当红小生 Meta 的 VR 眼镜 Oculus,微软的 VR眼镜 Hololens,国产 VR 眼镜 Pico,还有万众期待的“苹果眼镜”。(哦还有罗永浩老师即将推出的AR眼镜)
看架势,这将是一个史诗级的科技赛道。




从左至右:Hololens、Oculus、Google Glass


但问题在于:在杀手级的“XR 眼镜”普及之前,写软件代码的技术宅们不能闲着。他们必须提前“抢跑”,一旦硬件具备,软件要马上能安装进去。
豪赞,就是抢跑的大牛中的一位。
(六)两个世界间的“挂钩”
很多人应该都用过淘宝里的“拍立淘”功能。
你对着一个东西拍张照片,立刻就能搜索到相关商品。




2019年的拍立淘


在普通人眼里,这只是一个辅助购物的小特性,可是在豪赞眼里,这却是通往未来的绝佳入口。
因为“拍立淘”这个场景,把“现实世界”和“体素世界”联系起来了。(注意,我用了绿色字体,说明这是一个合适的场景。)
为什么这么说呢?最近,豪赞他们为拍立淘升级了一个“XR看世界”的新功能,从中可以看出端倪。
过去你需要拍一张照片上传,它才启动搜索;现在不用了,你只要拿摄像头对着世界,系统就实时工作,帮你识别视野里一切物品,然后跳转到商品详情。(这个光说你感受不强,你可以现在就打开拍立淘感受一下。)



“XR看世界”,从本质上来讲,就相当于做出了很多包含信息的“3D泡泡”,追踪在实体物品之上。
你想想看,如果这时把“手机”换成“XR 眼镜”,会发生什么呢?
没错,你眼前世界的一切物体,都可以被附加上“3D泡泡”:“
路边不认识的花,上面有泡泡会显示它的名称、习性。
路边不认识的车,上面有泡泡会显示它的品牌、价格。
路人穿的衣服很好看, 系统也能在淘宝商品库里给你找出来一模一样的。



怎么样,瞬间有了科幻电影里的感觉了吧?
这一整套技术,有一个名字——XR 互动技术。
豪赞就是这方面的专家。
人们通过拍立淘找到了想要的商品,就会购买。在我看来,这些购买就是对我们“XR 互动技术”的认可,是“点赞”。将来,大家不仅可以通过 AR 买东西,还可以通过 AR 看世界,我们就会得到更多的赞,所以我的花名就是“豪赞”!
豪赞老师有理有据给我解释。




豪赞


你有没有发现,XR互动技术就像“物理世界”和“体素世界”的挂钩,把两个原本没有关系的世界给联系起来了。
不过,要获得“豪赞”并不是那么容易的事情,因为这个“挂钩”背后的技术还是挺复杂的。
我们来拆解一下步骤:
1、要把摄像头采集的视频切分为一帧一帧的静态图片;
2、用人工智能找到静态图片里究竟包含哪些物体;
3、去云端的数据库里找到和这些物体相关的信息,然后显示在物体旁边的“泡泡”上;
4、运用影像追踪技术,识别出相邻两帧画面中“同一个物体”,就可以让“泡泡”在动态视频中跟随同一个主体移动了。
这一套流程跑下来,计算量可小不了。
实际上,这么大的计算量,靠手机或AR眼镜中的小芯片来搞定,确实是力不从心。。。
所以,豪赞他们处理这个问题的核心思路就是:在整个流程中适当的位置砍掉不必要的计算逻辑。
比如,我们发现人们经常会把A物体放在大腿上。画面实际上出现了两个东西:“A物体”和“大腿”。但人工智能会老老实实进行一系列的计算,然后给出答案:画面里有“A物体”和“大腿”。
但你有没有发现,整个流程里,识别大腿的计算完全是不需要的?
豪赞解释。
所以,更好的做法是,画面里对“桌面、大腿、手、墙壁”之类的识别动作根本不应该被拉起,这个计算流越早被“压制”掉,就能越省计算力。



但是,靠技术宅们手动定义哪些东西不应该被识别,这既不准确,效率也不高。
这里涉及到人工智能改进的一个通用方法,就是:通过用户对每次搜索的点击行为,来修正系统的行为。
比如,最开始系统经常都能搜出“大腿”,但绝大多数用户不会点击“大腿”,更不会购买“大腿”(也就是不给“大腿”点赞),这个动作就被称为“负样本”。
在人们使用“XR 看世界”的功能时,“负样本”会源源不断传送给人工智能用来学习。
很快,系统就知道大腿是不用识别的,从而越来越精简,计算量不断变小。
这就是系统“剪枝”的过程。



不过,仅仅靠“剪枝”,剩下的“主干”还是太大,没办法把计算量控制在设备的能力范围。
于是,豪赞他们必须做得更多:能不能在不影响AI模型效果的前提下,把“模型的主干”变小呢?
目测,这种既让马儿跑又不让马吃草的操作还真能实现。这里给你隆重介绍一个逆天的“推理引擎”——MNN。
啥是“推理引擎”呢?
我们不妨拿汽车引擎来类比。
同样是98号汽油,用A引擎就能跑到200km每小时,且油耗很低;用B引擎只能跑到100km每小时,且油耗很高。
这里的汽油就是前文所说的“AI模型”,用同样的模型,却能跑得更快,更省计算力,就是“推理引擎”的职责了。



“用 MNN 引擎,不损失精度的情况下,至少可以把模型减小一半。如果把精度牺牲一点,还可以小得多。”豪赞说。
这么神奇的嘛?我赶紧给 MNN 的负责人吕行打电话,请他帮我科普其中的黑科技。




吕行


吕行骄傲地告诉我,MNN 的绝招简单来说可以分为三层:
1、向上看,市面上存在很多人工智能训练框架,他们训练出来的模型各不相同,但是 MNN 可以把这些模型都统一成 MNN 格式。
2、向下看,市面上存在很多手机芯片类型,MNN 为不同的芯片类型搞出了最适合的算子运行模式。提前预制好。
3、在中间,人工智能模型运行时,程序会自动探测自己跑在哪一类芯片上,然后就切换到最合适的预制模式来运行。




这张图详细解释了 MNN 面临的挑战,点击可以放大。


听完他的介绍,我感觉 MNN 有点像一个自动驾驶汽车:走平路就用高档位,遇到上坡就自动切换成低档位,路滑就不急踩刹车。
和发动机一样,推理引擎背后的技术细节是极其精细的,精细到 MNN 团队已经有很多世界级的论文产出,被顶级会议收录。限于篇幅,今天我们没办法展开了,后面我会找机会专门写文章讨论。
吕行自豪地告诉我,目前阿里巴巴已经有30多个 App 都内置了 MNN 的模块。
目前,MNN加持的轻量级人工智能可以进行语音识别、视频内容理解,当然也帮助把“XR 看世界”这把钩子做得更小巧坚固;未来,如果出现杀手级的“XR 眼镜”,MNN 肯定也会第一时间适配,把更多普通人拉进体素世界。



(七)数字资产和“淘宝叛军”
因为正处疫情期间,所以和这些淘宝技术大牛的聊天都是在线上进行的。
挂断和大牛们的视频电话,从“体素世界”的想象中抽离回来,我看看窗外熟悉到有些腻味的风景,总有一种肉身沉重的感觉。
估计很多浅友也开始质疑:
你说得这么热闹,但我们现在不还活在无聊的现实中么?体素时代到底什么时候来呢?
我必须承认,客观上来说,没有人能精确预言一个时代的到来。
而且,对于一项技术的过度关注,反而会消磨大家对它的善意,2016年的”VR热潮”和如今如出一辙的“元宇宙骗局”已经证明了这一点。
所以,我只想小心翼翼地客观呈现这些大牛们的努力:
他们只是从自己熟悉的家园出发,用各自的方式开始了远征,为体素时代悄悄准备“砖石”——一旦未来降临,我们手中不至于赤手空拳。



承越告诉我,他们的“3D说明书”正在努力从“小家电”拓展出去,很快,大家就能看到冰箱、洗衣机这样大家电的3D说明书。他们也在尝试做出3D世界的“穿鞋带说明书”,甚至还有美妆产品的说明书——让大家在虚拟世界就能体会到各种化妆品的使用顺序和使用效果。
“这些尝试未必都能成功,但值得尝试。”他说。
长孙泰告诉我,他希望不久的将来,每个大小商家,甚至夫妻店都能拥有自己的3D直播间。
商家可以像装修房子那样,不断修改、丰富云上直播间的样子,还可以添加新的3D摆件。不仅如此,还能根据直播的主题在各个直播间之间切换,就像一个人在全国每个城市都有别墅,想住哪套住哪套,土豪得不要不要的。




就像这样,每个商家都可以有好多不同主题的直播间。


友闻告诉我,他们还在奋力改进算法,让 Object Drawer 绘制出来的 3D模型平均大小从20m缩小到5m。
未来,商家上架一个商品,就像现在拍一张照片那么简单。每一个淘宝上的商品都可以有配套的3D模型。
他说。
这样一来,我们买一个椅子,就同时在虚拟世界得到一个“数字椅子”,买一个水壶,就在虚拟世界得到一个“数字水壶”。
于是,我们装点自己家的时候,也能装点自己数字世界的另一个家:
我们在真实的家里,得到的是真实生活品质的提升,而在虚拟房间里,得到的是突破物理定律的自由想象——我们可以让水杯悬在半空,我们可以让屋顶闪耀璀璨银河。
我们可以邀请朋友到真实的家,也可以邀请朋友的数字分身到我们的数字庄园。




数字艺术家 Krista Kim 做了一个 Mars House(火星屋)。他把一片豪宅建设在了荒凉的火星上,使之充满了对于物理定律的挑衅。


所以,我愿意把这些淘宝大牛称为“叛军”。他们反叛的不是任何人,而是像素时代的种种限制,种种无趣。他们相信,人们的3D数字世界里不应一片荒芜,而创造必须始于今天,始于脚下。
也许未来的某一天,我们回望那个像素时代的黄昏,也许会对当年的先行者们致以微笑。
因为他们曾坚信,对未来最大的慷慨,就是把一切献给现在。



参考文章:

《一种降维打击的可视化方案》
https://www.bilibili.com/video/BV1Sf4y147J9?share_source=copy_web

夸克“凶猛”:一场手机镜头背后的狂野冒险
文|史中
​​
李逍遥出生的村子叫什么你知道吗?
我知道,叫盛渔村,地处杭州余杭县,位置偏僻,但风景秀丽。。。
我为啥记得这么清楚呢?
因为10岁那年我第一次玩《仙剑奇侠传》的时候,剧情刚刚展开,看着热情的村民,听着温情的 BGM,我突然有奇怪的想法:为啥我李逍遥不能一辈子怂在家乡耍木剑采野果,非得去外面被妖怪毒打呢?
但是转念一想,不遇到妖怪,也不会遇到赵灵儿。
想到这里,DNA 动了,明知山有虎偏向釜山行,我就这样走出了新手村。
好吧,咱们未必玩过一样的游戏,但咱们都过着同样操蛋的人生。你我都有(不得不)从新手村出发的那一天,面对天书一样的试卷时,面对老板“今晚就要”的死线时,都会幻想:如果天上能掉下来一把神刀,一刀999级,该有多好。。。
今天,中哥就给你讲一个“神刀”的故事。



(一)“战五渣”和扫描王
“放假前刚发的卷子,我家小孩就找不到了!我还得在家长群里求着同学妈妈把试卷拍给我,打印出来让孩子做。但人家孩子已经写了答案,我只能用纸条挡住答案去复印。。。”
这是一个两年前发在妈妈帮论坛上的帖子。
如此不能打的剧情,却引来了不合时宜的共鸣,上百个家长回复说:啊!我以为只有我家孩子是这样。。。
看来,身边潜伏的渣渣不止一个啊。
吃瓜群众中潜伏着一个人,戴着眼镜,自己就接近学生模样,按道理都不应该知道这世界上有妈妈帮这样“戾气深重”的网站。
这个人就是尹毅彬。




尹毅彬


尹毅彬是夸克App的产品经理,之所以要逛家长论坛,是因为他负责的正是当时大火的“学习版块”。
他同时也是个暖男。“怎么能让妈妈们受这样的苦呢?”于是赶紧把这个发现讲给伙伴。
一个月后,夸克App里添加了一个小功能——试卷去手写——拿一张卷子来,能自动把里面的手写字去掉;不仅如此,还能把卷子角度自动转正,把纸变白,把字变清晰,打印出来比原版的还原版,隔壁学霸都馋哭了。。。
就是这个效果⇩⇩⇩



别看就是这么一个不起眼的功能,受欢迎程度却难以言表,后台调用量像火箭直入云霄。
以防有的浅友不熟悉夸克,这里中哥强势插入一下,多介绍几句背景姿势:
很多人觉得夸克是个搜索 App,但是在年轻用户心里,搜索只是夸克“功能大餐”中的一道菜,他们还能用夸克看小说、看电影、拍图识万物、文档翻译、简历生成、自拍证件照、PDF转Word、截长图、转gif、挂号买药、学菜谱查快递。。。
我觉得,夸克的梦想是成为大家手机里的“瑞士军刀”——没车没房没女票这种大事解决不了,但遇到蹩脚的小困难,掏出来一准儿能搞定。
给你们看一下夸克工具的列表⇩⇩⇩



为了达成这个目标,不只是尹毅彬,夸克团队每个人都患上了“需求搜集癖”。。。
他们就像八爪鱼:产品经理做调研,技术老师傅看数据,运营小姐姐接客诉,反正有各种渠道和用户沟通。用户想要啥,分分钟就能传递到夸克团队,没准新功能几个星期就做出来了,有一种“被宠溺”的感觉。
讲真,在今天的世界,能够和用户混成这种好兄弟(好姐妹)的互联网产品都已经不多了呀。
不过这也好理解,因为夸克团队和他们的用户一样年轻,几乎一水的90后。其中最小的一位生于澳门回归的1999年。毕竟中国人不骗中国人,年轻人不坑年轻人嘛。
好,认识了这群头发尚且浓密的年轻人,我们回到主线剧情。
搞出“试卷去手写”,无数小朋友可以骂骂咧咧开开心心去写作业了,但这只是故事的《序章》。
夸克这群年轻人像胡八一那样提鼻子一闻,忽然感觉自己站在一座“尚未完全被开发”的宝藏大门前,这座宝藏就叫——扫描。
之所以说尚未完全开发,是因为扫描这座宝藏早已被人发现,市面上也早有一些扫描产品。
只是夸克这群人觉得前人挖掘得不细心,或者说勘探技术不到位,就拿“试卷去手写”这样的具体任务来说,在他们之前就没人做得这么精细嘛。。。



于是,一场内部讨论展开:如果做一个市面上最好的把“纸质文件”扫描成“数字文档”的扫描工具,谁赞成?谁反对?
团队那位99年的同学赶紧举手:
我上大学那时候,哦,也就是去年,就特别想要一个这样的工具。因为老师讲课的PPT翻得太快,我只能用相机一张张拍下来,再用 iPhone 的备忘录功能整理起来。虽然四舍五入能用,但是像我这么社恐的人,坐在教室最边上,拍出来的照片都是梯形。。。
话音未落,另一个同学插话:
我表哥在投资公司工作,我记得他吐槽,说每天都得把各种纸质文件、单据神马的扫描归档,扫描仪难用的一比。
恰在此时,探马回报,在北京、广州、秦皇岛等等城市的用户调研里,很多夸克的主力用户——老师和学生——也都吐了这个槽:学知识最好是举一反三,得把错题抄下来反复练嘛。但除非爱好书法,谁能耐下心来手抄那么多错题呢?
而且,人类都已经进入赛博朋克纪元了,把这么多时间用来物理抄题,也太 old school 了吧?能有个顺手且强大的手机扫描工具多好啊!
正所谓,工欲善其事必先利其器。你让哈利波特去削伏地魔,不得先给他个扫帚么?你让小智干翻全世界的宝可梦,不得先给他个精灵球吗?你让你家小孩考清华,不得先给他个“扫描王”么?
夸克扫描王产品负责人夏雅瞳小姐姐一拍桌子:决定了!咱们就帮大伙儿把“扫描王”做得更好用!




小智,你扪心自问,如果把精灵球改成三室一厅总统套房,皮卡丘能不愿意进来么?


(二)高清无码大图,get✓
说到扫描,咱们小时候见的扫描都是那样的:把纸质文件按在一个扫描仪上,然后“呲——”,电脑上就显示出了一模一样的图片。
那个操作叫“光学扫描”,实际上,那已经是老黄历了。
听中哥给你科普,现在的扫描比女生化妆还厉害:
第一步、拍图片
用手机给文件拍一张素颜照,App会自动帮你裁剪,摆正角度,去掉无用信息,相当于打了个遮瑕粉底,然后把图片上传云端。



第二步、修图片
云端算力充沛,AI 能识别出文件上的瑕疵(例如纸上的脏点、水印、手写痕迹),把它们都去掉;再识别出有用的文字,把它们加深,变得更清晰。相当于眼线红唇化个全妆。



第三步、导图片
云端把这张图片传回给手机里的 App,App 帮你导出定妆照,也就是扫描结果的图片。
完美结束,撒花出街。



这样三步下来,比光学扫描的“素面朝天”那简直高到不知哪里去了。
不过,欲戴王冠必承其重,这个“美颜之旅”比大多数人想得难多了。
怎么个难法呢?咱们先请上夸克团队的第一位现身说法的选手,他就是王淮。王淮在夸克App的研发团队,负责我们刚才说的“第一步”。




王淮


王淮是个“强迫症”,一幅画挂歪1度都能看出来那种。但做 App 客户端恰恰需要这种细致的精神。
刚接到任务,一个不是问题的问题就挡在面前——该用什么拍照方式?
你肯定没有注意过,摄像头获取图片其实是有两种方式的:
一种是速度快但画质感人的——就是进入摄像模式,从流动的画面里截取一帧凑合能看的。
一种是画质好但速度感人的——就是进入拍照模式,老老实实对焦,调整光圈快门,拍一张照。



王淮玩得比较遛的是第一种“视频截图”。因为他们之前做的“万物识别”功能,就在用这种方式。
为啥呢?因为那些图片是用来做“分类”的——比如你拍了一只狗,即便是模糊的狗,相比于猫,AI 也会觉得它也更像狗——所以不用清楚,拍得快才是王道。
可是扫描就不同了,它的终极目标不是分类,而是清晰呈现这张照片里的每一个细节。
没办法,王淮只能老老实实选择“拍照模式”。可这样一来,体验就不太流畅,他又和一群强迫症事们做了10086个优化。
接下来可以拍照了吧!王淮把自己手机翻过来一看,卧槽?!怎么这么多摄像头?
第二个问题又迎面扑来——该用哪个摄像头?
废什么话?随便选一个不就行了吗?
“不行。我们试了一下,长焦镜头一般光圈大,拍出来的照片景深小,这样用户如果拍摄角度倾斜,就会造成一半清晰,一半虚焦。。。广角镜头一般光圈小,能拍清楚。但如果镜头视野太宽,纸张占画面的比例又比较小,有效像素不够多。。。”
王淮解释。
就像这样⇩⇩⇩



他们最后写了一套规则,让夸克 App 在手机里现场“唐伯虎点秋香”,找出最适合做扫描的那颗摄像头。
可实战中到底能不能选准秋香,王淮心里有点嘀咕。。。他又请测试团队的同学真的用不同型号手机拍了几千张照片,把每一个机型都调优了一遍才罢休。
这下可以拍照了吧?还不行。。。
夸克的用户数以亿计,你永远想象不到大家在拍照片的时候是在九天揽月还是在五洋捉鳖。
比如有的人手抖,拍出的照片就是帕金森模仿秀;有的人心不在焉,拍出的照片就是斜到怀疑人生;有的人是暗夜骑士,拍东西祖传不开灯。
于是第三个问题来了——怎么保证拍照清晰?
王淮他们在拍照界面加了提醒——探测到画面光线不足,就提示开灯;还加了网格线——眼残的可以参考网格拍得横平竖直;还做了一个实时对焦模块——哪怕用户冷不丁地按下拍照,也能保证尽量清晰。



看到这儿,有老哥可能会问:这都是什么鸡毛蒜皮的小事啊?
其实我是故意选择这些琐碎细节讲给你听的。因为你懂的,面对这些细节都能如此“强迫症”的人,是很难在图像裁剪、图像压缩、图片上传链路这类更严肃的事情上偷工减料的。
“咻——”,随着图片传上云端,沉甸甸的接力棒也交到了第二位选手,云端算法工程师黄锐华手上。




黄锐华


黄锐华是个技术控老司机。他的驾驶风格是:“我前面不能有车”。
凡是遇到什么技术困难,他不睡觉也得把全世界的解法都找来,然后不允许任何一个解法比自己更好。。。
开发过程中,看着手机端传上来的图片,黄锐华皱皱眉头:喂,这图片怎么有好多都是“S身材”啊??
你想想看,一张纸,如果能够平平展展让你拍照,那是烧高香的情况。大多数情况,咱们打开书拍某一页,书页肯定是弯折的,而且越靠近书脊,弯折程度越大,就像霍金的黑洞。。。
黄锐华当时就暴躁了,一张纸这么“性感”,很影响扫描效果的好不好?!



接下来的问题就是——怎么把S形书页给拉直?
其实方法就是借助人工智能,让 AI 对着弯折的书页“YY”它平展的时候应该是什么样。
可问题是,要想让人工智能学会这个技能,先得给它学习资料——同一张纸弯折时和平展时的“对比数据”。这个数据还不能只有一两组,得成千上万组才行。
黄锐华给我解释。
虽然但是,从哪去找这么多书页弯折的数据呢?这数据又不是可乐,街边随便找家店就有卖。。。而且也来不及自己一张张拍啊,等你拍完,等着扫描书页的大学生都该领退休金了。。。
一个平时喜欢玩游戏的同学若有所思:诶,3A游戏大作不都会用到物理引擎么?
一语点醒梦中人,黄锐华组织大家搞了好几本书的3D模型,然后用游戏物理引擎对它进行各种“蹂躏”,这不一下子就有了丰富的训练数据吗?



这么一搞,效果拔群。
看着 AI 书页拉直的效果越来越棒,黄锐华仰天长啸:果然,不会3D建模的AI工程师不是好司机啊!



搞完这些,已经是2021年春天。
丑媳妇总得见公婆,“夸克扫描王”终于发布了。
春江水暖鸭先知,夸克新功能铁杆粉丝先知——说时迟那时快,在夸克的粉丝群里,已经有眼尖的人发现了扫描王。



夸克团队搬好小板凳排排坐,等着夸奖砸来,不过,夸奖没等来,却等来了板儿砖。
“欸我这个扫描出来怎么是花的啊?”有粉丝问。
黄锐华一看粉丝发来的“证据”,居然是对着电脑屏幕拍的,上面都是摩尔纹。。。
“欸我这个卷子怎么扫描之后还能看出背面的字啊?”
黄锐华一问,才知道这哥们的卷子太薄,简直是蕾丝半透款,背面的字毫无压力地透了过来。。。
“欸我这扫描出来怎么还带手指头啊?”
黄锐华一看,原来这哥们是拿手举着一本书扫描的,手指头也拍进去了,AI 以为是书上的插图呢,给强势保留了。。。
“这好办,你告诉他们拍照的时候别用手扶着不就行了?”我提议。
“用户用手扶,一定有他不得不扶的道理。我们既然要做全世界最好的扫描工具,就不可能让用户来适应我们。”黄锐华一脸慷慨。
本着“做最牛X的扫描工具”的原则,老师傅们继续返工:优化了人工智能算法,让它更好地识别出背面透字;还教会了 AI 识别边缘乱入的手指头,自动擦除;还研究了去摩尔纹的滤镜。



注意,刚才提到的各种滤镜是一层层“叠buff”的。
比如,上一层去摩尔纹的输出结果是下一层去边缘手指的输入资料;去手指的输出结果又是下一层去背面透字的输入资料。
这很像杂技演员踩着高跷,头上顶着水缸,手里扔着12个鸡蛋,腰上还转着5个呼啦圈——但凡中间任何一个环节出问题,整个杂技都会垮掉。
做扫描难,就难在了这儿。



耿直的夸克用户是一面明镜,不满意会吐槽,满意会真夸。经过了几次改进,夸克粉丝群里逆风翻盘,变成夸夸群。
尹毅彬现在还记得,有一个用户专门跑来说:“我从来没用过这么好的扫描产品,扫出来真白,就跟新买的书一样!”
不过彼时沾沾自喜的扫描王团队,就像刚出长安的唐长老,还不知道有一群妖怪正围着餐巾等着他们呢。
那天,运营小姐姐找到尹毅彬,跟他提到了一个用户投诉。
那个用户留言说:“用夸克扫描出来的文件,我没法用!”
“扫得这么白,怎么没法用?”尹毅彬一边嘀咕,一边决定跟那个投诉用户直接打个电话。
他恍然大悟,原来这个用户在扫描一份鉴定报告,在报告的下面,专门铺了签发机构的防伪水印。可是在AI看来,水印这种脏东西不是要去掉的么?一秒钟擦得干干净净,对用户说:快夸我!
用户说:我谢谢你啊!
无独有偶,另一个用户反馈也前后脚进来:他想扫描一个发票,用于报销。可是夸克扫描王扫出来的发票过于白嫩,而且经过“清晰度补足”的滤镜,红章就会变得暗淡,打眼看上去就像是街角买的假票。。。那哥们都不敢提交报销了。。。
原来,“一白遮百丑”也不总是真理。
一个巨大的哲学问题摆在夸克扫描王团队面前:当“真”和“美”坐在跷跷板的两端,到底要怎么选?
就和生活一样,没有人永远需要真实,也没人永远需要漂亮。所以我们的结论是,你要去了解用户在扫描那一刻的真实意图,才能更准确地服务他。
尹毅彬解释。
于是,在随后的升级里,夸克扫描王加入了一道“自动识别逻辑”:判断这是个单据,就以“真实呈现”为主;判断这是个文件,就以“黑白分明”为主。



这个思考影响深远。
从这件事以后,夸克团队就像搞了个高音喇叭放在耳边,时刻在喊:“你们确定真的了解用户想干嘛吗?R U F**KING SURE?!”
“警钟长鸣”之下,他们有了惊奇的发现——当用户扫描的时候,有时并不想“扫描”。
(三)当你扫描的时候,你在“扫描”什么?
“在我们的一生中,遇到爱,遇到性,都不稀罕,稀罕的是遇到了解。”这是廖一梅在话剧《柔软》里写下的台词。
这句话恰好完美隐喻了互联网产品的难处。
在真实世界里,哪怕你和最要好的朋友对面长谈,都无法完全理解Ta的意图;更别提在赛博世界里,提供服务的系统和用户相隔万里,只能通过用户令人费解的行为碎片来“猜”。
我问你,当一个用户扫描了电脑屏幕上的一串快递单号,Ta 想干嘛?
我再问你,当一个用户没有调用摄像头,而是去相册里调取了一张写着名言警句的图片进入扫描王,Ta 想干嘛?
有没有一种可能,此时他们并不是想“扫描”,而是想把照片里的文字提取出来,复制到别的地方用?
有可能是,也可能不是。。。
2021年夏天,夸克这群年轻人就带着这种狐疑上线了“文字提取”功能。



这个操作效果炸裂。
从激增的后台调用量看,用户仿佛在说:这么牛X的功能,搞么子现在才上?
为啥大家对文字提取这么情有独钟?我还真琢磨了一下。
看看我们自己的大脑就知道了,人类的右脑负责形象思维,左脑负责逻辑思维。长期的进化让大脑产生了这样的左右分工,那必然是因为这样比“左右脑一团浆糊”更好。
好处是啥呢?省能量。
语言文字属于逻辑思维——可以用“抽象的信息”反应“具象的世界”——而抽象的信息真的很省地方。
你看,说“苹果”两个字只需要半秒,把这两个字写出来也只需要两秒,可画出一个苹果恐怕需要一分钟。遇到手笨的,画一个苹果恨不得消耗两个苹果的卡路里。。。
所以,“文字提取”功能的本质是把一张“图像”里的“逻辑信息”(而非视觉信息)提取出来,复制、粘贴、修改、搜索随你大小便——大大降低信息处理的成本。
在原有的视觉工具旁边直接加了一个逻辑工具,冲锋枪+迫击炮,买一送一,肯定受欢迎嘛!
(我替你们体验了一下文字提取,原谅我此时身处宾馆,能找到的纸不多。。。)



尝到“提取”功能的甜头之后,夸克这群“摸金校尉”如同找到了扫描领域的新一道暗门,向幽深的秘境又挺进一层。。。
尹毅彬回忆,那天产品团队在整理用户反馈时,又发现一个奇怪的案例。
这个用户反馈了一张手写的购物单,上面写着:菠菜XX元,买了XX斤;白菜XX元,买了XX斤,诸如此类。
用户的诉求是:我拍了这个购物单,你们能不能给我转成 Excel 表格?
原来,他是一个饭店的采购员,每天进货,月底盘点,得把30天的数据金额加总。过去手写数字加总,得鼓捣半小时,还不一定算对。如果能有工具把手账变成 Excel,那妥妥从石器时代直接进入工业革命啊!
尹毅彬一看,有道理!他去找技术老师傅,有点心虚地问:手写字,能提取出来么?
黄锐华呵了一下:可以试试。
其实,这个技术黄锐华团队并没那么陌生。在两年前夸克的“学习”模块里,就实现了一个小功能:把学生手写的答案转换为印刷体。
但注意,这两者的难度是不同的。
一个学生写题,他的目的是让判卷的老师看懂,潦草程度是有下限的。
比如这样:



一个人写采购单,就是为了记账给自己看,那潦草程度是没有下限的呀!
比如这样:



简而言之,之前给搜题做的那套手写识别技术根本拿不出手,必须加大数据剂量,重新训练。
不过,这次黄锐华遇到了强劲对手。越深入训练,技术团队就越抓狂——仿佛自己身处一个深不见底的巨坑里。。。
手写体的难度不只在于潦草,更在于你要理解手写信息的复杂含义。
比如访客登记的时候,上面那个人在性别那栏填了“男”,你填表的时候,就在下面打两个点,表示“同上”。人类很容易理解的事情,人工智能就想不通。
再比如我们写好了一段话,突然想在两句之间新插入一句,就会打一个插入符号,然后把新的字写在缝隙里。这种意思AI就很难理解。
黄锐华解释。
地狱级的情况还在后面——手写字和印刷字同时出现在一张纸上。。。
举几个栗子:
比如,我在一个填空题上写了“一”,但在人工智能看来,这个“一”是一横,下面的横杠也是一横,这不就是“二”么?
再比如,我在方格本里写了“女人”,人工智能肯定会质问你,这TM不是“囡囚”是什么?
乱世须用重典,难题得上狠活。为了解决这个问题,老师傅一股脑派了三个 AI 出战:
首先,训练一个AI,它不负责识别文字,只用来分辨哪一笔是手写的,哪一笔是印刷的。
然后,是正常的 AI 文字识别。由于刚才已经尽可能把两种笔画分开,此时识别准确率会大大提高。
最后,再派一个 AI 结合上下文读一读通不通顺。比如,“美好的一天“明显就比“美好的二天”更通顺;“她是个女人”,就比“她是个囡囚”更对嘛。。。
总之,两个月后,黄锐华在会上蛋定地展示手写文字提取 Demo 的时候,尹毅彬吓得一蹦:老哥,你还真弄出来了呀!





有了“印刷体”+“手写体”这两个文字提取,夸克扫描王才多少配得上“王”的称号。
想想看,无论是在书上看到语句,还是在街上看到标语,还是在插图里看到内嵌的文字,你都可以在朋友的注视下,从容地掏出手机,一秒钟把文字复制出来,“咻——”地发给他,优雅蛋定不脏手。
这感觉很酷。装X利器不一定是一个好的生产力工具,但一个好的生产力工具,一定是个装X利器。
手写文字识别准确率到了99%,手写识别率到了90%,扫描王团队以为事情已经做到八九不离十。然鹅,他们又错了。。。用户就像一盒巧克力糖,你永远不知道下一个是神马口味。
他们总能扫描“奇怪的东西”。。。
(四)去冒险吧!
你看这个:



一个公式,你猜夸克扫描王会扫出神马效果?
有了刚才的铺垫,你可能也成了半个专家:首先,夸克至少可以把公式当成一个图片来扫描(就像我现在把这个公式截图插入文章一样);但是,它有一个更优雅的选择——把公式像文字那样“提取”出来。



没错,这里遇到了一个比“文字提取”棘手一百倍的问题:“格式提取”。
而且,“公式”最多只是所有烦人格式里的一种。咱们随便看一张海报,上面有图片和文字混合排版,有各种字体,还有弯成虾一样的变形设计——这一切都是格式!



格式是魔鬼,反正我还记得大学时代被格式支配的恐惧。那时候写论文,“首行缩进”这么一个小问题,经常是删一格太左,加一格太右,纯纯能把人逼疯。
夸克这群人需要“降魔”。为了把一个图片上的格式完整“扒”下来,老师傅们专门去找其他文档团队取经,把一整套文字格式处理逻辑嵌入扫描王。
事情还没完,如果你把文字和图像混合在一起排版,噩梦直接翻十倍。
咱们还以扫描那张海报为例,灵魂拷问一个接一个:
难题一:哪里是图案,哪里是文字?
海报的排版是放飞自我的。各种颜色的装饰、斑点还有文字、字母、数字都掺杂在一起。
很多时候就连视力1.5的人都得仔细分辨哪个是“逗号”哪个是“底色里的装饰黑点”。
难题二:到底是海报斜,还是图案偏?
人眼有误差,很难把海报拍得周正,总会有多多少少的偏角。这个时候系统理应把海报转正。
可问题来了,假如海报上有一个艺术字,字体就是斜体的。那么,怎么判断是“因为海报斜了这个字才斜了”还是“海报没那么斜这个字本来就是斜的”?!
难题三:到底是图案还是瑕疵?
有些海报很大,展开之后会有折痕。那请问,如何判断一条线是海报上的图案设计,应该保留,还是无用的折痕,需要抹除?
难题四:背景如何补足?
海报扫描出来是带有格式的,这也就意味着你可以修改海报上的字。
可海报不再是 PS 文件,所有图层都已经融成一体。如果你删掉了一个字,它下面就会露出一片恐怖的空白啊!应该用什么颜色、图案来填充呢?
这里面随便一个问题都是业界难题,但黄锐华挽起袖子,劳资不上秋名山,你们真当我是卖豆腐的!
比如“折痕”和“图案”,从三米开外可能看起来一样,但是如果放大端详,一定能找出二者区别。算法需要做的改进就是“精细”。但做这么精细的微操,就代表云端 AI 要计算更多的数据,耗费更多的计算力。
比如“背景补足”,其实现在最先进的AI算法是可以根据周围的信息把中间的空白补充得以假乱真的。问题还在于“数据量”和“计算力”,只有在云端猛堆机器,才能把这个活儿干漂亮。
AI 的殿堂欢迎技术流,但更欢迎人民币玩家。
黄锐华告诉我,为了挑战极限,他们已经卷疯了,2022年整个夸克云端的AI计算力已经升级成最新一代的 GPU,上面跑的算法基本每个月都有升级更新。
此时此刻,虽然海报的扫描效果还没达到他心中的完美境界,但相比世界范围内的同类产品,他还是可以拍胸脯的。
我帮你试了一下⇩⇩⇩



我们的用户对排版接受很高的。从会员付费情况就能知道,大家愿意为好的效果买单。
黄锐华不客气。
说回我们的故事。从2022年开始,夸克扫描王突然进入了一个有趣的螺旋:能扫描的东西越奇怪,就有越多人用;越多人用,这群人就会去扫描更奇怪的东西。
正所谓,浪大了不知道催上来什么海鲜。
最近,通过各种渠道,老师傅开始看到有人拍歌单,有人拍乐谱,有人拍少数民族的文字,还有人拍一堆源代码。
虽然他们没说,但用户肯定不会做无意义的动作。
黄锐华说。
于是,扫描王团队开始思考一些疯狂的事情。比如,能不能内嵌一个音乐播放引擎,让扫描王看到五线谱就直接把音乐播放出来?比如,能不能加入一个模拟器,把看到的代码直接运行出来?
你看,从提取文字,到提取格式,现在到了“提取一切”。扫描这个坑比马里亚纳海沟还深。。。
当然,这些只是一小部分例子,各种有趣的功能每天都在讨论中,受限于各种因素最终未必都做出来。但老师傅敢讨论这些东西,前提是扫描的核心技术已经到了足够“支撑花活儿”的地步。
“就拿代码来说,它对格式极其敏感。同样一个位置,放两个空格和三个空格,意义就不相同了。如果扫描不对,肯定执行不对!”黄锐华解释。
聊到这里,我颇有一点感慨。
用户在拍这些奇怪的东西时,肯定没想这么多。但实际上,远在千里之外,他们所有靠谱不靠谱的尝试都没有被责怪,更没有被忽视,而是被思考,被念念不忘,被必有回响。
如果说存在“互联网精神”的话,恐怕这就是互联网精神的重要部分。
我在2020年曾经和夸克的小伙伴们聊过一次(参考《当年轻人说夸克真香的时候,他们在说什么》
),那个时候,我感觉夸克的用户中学生比例极高——就是那些整日做题、搜题,纯纯的人生新手。
但如今看夸克扫描王的用户,已经大有不同。
他们之中可能有公司的人事经理,需要经常整理人员信息,备份合同;可能有工程师,需要扫描图纸增改设计;可能有“包租婆”,需要扫描一份旧的租房合同,修改一下信息重新打印。




这张图里有房屋租赁交割单、企业询证函和材料计划表。


这些用户显然已经走出了人生的新手村,正在各自的战场跟怪兽搏斗。
在我看来这是一个有爱的变化。
我试着想象这件事是怎么发生的:也许是在学生时代就用夸克的人长大了,他们进入了五花八门的工作岗位,仍然习惯依靠夸克解决问题;也许是一些“老人”被年轻人安利“夸克yyds”,然后入坑。也有可能是两种情况兼而有之。
但这一切之所以发生,恐怕是因为在一段不短的日子里,夸克没让他们失望。
大多数时候,“维护信任”比“建立信任”更难。因为你要在漫长的岁月里时时审视自己——不仅审视自己的善,更要审视自己可能的恶。
(五)兄弟,信我!
在夸克日常收到的反馈里,有律师说他用夸克扫描裁判文书,也有公司财务说她会扫描经营数据。
看到这,你也许会有点隐隐的不舒服。
没错,大胆说出来——这些数据涉及隐私,用夸克扫描王时,数据经过云端会不会有问题?
这件事儿引发的大讨论,居然没有首先发生在夸克的用户群里,而是在夸克团队内部。
为了使后面的讨论基于事实,这里必须得强调,夸克团队的任何人都不能查看用户上传的图片,也不能以任何形式泄漏用户上传的数据,约束他们的不只有自我道德,更有法律条文。
但你吃了几碗粉,不是你说了算。世界的运行,也不能靠赌咒发誓。
比如,有很多公司,在规章制度里就写明,禁止内部数据上传互联网,不管会不会引发问题,反正不允许上传;还有很多特殊的工作环境,本身就带有信号屏蔽,这种情况下,就算让你用都没办法用。
意识到这些问题以后,夸克这群人决定紧急上线一个“补丁”——离线扫描。
你还记得一开始我们说的扫描三步走吗?1、本地裁剪;2、云端处理;3、发回本地导出文件。
所谓离线扫描,就是把第2步本该在云端完成的一切(去瑕疵、去手写、文字提取、格式提取等等)统统都塞在手机里完成。数据从头到尾都不出手机,自然不会有隐私泄露的问题。
这种“不出手机”是可验证的——你可以关掉网络,拔掉手机卡,进入信号屏蔽室,whatever,只要手机有电,夸克扫描王就能工作。
可是,这个目标会引发一个巨大的技术问题:
算法团队刚刚使出吃奶的劲儿,把云端的计算力飙到最高,把算法卷到最新,才把扫描效果做到极致。现在你端着手机告诉他,忘掉你们那可爱性感一望无际的小云朵吧,这个小盒才是算法的家啊。。。



然而,暴躁老师傅黄锐华没有掀桌子。相反,他非常支持。
他支持到了从本就人手不富裕的团队里分出一个小分队,专门做“离线算法”的程度。
把算法塞进手机,难度堪比把大象装冰箱,严格来说比把大象装冰箱更难,因为云端算法比手机里的算法大100倍。而世界上没有任何一个东西压缩100倍之后还能保持原有的功能——这意味着大多数算法必须重写。
老师傅没日没夜地飙车,终于,2020年8月“离线扫描”重磅上线,用1%的模型大小,实现了云端90%的水平。



从一个角度看,离线扫描的水平非常惊艳,但从另一个角度看,它却是一个“性价比非常差”的功能。
比如,它上线之后,被调用的数量并不多——因为绝大多数情况下用户扫描的都不是敏感信息,不会开启离线模式。
比如,派一个专门的团队来持续维护离线算法非常不经济——相当于一辆车同时有两部引擎运转,开销巨大。
而且,还有一个非常难受的问题:在大多数用户的注意力没有放在隐私风险的时候,主动推出离线扫描,反而让他们觉得怪异,有引火上身的风险。就像我忽然对你说:你猜我的裤子拉链有没有拉上?哈哈,拉上啦!
但尹毅彬说,他们不这样看问题。
“一个功能好不好,不能纯粹用数据来衡量。说得不客气一些,数据是会骗人的,有时你必须更相信自己的脑袋。”他说。
“但成本上总会有压力吧?”我问。
“当然有压力。压力归压力,正确的事归正确的事。”他说,“况且,正确的事情早晚会带来数据的回报啊!不用担心,长期来看我们并不亏。”
讲真,每个年轻人长大的过程中,生活都会或早或晚给他上一堂必修课,那就是:当越来越多人依赖你的时候,你身上就凭空出现了一种叫做责任的东西。而责任就是责任,它不会因为你不想负责任而变成别人的责任。
这是一个既简单又难的道理。简单到人人都能理解,却难到极少有人能够做到。
话说回来,性价比很高的事情,总共就那么三五件,智商正常的人都在做。真正把人和人、产品和产品区别开的,不就是谁做了更多性价比不那么高,但正确的事情么?
倒不能说夸克已经是楷模,我的意思是他们努力的方向还挺性感的。
(六)我们各自还有一生的奇迹
王淮是一个对未来充满想象的人。他具体在做的事情虽然只是一个夸克客户端,但他却相信,手机背后这几颗小小的摄像头里有关于未来的隐喻。
我们基于摄像头做了很多不同的事情,但这背后有一条主线任务——“理解世界”。
比如我们最早做的万物识别,是理解镜头里的物品;现在我们做的扫描王,是理解一个平面上的信息。
如果向未来看,我们可以让镜头对准一切,比如你的视野里是街景,屏幕上就会把这个建筑的名字标注出来;比如你的视野里是一本书,就会把作者年代书评等等信息显示出来,英文书也可以实时翻译成中文。
在我的个人观点里,基于相机的工具的终极形态,应该是一个AR(增强现实)助手。
他说。
我在网上找到了一些AR未来应用的片段⇩⇩⇩







我回味了一下他的描述,脑海里突然出现了一个奇怪的场景:
我是一个上班第一天的战五渣,紧张到脸盲,连隔壁同事叫什么都忘了,这个时候,打开AR眼镜上的扫描王,对方的名片,还有我们认识的时间地点,曾经交谈过的内容,都出现在眼球几厘米开外的小屏幕上,简直是社恐救星。
就在我盯着屏幕认真研究对面这个人是谁的时候,惊奇地发现他也在斜眼看自己的屏幕,奋力找出我是谁。。。
这个场景等同于:一个游戏新手,正瑟瑟发抖站在旷野上,突然从天上掉下来一把满级神刀,拿起来刚想大杀四方,发现身边所有的对手也都瞬间添置了一模一样的刀。。。



如今每个人都能坐在铁鸟的肚子里飞到全世界任何一个地方,每个人能用带芯片的板砖跟天边的朋友通话,你并不会惊奇。因为当每个人都有神刀的时候,每个人就都没有了神刀。
科技让我们平等地进步,平等到没人大惊小怪。
如果真有什么是神奇的,在我看来,是夸克团队和他们的用户,这两群年轻人一直在隔空“陪伴”。
当年轻人上路,口袋里揣着一个精灵球,虽然牛鬼蛇神在前路夹道欢迎,但他们无比确信,在云端有一群和自己一样逗比又好奇又不愿轻易认输的强迫症、老司机、好哥们,在没日没夜地绞尽脑汁帮自己改进精灵球,心里也许会稍稍安慰。
相信老哥我,以我三十多年对这个操蛋的世界的理解,哪怕是这种稍稍的安慰,都是人生中不可多得的珍贵情感。
能带着情谊和一群朋友一起变大,变老,从战五渣变成“老战五渣”,反复吐槽那些只有你们之间才懂的烂梗,恐怕无需远求,人间至味是此清欢。
虽然你我终将老去,但总有人正年轻。
有一件事我们无比确信:在世界的角落里,永远有18岁的少年,他们在新手村口最后回望,然后扶一扶剑柄,决绝地走向荒野。
也许这时,BGM还会响起那首老歌:你要去哪里,我去哪里,我也不在意。以后我们各自还有一生的奇迹。



再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax,也可以关注微信公众号浅黑科技:qianheikeji
史中:像素时代的黄昏和“淘宝叛军”史中:夸克“凶猛”:一场手机镜头背后的狂野冒险
页: [1]
查看完整版本: 摄像头是手机上最宝藏的一个模块吗?