在凌晨2点的直播间里,一位衣着时尚的主播正在热情地介绍着屏幕前靓丽的服装,其丰富的产品解说动作、细腻又温情的笑容和专业的话术,吸引到了不少围观,屏幕上也时不时飘过的弹幕与下单提醒,让主播与顾客之间的互动更加频繁。与此同时,在屏幕后这位“主播”的房间里,却不见真人“主播”的身影,只有几个运营人员和几十台这样的屏幕,不间断的用各国语言,向不同地区的客户进行直播。
一排排屏幕上全是数字人直播带货的场景在今年愈发多见,数字人代替真人俨然成为了直播电商的新趋势。今年5月,抖音发布了《抖音关于人工智能生成内容的平台规范暨行业倡议》,针对利用人工智能技术生成的视频、图片和衍生的虚拟人直播,发布了相关规范,明确认可虚拟主播形式,流量方面对标真人直播,没有加以限制,相当于给所有想要使用虚拟数字人用于视频制作和直播的创作者、品牌、商家,吃下了一颗定心丸,不少在跨境电商领域取得成功的商家,也开始把在海外验证成功的虚拟数字人直播带货的模式,应用在了国内直播间。
随着政策解禁,摆在B端虚拟数字人用户面前的最大难题,已不再是模糊的平台规则,而是如何利用AIGC、虚拟数字人突破内卷,在降低成本的同时,获取更多的流量和GMV。而在直播和电商领域之外,虚拟数字人还有更多的使用场景。据《中国AI数字人市场现状与机会分析》报告预计,到年,中国AI数字人市场规模将达到.4亿元。在研元社推出的《AIGC进化论》系列栏目中,第一期我们对话了北京元境数字科技有限公司创始人兼CEO王智武。他在虚拟人生成、虚拟人智能应用、虚拟人多模态驱动、元宇宙、AIGC等技术领域已有10年以上的丰厚经验,并带领团队研发了行业领先的虚拟人实时交互系统,是国内元宇宙数字人行业的领军人物。而元境科技作为虚拟数字人赛道的一家初创公司,团队成员在王智武的带领下更是打造了一系列“有记忆、有灵魂、多情感、多感知、超写实”的数字人产品。针对广大企业对于AIGC虚拟数字人场景应用落地需求,元境科技研发了一系列完善的AIGC多模态虚拟数字人定制化解决方案,整合当下最先进的前沿技术,将预训练大模型、垂域小模型、专精知识库、实时动作生成库、实时虚拟人微表情生成、多模态感知交互系统等等一系列尖端技术,融入到元境科技定制化AIGC虚拟数字人直播解决方案当中,极大降低了生成式AI和虚拟数字人的使用门槛,让数字人能够更好地赋能更多行业。以下为研元社与元境科技CEO王智武的对话内容:
酒香也怕巷子深在数字人赛道里,元境科技是如何脱颖而出的?王智武:在元境科技成立之前,我从年就开始接触虚拟人行业了,当时纯粹是兴趣驱动,主要以技术研发为主,对于“服务”其实并没有概念,觉得把技术做牛逼,商业合作自己就会来了。但后来才发现不是这样,就像有些人说的那样,“酒香也怕巷子深”,不宣传是肯定不行的,这样做是闭门造车。
从年后半年开始,我就开始创业了。当时我想首先要把产品先弄好,没想到toC的事情,觉得太遥远,决定先做toB的事情。
在服务B端客户的时候,首先要想清楚客户的需求——高度定制化,因为在B端想要做一个通用化的东西是非常有难度的。在这种高度定制化的前提下,创意就显得尤为重要,一定要“创意先行”。现在市场上做虚拟人的公司非常多,如果仅仅只是做出一个虚拟人来,对方很可能不会选择一个小型的创业公司。
在元境科技内部,团队的创意和动画导演天天都在思考如何从一个很陡峭的角度上去切创意,如果按照常规的道路走会“死”的很快,因为如果单论美术或者技术,我们团队或许和很多大公司是无法抗衡的,但作为一支年轻的团队,在创意方面绝不能拉胯,所以他们在这方面甚至被我逼得有点“魔怔”了。
以匹克的发布会为例,这个案例我印象特别深刻。当时,对方只想做成一场普通的发布会,但我恰好在一场篮球赛上认识了对方的一位负责人,就把他邀请到我们公司来参观,团队成员在当场想出了可以和发布会进行结合的创意。那时,公司里动作捕捉房间的灯光还比较昏暗,但简单的演示也算实现了整体的逻辑。后来,我们又花了两天时间快速做出了一个Demo,并获得了对方的认可,可以说,与匹克的合作不是靠我们的技术,而是用创意征服对方的。
王智武:第二个让我印象深刻的例子是度小满。在提案的那天,我刚刚结束一个会议后就赶紧跑到地下车库,在手机上给对方共享了我们的提案,技术和策划团队的同学们也都在我身边。由于这次是技术标,而百度提出的问题都非常专业,如果没有真正的技术实力,那绝无任何中标的可能。好在我们把对方提出的每个问题都针对性的解决了,最终也建立了合作关系。
此外,在服务客户的时候,态度也一定要好。现在团队的成员们基本都能够在很短的时间内在群里回复客户的消息,而且我们内部还建立了一个机制——不能简单的回复几个字或一句句回复给客户,而是要在“捋顺”自己的思路后,整理成一段完整的文字回复给对方,让客户感受到我们的专业性。
王智武:不仅如此,之前我们内部协同的流程是比较混乱的,对内或对外发送的资料会有网盘或者邮箱等各种途径,但现在我们全面飞书化,我也在强迫自己所有的工作都使用飞书处理。当前,我们的资产管理也统一成使用两种方式:一种是NAS,公司内部的文件和客户的文件都可以从这里存取,并做了有效隔离,客户没有修改的权限,只可以下载需要的文件;另一个则是Git,公司所有的代码都存放在Git上,版本管理也做得非常好。
整体来说,我们团队现在使用“Git+NAS+飞书”的一整套流程,效率有了非常大的提升。
元境科技提供的产品和服务为客户带来了哪些收益?
王智武:对于大客户来说,最重要的需求是利用数字人来做品牌宣传,希望可以获得一部分转化率,对成本不够敏感。但对于小公司来说,如果他们想要用数字人来直播或用于短视频创作,最大的需求还是降低人工成本。
现在大家都在说数字人可以降本增效,但在我看来,“增效”不一定能够做到,因为现在有些数字人的智能性、交互性在某种程度上来说,还是有所欠缺,但“降本”肯定可以。杭州的某些直播公司,原本的人力成本可能是十几万到几十万每月,但在使用数字人以后,成本可能降到1万元以内。
对于元境科技来说,现在2D数字人最低可以做到元/月,更高阶的价格是元/月,随着训练模型的不断提升,未来整个行业的成本还有望进一步降低。
不断“跳坑”与“爬坑”?今年以来,元境科技在技术方面有哪些新突破?王智武:在我看来,数字人的技术迭代是一个“跳坑”的过程:从一个坑里刚爬上来后紧接着跳进另一个坑里,“爬上来”和“跳下去”这两个动作连续不断的进行。
为什么这么说?因为虚拟人的技术在不断迭代,流程也一直在优化。在这个过程中,很难找到一家已经盈利的公司走在前面帮你“跳坑”,并探索出可行的商业路径供你直接复制,所以你必须要自己找到商业场景。在这个前提下,我们就需要自己去摸索这里面的各种技术。从虚拟人的制作环节上来说,每个环节都有新技术在迭代,元境也对每个环节都做了优化。
第一,在传统的建模流程中,完成设计原画、建凸模、雕高模、搞贴图等一系列操作之后,可能需要2个月的时间。我们现在做了一套SaaS的捏脸系统,相当于做了一套高精度的底膜,在这个底膜上的基础上,可以快速捏出来任何你想要的一个模型。
第二,我们首创了一套“2D拟合3D”的建模系统。虽然使用捏脸系统可以提高速度,但是想要捏出一个非常令人满意的模型还是很难,这也是很多游戏公司里出现“捏脸师”这个职业的原因。通过使用元境自研的“2D拟合3D”系统,只要把一张人物照片给到我们,哪怕是用Midjourney等生成的人物形象,也可以快速把2D形象变成3D模型。这项技术现在的帧率已经达到了20FPS,我们希望未来能够达到60FPS,这样数字人的动作效果会更加流畅。
第三,绑定的环节是特别消耗人力的,但我们已经将使用传统方法需要两周以上的绑定时间缩减到了3天以内。元境自研了一套“AI绑定”的脚本,只要把模型传进去,就可以全自动完成绑定,节省下来的时间可以用来处理更多细节的部分,让虚拟人的效果更好。
第四,虚拟人的表情处理至今在国际上都是一大难点,我们利用英伟达推出的“Audio2Face”——基于Omniverse的面部动画生成技术,用声音来生成和音频同步的对唇面部表情动作。因为同样的文字是很难传递各种不同情感的,但声音可以,配合着语调、语气的不同就可以做到。所以当我们现在用声音去驱动虚拟人的时候,你就会发现虚拟人也可以做到“有情感”,不再像单纯文本驱动时显得那么僵硬。
第五,过去虚拟人身上很逼真的肌肉变化只有在好莱坞大片中才能看到,这是一帧帧渲染后的效果,但现在我们把这套技术迁移到了虚拟人的实时表演当中,也就是说,现在的虚拟人也是有肌肉变化的。
要做到这个效果,前期的准备工作非常多,首先就要了解人的肌肉,相当于把整体做了解剖学,所以我经常跟大家开玩笑说,不懂解剖学的人做不了肌肉绑定,能做肌肉系统绑定的人就像是一位外科大夫,需要对人体肌肉的走向、布局等非常熟悉。在这些工作完成后,就可以通过肌肉变化来计算不同动作导致衣服褶皱的变化,使虚拟人的衣服不再是很假的完全贴在身上。
第六,以前虚拟人用到的声音可能是TTS,虽然文本识别很精准,但听起来还是有些假。现在我们使用的叫做“ETTS”,“E”就是Emotion,现在虚拟人说话的时候就明显能感受到他的情感变化和起伏,难分真假。
第七,此前虚拟人做不同的动作也一直是难点。元境科技在前期做了很多动作库,但动作库有一个很大的缺点:就像在游戏中一样,用同样的招式打boss的时候永远都是一个动作,哪怕多预制几套动作,也无非是来回切换而已,效果也不算好。在今年5月的时候,我对团队提出了一个想法,希望能够借鉴文本的生成式模型来做出基于多模态的“生成式动作”,让虚拟人的下一个动作也无法预测,现在我们已经做出了上半身的生成式动作,下半身的还在研发当中。
第八,在渲染方面,之前我们做这个虚拟人的精度如果是60分,现在最新做的几个角色的精度我认为已经达到了90分,尤其最近有一个新的角色,我们正在做技术调试,角色精度非常高,从灯光、渲染管线、光线追踪等每个环节都进行了优化,这些技术也都被我们一一突破。
第九,在虚拟人接入人工智能方面,我相信现在国内的虚拟人公司大部分都处在同一个起跑线上,谁能最终跑出来还尚未可知,这是一个重新洗牌的过程。我个人认为,在这个过程中必须要找准应用场景,然后全力去克服这些应用场景里的交互,这就需要结合起大模型和垂类模型的能力。在去年的时候,我总感觉虚拟人还是不够不完整,但在今年使用大模型之后,效果就变得完全不一样。在数字人的各种流程和技术方面,您觉得挑战最大或最难的一点在哪里?
王智武:我认为虚拟人最难的部分就是交互,既包括表情交互,也包含动作行为交互、动力学交互等,每一种交互都算是一个挑战,都是一个大高山。
对于表情来说,我提出的“3分钟图灵测试”主要就是针对交互的。因为在用户和虚拟人的交互过程中,如果给人的感觉不自然,用户会觉得很不舒服,而要通过这个测试,就意味着这个虚拟人的智能性非常高、交互性非常好。对于虚拟人如何更好地和人类进行交互,我们也总结了5个关键词:有记忆、有灵魂、多情感、多感知、超写实。
此外,让虚拟人理解人类所说的话也是一个难点,虽然ChatGPT已经做得非常好了,但在虚拟人身上实现的难度更大,因为虚拟人在理解的同时还要做出相应的动作,这是非常大的挑战。
在数字人领域,您有没有观察到国内外这半年来有哪些新的玩法?
王智武:我觉得数字人最新的好玩的点就是自学习。虚拟人接入大模型后能跟用户交流只是其中的一方面,当有了自学习能力之后,虚拟人就相当于能够进行自我升级。通过和我持续的聊天,他能够不断吸收我说的话,然后迭代升级,等到到明天再跟我在聊天的时候,又和今天不一样了,他的回复也会越来越去迎合用户,这种自学习的能力未来会在更多的场景中得到应用。
比如说,用于教学辅导的虚拟人每天通过自学习就可以判断出孩子每天掌握的知识点,可以更加针对性的给出学习建议,而不是采取漫无目的的题海战术。另外,在客户服务场景和文旅场景中,通过不断与用户交互后进行自学习,虚拟人提供的服务质量也会不断升级。人类、虚拟人、机器人终将共生对于纯虚拟的数字人和很多创业公司做的真实的硬件机器人,您认为它他们未来会如何发展,会不会有哪一方取得显著性的胜利?
王智武:我觉得现在的机器人长的太丑了,大家都现在更多的