大神李沐?回归B站「做了个实时{数字人}」,直言「水平吊打我自己」
时隔近一年,那个在 B 站教大家阅读 AI 论文的大神李沐 @跟李沐学 AI,终于回归了!
在最新一期视频中,李沐「做了个实时数字人」,并与 TA 进行视频对话,从视频来看,数字人形象确实挺逼真的,用他自己的话说,「水平吊打我自己」!
而这背后的技术正是李沐的创业公司——BosonAI 发布的一款名为 Higgs Avatar v1 的模型:面向语音智能体的实时数字人。
官方介绍,作为一个实时基础模型,Higgs Avatar v1 能够为客服对话、虚拟助手、培训以及互动体验带来更接近真人的数字化形象与临场感。
而且操作起来非常简单,只需要一张静态图片,就能生成生动、富有表现力的面部表情,并支持说话、倾听和回应。所有操作都以逐帧方式完成,并与音频保持同步。
BosonAI 团队介绍,上述李沐的展示的视频内容完全由 AI 生成,不仅没有预设脚本,也没有动画制作流程、预渲染循环,每一帧都是实时渲染完成的 —— 包括声音、对话、口型同步、头部动作和表情。
并且,整套流程仅在单张 H100 上就可以运行。
下面再来看几个官方给的使用案例,大家来评一评效果如何?
实时保险 Agent 展示:
AI 教练鼓励用户的 Demo 展示:
AI 艾伦・图灵访谈:
两个 AI 虚拟形象在探讨人类情感:
只要一张照片,上演「大变活人」
根据 Boson AI 团队披露的技术细节,Higgs Avatar v1 具备以下四大核心优势:
无脚本的即兴表演: 模型会跟着语音流,逐帧实时渲染出唇形同步、头部动作和面部表情。你听到什么,就看到什么,完全是即兴发挥。
开局一张图,剩下全靠 AI: 不需要好莱坞级别的 3D 动捕,也不用预先录制僵硬的循环视频。只要给它一张静态照片,Higgs Avatar v1 就能瞬间生成一个会听、会说、会给反应的动态面孔。
快到没有「时差」: 业界公认保持实时对话不卡顿的延迟底线是 62.5 毫秒,而 Higgs Avatar v1 生成一帧画面只需要 16 毫秒!这意味着数字人的表情永远紧紧贴合声音,绝不拖泥带水。
极致的算力性价比: 对于企业级应用而言,成本是落地的关键。单张 H100 GPU 即可同时支持 8 路实时对话并发,将单次对话的成本压缩到了完全能够满足大规模生产部署的水平。
Higgs Avatar v1 的发布,为 Boson AI 的产品栈补齐了一块关键的视觉拼图。
在实际业务场景(如保险销售、企业教练、虚拟面试及互动娱乐等)中,Boson AI 现已形成了双擎驱动的格局:Higgs Audio 负责语音的理解与生成,Higgs Avatar 负责赋予 AI 真实的「面容」。
「我们之所以坚持自研基础模型,是因为生产环境中的对话式 AI 无法由外部组件拼凑而成。」 Boson AI 团队在发布声明中强调。
如果只是把现成的外部 API 缝合在一起,延迟卡顿、抢话冲突、声音跟表情脱节等问题根本没法解决。只有从头开始全栈自研,把声学与面部表情的情感对齐、端到端的工作流编排死死咬合在一起,才能彻底打破交互的隔阂。
怎么玩?
目前,Higgs Avatar v1 已经进入内测(Private Preview)阶段,接下来会搭载在他们即将推出的语音聊天体验产品 Boson Presence 中和大家见面。
迫不及待想看看沐神新作品的同学们,可以去官网排个 Waitlist 占坑了。对于有企业集成、定制模型或 API 访问需求的客户,也可直接通过官方邮箱联系。
B 站视频:https://www.bilibili.com/video/BV1pB586fEap/?spm_id_from=333.1387.upload.video_card.click
更多见: https://www.boson.ai/blog/higgs-avatar-v1
加入试用:https://tally.so/r/VLvKgE