声网刘斌:RTE 演进助力 AI Agent 应用落地
12月11日,声网声网 COO 刘斌出席由量子位举办的 MEET2025智能未来大会,并带来了主题演讲,他分享了在实时多模态的趋势下,RTE 的演进如何助力 AI Agent 应用落地,并认为 RTE 将成为生成式 AI 时代 AI 基础设施的关键部分。
在 GenAI 时代,刘斌力A落地RTE 与 AI Agent 有什么关系?刘斌首先分享了两个事件,其一,今年10月初,声网的兄弟公司 Agora 作为语音 API 合作者出现在了 OpenAI 发布的 Realtime API 公开测试版中。其二,演应用10月底的 RTE2024实时互联网大会中,声网也宣布与 MiniMax 正在打磨国内首个 Realtime API。通过这两个事件反映出当下大模型的进助交互正在走向实时多模态。
实时音视频成为对话式 AI Agent 的声网关键一环
刘斌认为,在多模态模型推出后,对话的方式与原来纯文本交互不同,会从异步变为实时双工交互,实现了很大的飞跃。但在最终应用落地的刘斌力A落地过程中,依然存在很多客户痛点,比如在实际应用场景中,用户的设备通常无法像发布会演示的那样一直处于固定网络与物理环境下,大部分Conversational AI Agent 的使用场景是随机的,也就是可能会发在 Anytime Anywhere,比如在开车送完孩子上学之后,这就对大模型实时语音对话中的低延时传输、网络优化等提出了考验。演应用一般来说,进助延迟在 1.7 秒内会让人感觉自然,2 秒多、 3 秒则会让人觉得卡顿、声网反应慢。刘斌力A落地
其次在模型交互中能否支持智能打断以及主动交互也是演应用用户非常关注的一个关键点。要做到这些,进助除了模型能力,在应用落地方面,需要端到端的能力支持,不仅需要成熟的 VAD 技术来实现自由打断,更需要一整套的音频高级算法来支撑实现优雅打断,从而实现用户体验最好的人模对话,当然也需要应对不同的物理环境、复杂的声网网络环境、PC、刘斌力A落地手机以及各类 IoT 终端等。演应用
声网作为全球实时互动云行业的开创者,在音视频领域积累了深厚的技术优势与场景实践,通过将 RTE 与 GenAI 结合,推出了声网 Conversational AI Agents ,旨在帮助开发者与企业解决 Agent 应用落地的一系列痛点,快速构建适配自己业务场景的 AI 实时语音对话服务。
语音对话延迟低至500ms:针对大模型语音交互中普遍存在响应时间长的痛点,声网自研的 SD-RTN? 实时传输网络可以实现全球范围的低延时音视频传输,目前可做到语音对话延迟低至 500ms,并进一步通过更快速的 LLM 推理首字耗时、低延迟流式 TTS、同机部署等一系列技术手段,保证对话的实时性与流畅性,达到近似人与人之间日常对话停顿与间隔。
支持智能打断:开发者在构建 AI 应用场景时,会将能否支持随时打断也成为衡量大模型智能化的重要指标。声网自研的 AI VAD 技术,适应人类对话的停顿、语气和对话节奏,支持 AI 对话过程中随时打断。同时,声网的解决方案还深度优化 AI 角色,最大程度保留情绪情感等关键信息,超拟人真实音色丰富通话体验。
支持30000+移动终端:在大模型的应用落地中,不同的终端设备、操作系统等也会带来不一样的体验,声网的音视频 SDK 经过不断的迭代升级,可以支持 30 多个平台框架、30000 多终端机型及各种操作系统,包括各类 IoT 设备终端;
领先的音频处理:在人与人音视频通话的过程中,环境噪音是经常遭遇的一大痛点,影响沟通效率。在 GenAI 场景中,环境噪音同样无法避免。声网具备业界领先的音频3A能力,提供 AI 回声消除、AI 智能降噪、背景人声过滤、音乐检测/过滤、主讲人声纹锁定等自研音频技术,即使在商场、地铁站等嘈杂环境中,也能保证 AI 对话过程不受影响。
灵活可扩展的 AI Agent 架构:开发者在构建 AI 应用时,往往会根据自身的喜好或者业务场景选择不同的组件搭配 AI Agent。对此,声网的解决方案采用了灵活可扩展的 AI Agent架构,兼容市场主流的 ASR、LLM 和 TTS 技术,并具备工作流编排能力,帮助开发者与企业根据特定需求定制和扩展 AI 驱动的实时互动体验。
RTE 成为 GenAI 时代 AI Infra 的关键部分
在与大模型厂商合作的过程中,声网也发现想要提升大模型落地的实用性,现有 RTE 技术栈和基础设施仍有大量改进空间。刘斌表示,只有通过不断的演进,大模型才有机会在各种场景、形态下大规模参与到和人的语音对话中,大模型也将基于云、设备端、边缘的多维度参与与协作。基于这些能力的改进和普及,未来 RTE 将成为 GenAI 时代 AI 基础设施(AI Infra)的关键部分。
同时,Gen AI 也在驱动 RTE 实时互动的技术变革与体验革新,在人与人的实时互动中,声网一直致力于实现从 QoS 服务质量到 QoE 体验质量的技术变革,在体验层面也从“听得到“变为“听得清”。而在人与 AI 的实时互动中,为了进一步增强体验,RTE 的技术变革也演变为 AI QoE 甚至多模态 AI QoE,这背后就包含了声网自研的 AI VAD 能力、降噪能力及网络优化等一系列技术能力,以使得人与 AI 的对话更符合实际情况,大模型也从理解内容,变成理解对话人的心理、情绪,最终理解对话时的人类意图,最后实现从“听得懂“到“听「得心」”的体验革新。
在 GenAI 时代,声网的产品体系也在不断加强,刘斌也进一步介绍了声网的 AI RTE 产品矩阵,包括 Linux Sever SDK、AI VAD 能力、AI Agent Service 等都在做补充与优化。
最后刘斌还介绍了声网 RTE + AI 能力全景图,包括 RTE+AI 生态能力、声网 AI Agent、Conversational AI Agents 解决方案等,全面的展现了声网对 RTE+AI 的整体思考,致力于成为 GenAI 时代 AI 基础设施的关键部分。
(责任编辑:焦点)
-
要说当前世界上最伟大的科技公司,那苹果一定算一个,自1976年成立以来,一直以其创新精神、卓越品质和对细节的极致追求,不断书写着科技史上的传奇。苹果之所以伟大,不仅是因为它的市值以及强大的产品市场占有 ...[详细]
-
09月02日讯 英超第三轮,切尔西1-1战平水晶宫。切尔西主帅马雷斯卡赛后表示:“可能必须得明确一件事,切尔西三年前赢得了欧冠......但现在的切尔西已不是那样。现在来说,如果有时没有获胜,那是很正 ...[详细]
-
马龙:我们是一支正在寻找自我的球队 骑士是支更强更全面的球队
12月6日讯 NBA常规赛,掘金客场114-126不敌骑士。赛后掘金主帅马龙接受了记者的采访。谈到本场比赛的失利,马龙说道:“我们是一支正在寻找自我的球队,我觉得今晚这一点相当明显。对手是一支更全面、 ...[详细] -
12月7日消息,由中国质量协会发布的“2024年中国新能源汽车行业用户满意度”测评中,荣获“市场关注新车轿车类别)”第一名!在奖项的满意度指数整体测评中 ...[详细]
-
天玑8400支持AI作曲家应用 用端侧AI实现每一个人的音乐梦!
近日,联发科发布了天玑 8400移动芯片,凭借越级的性能和能效成为新一代“神U”,续写了天玑8000系列的“神U”传奇。作为全球首款采用全大核架构的次旗 ...[详细] -
勇士第四节靠替补逆转掘金,最后首发决战,被掘金逆转。勇士有厚度,掘金有五虎。库里今天赛季最高的11助攻,约基奇一个月来最低的6助攻,这是王牌的待遇:勇士切约基奇的传球,掘金追库里的强投。勇士:约基奇能 ...[详细]
-
本月18日,国产单机ARPG《明末:渊虚之羽》亮相Xbox Partner Preview全球发布会,发布了实机预告片。国产动作游戏再次登上Xbox全球发布会,让海外玩家继《黑神话:悟空》之后再次感受 ...[详细]
-
马龙:我们是一支正在寻找自我的球队 骑士是支更强更全面的球队
12月6日讯 NBA常规赛,掘金客场114-126不敌骑士。赛后掘金主帅马龙接受了记者的采访。谈到本场比赛的失利,马龙说道:“我们是一支正在寻找自我的球队,我觉得今晚这一点相当明显。对手是一支更全面、 ...[详细] -
12月26日消息,特斯拉汽车宣布2024.44.4.1版本更新今日开始分批次推送。本次软件更新主要升级内容,包含ASS高级智能召唤、自动泊车改进、驻车盲点警报功能、寒冷天气改进等,部分功能实现效果可能 ...[详细]
-
9月2日讯《马卡报》消息,塞维利亚认为如果签下德佩,球员工资过高可能会给球队带来负担,因此塞维基本不会签下这名自由球员。奥坎波斯转会蒙特雷队的交易已进入最后阶段,因此他将在未来几天内完成转会。塞维正在 ...[详细]