小米AI语音新框架:人人都能当声音导演

张开发
2026/6/9 17:58:03 15 分钟阅读
小米AI语音新框架:人人都能当声音导演
小米大模型应用团队 投稿量子位 | 公众号 QbitAI语音合成大家都不陌生这两年市面上各种AI配音也层出不穷。but真在实际场景应用起来还是会面临一箩筐问题——举个栗子想把小说做成有声书但配出来的声音怎么听都感觉很生硬而且口语表达效果也是个大问题。此外像播客这种配音场景光配音环节就要折腾大半天合成音频时也会面临各种合成的bug也正因如此面对传统语音合成的种种局限问题小米大模型应用团队提出了——Midasheng-audio-generate与Xiaomi Any2Speech两大真实世界音频生成框架。在模型能力上两个模型分别支持「沉浸式音频生成」与「无边界长音频合成」。通过大模型对角色设定、情绪变化以及整体声学场景的统一建模让AI能够真正理解一段自然场景下的音频应该如何呈现。在这样的生成方式下声音不仅能够被合成还原出来还能一体式构建出来这下好了人人都能当声音导演的时代来了Xiaomi Any2Speech让每个人成为声音导演传统TTS技术的评判标准一直很直白那就是模型能不能念好一句话把每个字读清楚。而Xiaomi Any2Speech的核心突破就是让AI不再只懂念字儿而是学会理解声学空间与叙事逻辑真正拥有了导戏的能力。具体来说在播客、相声、辩论、脱口秀等多种语音对话节目生成中Xiaomi Any2Speech都表现出了极高的可用性和真实性多人语音互动支持多人分角色对话播客、相声甚至是武侠广播剧中刀光剑影的沉浸式多人对白都能完美呈现。声学场景的营造以往生成的声音总像在空荡的录音棚里和背景音是割裂的而模型把背景环境和人声做了统一建模声音自带场景感不再是孤立的语音输出。支持长文输入模型支持多种格式的文档输入单次推理可以生成最长约10分钟的连贯音频。情绪递进故事性强模型能理解剧本结构让AI的表演像真正的演员一样有起有伏。话不多说直接来听听下面这段由模型生成的罗永浩×豆包辩论的AI效果模型能懂声音、会叙事说话还自然流畅核心靠的当然是一套全新的技术创新能力首先就是能让模型理解声学空间与叙事逻辑的「Global-Sentence-TokenGST」标注体系。具体来说Global层级定全局把控场景定位、说话人画像、整体的情绪走向而Sentence层级管局部调整每一句话的语气、语速、表达意图适配当下的背景状态。Token层级抠细节精准处理重音、多音字甚至是笑声、呼吸声这类贴近真人表达的小细节。三层配合让AI对声音的理解更到位其次是模型使用的Labeling over Filtering的技术思路可以说也是反着传统TTS的玩法来的。大家都知道以往做TTS训练时其实都会刻意过滤掉嘈杂数据比如多人重叠的声音、录音质量参差的素材只留干净的音频做训练觉得这些杂数据会影响效果。而Labeling over Filtering的思路则选择保留传统TTS摒弃的嘈杂数据——通过GST标注体系将其转化为训练燃料使模型学会从人声背景中泛化纯音效如磁带损坏感、旧广播感。这样的好处很直接那就是模型自己能学会从复杂的人声背景中提炼、泛化出各种特色声学效果不仅如此在CoT思维链合成方面模型还基于全局指令进行深度「推理」理解场景氛围与情绪走向再生成音频这样一来比传统TTS更贴合场景、更有感染力。在具体的架构设计上Xiaomi Any2Speech采用了双路拆分维度Dropout的思路。把传统TTS理解与发声合并的黑盒过程拆解成了可追溯、可干预的步骤让创作过程的可控性大幅提升。Instruct路用户硬约束场景元数据、说话人身份、声学环境评分直接输入。Think路模型自主推理表达规划——全局氛围与情绪弧线、逐句语气/语调/语速/音量/意图以及音素级发音细节训练中随机丢弃部分标注维度Dimension Dropout被丢弃维度不补全使模型在部分指定场景下仍能高质量合成。双阶段生成先逐句规划表达蓝图再以蓝图为指导生成音频将传统TTS “理解与发声合并” 的黑盒过程拆解为可追溯、可干预的两步。也正因如此Xiaomi Any2Speech在实际落地中不管是多人分角色对话的塑造、背景环境与人声的融合建模还是长文本的连贯处理、剧本结构的理解都展现出了远超传统TTS的能力。让音频创作不再是专业人士的专属普通人也能轻松上手做出高质量的声音内容。Midasheng-audio-generate声画同频的沉浸式音频世界相较于Xiaomi Any2Speech的长音频合成能力Midasheng-audio-generate的模型则更强调——用一句话实现包括人声、场景音效、音乐等的「全场景声音」重建还原。具体来说模型在音频合成上的亮点主要包括以下几个方面一句话造世界 仅需自然语言描述就能生成包含人声、音乐、环境音的完整音频无需后期拼接。符合场景特点的语音生成比如用户要合成火车上的对话或森林中的对话模型会生成适合场景混响的语音。跨平台零门槛使用Hugging Face、OpenClaw Skill、Web Demo全平台开放无需本地部署直接生成长音频。再来听听下面这个「黑色电影侦探在雨中的独白」合成效果如何能实现真实沉浸感的声音效果背后靠的则是Midasheng tokenizer技术在支持。具体来说基于Midasheng tokenizer模型用Flow Matching作为主体框架来接收文本指令驱动背后的全能编码器直接合成包含语音、音乐、音效的复杂混合音频。结构化多视角标注传统方法依赖单一文本提示而Midasheng-audio-generate将音频场景解耦为五个独立标注字段整体描述、说话人风格、音效、音乐、语音转写实现了对语音、音乐、音效的细粒度分层控制。统一的非VAE生成摒弃了主流方法中会损失语义信息的VAE声学分词器采用统一的语义-声学表示Midasheng tokenizer进行建模突破了生成质量的天花板。智能体兼容的架构其结构化标注格式天然兼容大型语言模型与智能体工作流能够自动从高层场景描述中填充各标注字段使得从单一描述生成复杂、连贯的音频场景成为可能。OMT在一些官方展示和实测的效果case进行分析中还可以看到两个模型所提出的新语音范式也确实极大改变了语音合成的应用场景与使用思路。最直观的例子就是在脱口秀场景中深夜开放麦风格的演出里起哄声与包袱抖出后观众的共鸣笑声能自然呼应。再比如在武侠广播剧场景中江湖夜雨、刀光剑影的氛围配合人物对白与环境音效营造出沉浸式的武侠世界。在原始输入中不用像传统TTS一样标注明确的观众笑点、起哄声或者鼓掌声模型均可以根据上下文语意自然推断形成呼应说明模型「场景语义」有深刻的建模理解。模型通过语速、音量、混响的协同变化可直接塑造角色压迫感与空间紧张感省去传统配音中单独配乐的环节。同时语气词、拖音、断句节奏也不再是合成瑕疵而是传递人物气质的重要介质借由声音侧写呈现与内容高度契合的人物人格。而所有场景共享同一个自然语言instruction接口一句话描述你想要的效果无需切换模型或pipeline就能实现。当模型能够基于语义自动生成情绪、环境与互动反馈声音合成也就逐渐成为内容生产的一部分甚至是内容本身。可能未来的语音生成不再需要复杂的多轨配音流程了也不再依赖精细的人工标注而是通过自然语言直接驱动完整的声音场景生成。参考链接【Xiaomi Any2Speech相关链接】[1]项目地址https://Any2Speech.github.io/[2]Openclaw技能https://clawhub.ai/whiteshirt0429/xiaomi-Xiaomi Any2Speech-beyondtts【Midasheng-audio-generate相关链接】[1]Demohttps://nieeim.github.io/Dasheng-AudioGen-Web/[2]Openclaw技能https://clawhub.ai/jimbozhang/midasheng-audio-generate

更多文章