VoxCPM是什么?

VoxCPM 是由面壁智能(ModelBest) 联合清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)开发并开源的无分词器文本转语音(Tokenizer-Free TTS)系统。 使用了端到端扩散自回归架构(Diffusion Autoregressive),最大的优势是直接生成平滑的说话语音,而不必借助复杂繁琐的方法对音、字进行标注以便实现文本音频的同步匹配,AI语音能够更贴近人类声音,并达到与原声接近的程度,在自然度、流畅度以及音色还原上都有非常大的提高。

VoxCPM

核心功能

  • 上下文感知语音生成:能够根据上下文自动调整语气、语调和说话方式以匹配文本内容,使合成语音更富自然性。
  • 零样本语音克隆:在只有少量的参考句子发音的基础上就能成功克隆说话人的口音、音调、音高和抑扬顿挫。
  • 高效实时合成:在消费级显卡(如 RTX 4090)上可实现低至 0.17 RTF 的流式生成,支持实时应用。
  • 双语支持:主要针对中文和英文训练,在这两种语言上表现最佳。
  • 开源可用:已在 GitHub、Hugging Face 等平台开放代码与模型权重,方便研究与二次开发。

VoxCPM的技术原理

1. 端到端扩散自回归架构(Diffusion Autoregressive):直接从文本生成连续语音,而不是先经过离散的分词(tokenization)操作,进而进行量化和解量化步骤,尽可能避免量化所带来的误差,能更好地表达细节以及保持语音信号的连续性。

2. 分层语言建模 + FSQ 约束

  • 分层语言建模(Hierarchical LM):将语义模型和声学模型解耦开来,进行逐层表达
  • FSQ(Frequency-Selective Quantization):在频率域进行有限状态的量化,隐式地解耦语声模式,提高编码的表达能力和自回归稳定性

3. 局部音频编码模块(LocEnc Module):对输入文本进行编码,提取语义信息,生成适合语音生成的中间表示。

4. 文本-语义语言模型(TSLM):建模文本的语义结构,生成与内容相关的语义表示,为后续声学生成提供基础。

5. 残差声学语言模型(RALM):在语义表示的基础上细化声学特征,补充韵律、音色等细节,使语音更自然逼真。

6. 局部扩散生成模块(LocDiT Module):通过扩散过程生成连续语音特征,将语义与声学信息融合,生成高质量语音波形。

7. 因果式 VAE 编解码器:将原始音频压缩到低帧率隐空间(latent space),将生成的语音特征重构回波形,保证音质与稳定性 。

适用场景

  • 虚拟主播 / 智能客服:生成自然、富有表现力的语音输出
  • 有声读物 / 播客制作:快速批量生成高质量旁白
  • 游戏与影视配音:低成本实现多角色、多情绪配音
  • 个性化语音助手:根据用户喜好定制声音风格
  • 方言播报与特殊语音任务:支持多种方言及公式、符号朗读

VoxCPM的项目地址

Github仓库: https://github.com/OpenBMB/VoxCPM/
Hugging Face模型库: https://huggingface.co/openbmb/VoxCPM-0.5B
在线体验Demo: https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

关于VoxCPM特别声明

本站自媒体指南所展示的VoxCPM均来源于网络,本站无法保证外部链接的准确性与完整性,且不对外部链接指向的内容拥有实际控制权。收录于2026年3月2日 上午10:14的网页内容,在收录时均合规合法;若后续内容出现违规情况,可联系网站管理员进行删除处理,自媒体指南对此不承担任何法律责任。

VoxCPM 相关网站

暂无评论

暂无评论...