传统TTS合成往往依赖GPU或云端API,资源消耗大、延迟高,还需网络连接,使用起来门槛不低。

Agora Pocket TTS 颠覆传统,提供超轻量级文本转语音解决方案,完全适配CPU运行。

仅100M参数模型,支持音频流式生成,低至200ms首帧延迟,MacBook Air M4上CPU实时6倍速,仅用2核。支持Python API/CLI、语音克隆、多语言(英法德葡意西),无限长文本输入,甚至浏览器端运行。

主要功能:

- CPU高效运行,无需GPU,~200ms低延迟音频流式生成;
- 超轻量100M参数模型,实时6x速度,仅2核CPU;
- 语音克隆,支持自定义wav样本快速适配;
- 多语言支持:英语、法语、德语、葡萄牙语、意大利语、西班牙语;
- Python库/CLI/HTTP服务,pip/uv一键安装;
- 浏览器WebAssembly运行,无需安装即试用;
- 无限长文本处理,适合长篇朗读/ audiobook。

支持Python 3.10+,PyTorch 2.5+,跨平台Web/桌面,通过pip install pocket-tts本地运行,适合开发者、内容创作者和AI应用。
 
 
Back to Top