传统TTS合成往往依赖GPU或云端API，资源消耗大、延迟高，还需网络连接，使用起来门槛不低

传统TTS合成往往依赖GPU或云端API，资源消耗大、延迟高，还需网络连接，使用起来门槛不低。

Agora Pocket TTS 颠覆传统，提供超轻量级文本转语音解决方案，完全适配CPU运行。

仅100M参数模型，支持音频流式生成，低至200ms首帧延迟，MacBook Air M4上CPU实时6倍速，仅用2核。支持Python API/CLI、语音克隆、多语言（英法德葡意西），无限长文本输入，甚至浏览器端运行。

主要功能：

- CPU高效运行，无需GPU，~200ms低延迟音频流式生成；
- 超轻量100M参数模型，实时6x速度，仅2核CPU；
- 语音克隆，支持自定义wav样本快速适配；
- 多语言支持：英语、法语、德语、葡萄牙语、意大利语、西班牙语；
- Python库/CLI/HTTP服务，pip/uv一键安装；
- 浏览器WebAssembly运行，无需安装即试用；
- 无限长文本处理，适合长篇朗读/ audiobook。

支持Python 3.10+，PyTorch 2.5+，跨平台Web/桌面，通过pip install pocket-tts本地运行，适合开发者、内容创作者和AI应用。