生成同步字幕的高质量有声书,支持 EPUB、PDF 及纯文本一键转换。

• 支持多平台(Windows、Mac、Linux)安装,自动配置 Python 和 CUDA,兼容主流 GPU(NVIDIA,Linux 下部分支持 AMD)。
• 采用 Kokoro-82M 语音合成模型,音质自然,支持美式、英式、中文等多语种,具备自定义混音调节功能。
• 内置字幕生成,支持按句子、词数分割,输出多种音频格式(MP3、WAV、FLAC、OPUS、M4B含章节)。
• 支持章节标记与元数据编辑,方便分章节保存与管理,批量队列处理提升工作效率。
• 提供命令行与 GUI 双模式,Docker 容器化部署,适合内容创作者、播客、短视频配音等多场景应用。
• 丰富配置选项:语速调节、个性化声音预听、字幕格式选择、缓存管理、主题切换(含暗黑模式规划)。
• 社区活跃,开源 MIT 授权,支持贡献代码,持续迭代功能,致力于打造高效便捷的有声内容生成工具。

从文本到音频的本质是“内容表达的多模态转换”,Abogen通过精准时间戳同步字幕,解决了传统 TTS 缺乏视觉辅助的问题,极大提升了听觉与视觉的结合体验,赋能内容消费和创作的双重升级。

abogen | #生成器
 
 
Back to Top