生成同步字幕的高质量有声书,支持 EPUB、PDF 及纯文本一键转换。
• 支持多平台(Windows、Mac、Linux)安装,自动配置 Python 和 CUDA,兼容主流 GPU(NVIDIA,Linux 下部分支持 AMD)。
• 采用 Kokoro-82M 语音合成模型,音质自然,支持美式、英式、中文等多语种,具备自定义混音调节功能。
• 内置字幕生成,支持按句子、词数分割,输出多种音频格式(MP3、WAV、FLAC、OPUS、M4B含章节)。
• 支持章节标记与元数据编辑,方便分章节保存与管理,批量队列处理提升工作效率。
• 提供命令行与 GUI 双模式,Docker 容器化部署,适合内容创作者、播客、短视频配音等多场景应用。
• 丰富配置选项:语速调节、个性化声音预听、字幕格式选择、缓存管理、主题切换(含暗黑模式规划)。
• 社区活跃,开源 MIT 授权,支持贡献代码,持续迭代功能,致力于打造高效便捷的有声内容生成工具。
从文本到音频的本质是“内容表达的多模态转换”,Abogen通过精准时间戳同步字幕,解决了传统 TTS 缺乏视觉辅助的问题,极大提升了听觉与视觉的结合体验,赋能内容消费和创作的双重升级。
abogen | #生成器
• 支持多平台(Windows、Mac、Linux)安装,自动配置 Python 和 CUDA,兼容主流 GPU(NVIDIA,Linux 下部分支持 AMD)。
• 采用 Kokoro-82M 语音合成模型,音质自然,支持美式、英式、中文等多语种,具备自定义混音调节功能。
• 内置字幕生成,支持按句子、词数分割,输出多种音频格式(MP3、WAV、FLAC、OPUS、M4B含章节)。
• 支持章节标记与元数据编辑,方便分章节保存与管理,批量队列处理提升工作效率。
• 提供命令行与 GUI 双模式,Docker 容器化部署,适合内容创作者、播客、短视频配音等多场景应用。
• 丰富配置选项:语速调节、个性化声音预听、字幕格式选择、缓存管理、主题切换(含暗黑模式规划)。
• 社区活跃,开源 MIT 授权,支持贡献代码,持续迭代功能,致力于打造高效便捷的有声内容生成工具。
从文本到音频的本质是“内容表达的多模态转换”,Abogen通过精准时间戳同步字幕,解决了传统 TTS 缺乏视觉辅助的问题,极大提升了听觉与视觉的结合体验,赋能内容消费和创作的双重升级。
abogen | #生成器
ai生成研究计划和搜索查询;迭代式网络搜索,智能判断是否需要进一步研究;自动生成包含来源和封面图像的综合报告
Math-To-Manim | #生成器
ai-diagram-generator | #生成器
点关注的省份,会展现精致的省级轮廓地图,再点具体城市可以深入到市县级的地理细节。允许以SVG格式轻松下载地图,以便随时导入到PPT中进行编辑。相比网上随意搜寻的图像,这种方式不仅美观,还具有极高的便捷性和可编辑性。
AnyDoor :可以将任何对象巧妙的放入到新的图像、视频场景中
它是一种基于扩散的图像生成器,可以将目标对象(例如,人、动物、物品等)在用户指定的位置以和谐的方式传送到新的场景中。
如果你有一个视频,视频中的场景是一个空荡荡的房间,你可以将一个沙发或者一张桌子传送到这个房间中。
这个模型在训练过程中学到了如何描述和理解对象的一般特性,而不是特定对象的特性。这种能力被称为“零射击”泛化,意味着模型可以处理在训练数据中没有出现过的新对象。所以它只需要训练一次,然后就可以应用到各种不同的对象和场景组合上。
为了实现这个目标,AnyDoor 使用了一种名为“细节特征”的技术。这种特征可以保留对象的纹理细节,同时允许对象在不同的环境中进行局部变化,例如照明、方向和姿势等。这使得对象可以和新的场景自然地融合。
此外,AnyDoor 还使用了一种从视频数据集中借用知识的方法。在视频数据集中,可以观察到单个对象在时间轴上的各种形式,这有助于提高模型的泛化能力和鲁棒性。
实验结果表明,AnyDoor 的性能优于现有的方法,并且在实际应用中具有巨大的潜力,例如虚拟试穿和对象移动等。
项目地址 | paper | #生成器
它是一种基于扩散的图像生成器,可以将目标对象(例如,人、动物、物品等)在用户指定的位置以和谐的方式传送到新的场景中。
如果你有一个视频,视频中的场景是一个空荡荡的房间,你可以将一个沙发或者一张桌子传送到这个房间中。
这个模型在训练过程中学到了如何描述和理解对象的一般特性,而不是特定对象的特性。这种能力被称为“零射击”泛化,意味着模型可以处理在训练数据中没有出现过的新对象。所以它只需要训练一次,然后就可以应用到各种不同的对象和场景组合上。
为了实现这个目标,AnyDoor 使用了一种名为“细节特征”的技术。这种特征可以保留对象的纹理细节,同时允许对象在不同的环境中进行局部变化,例如照明、方向和姿势等。这使得对象可以和新的场景自然地融合。
此外,AnyDoor 还使用了一种从视频数据集中借用知识的方法。在视频数据集中,可以观察到单个对象在时间轴上的各种形式,这有助于提高模型的泛化能力和鲁棒性。
实验结果表明,AnyDoor 的性能优于现有的方法,并且在实际应用中具有巨大的潜力,例如虚拟试穿和对象移动等。
项目地址 | paper | #生成器
一个无限高质量3D数据的生成器,使用程序生成的无限逼真世界
100%的程序化生成,不需要外部资产,也不依赖AI。并且是免费开源的。生成质量非常高,可以说达到以假乱真的地步!甚至是花瓣上的皱纹都可定制
Infinigen由普林斯顿视觉和学习实验室开发,Infinigen的主要特性和功能包括:
1、程序化:Infinigen是一个程序生成器,它完全使用随机的数学规则来创建所有的形状和材料,从宏观结构到微观细节。Infinigen可以创建无限的变化。用户可以通过覆盖随机化的默认参数来完全控制资产的生成。
2、多样化:Infinigen为自然世界中的多样化对象和场景提供生成器,包括植物、动物、地形,以及火、云、雨、雪等自然现象。当前对自然的关注是由于观察到哺乳动物的视觉在自然世界中进化。然而,预计Infinigen将随着时间的推移扩展到覆盖建筑环境和人造物体。
3、真实的几何形状:Infinigen针对计算机视觉研究进行了优化,特别是3D视觉。Infinigen不使用bump/normal-maps、全透明度或其他伪造几何细节的技术。Infinigen的所有细微的几何细节都是真实的,确保了精确的3D地面真实性。
4、自动注释:Infinigen可以自动生成各种计算机视觉任务的高质量注释,包括光流、3D场景流、深度、表面法线、全景分割、遮挡边界。因为用户可以完全访问渲染过程,所以注释很容易定制。
Infinigen | Github | #生成器
100%的程序化生成,不需要外部资产,也不依赖AI。并且是免费开源的。生成质量非常高,可以说达到以假乱真的地步!甚至是花瓣上的皱纹都可定制
Infinigen由普林斯顿视觉和学习实验室开发,Infinigen的主要特性和功能包括:
1、程序化:Infinigen是一个程序生成器,它完全使用随机的数学规则来创建所有的形状和材料,从宏观结构到微观细节。Infinigen可以创建无限的变化。用户可以通过覆盖随机化的默认参数来完全控制资产的生成。
2、多样化:Infinigen为自然世界中的多样化对象和场景提供生成器,包括植物、动物、地形,以及火、云、雨、雪等自然现象。当前对自然的关注是由于观察到哺乳动物的视觉在自然世界中进化。然而,预计Infinigen将随着时间的推移扩展到覆盖建筑环境和人造物体。
3、真实的几何形状:Infinigen针对计算机视觉研究进行了优化,特别是3D视觉。Infinigen不使用bump/normal-maps、全透明度或其他伪造几何细节的技术。Infinigen的所有细微的几何细节都是真实的,确保了精确的3D地面真实性。
4、自动注释:Infinigen可以自动生成各种计算机视觉任务的高质量注释,包括光流、3D场景流、深度、表面法线、全景分割、遮挡边界。因为用户可以完全访问渲染过程,所以注释很容易定制。
Infinigen | Github | #生成器