一个全新端到端框架,支持整首歌曲结构解析与歌词转录,精准时间戳标注,无需额外声源分离。

• 7B 参数模型,基于百万首歌曲数据集训练,支持中文和英文双语识别。
• 结构解析采用Diarization Error Rate(DER)评估,歌词转录用Word Error Rate(WER)衡量,表现优于多款主流ASR系统(WER 23.9%,DER 18.0%)。
• 集成预处理与推理脚本,一键pip安装依赖,兼容Python 3.8+及CUDA 11.8+环境,使用简便。
• 权重文件需自行下载后放置项目根目录,运行python3 run.py即可快速完成音频推断。
• 开源协议保障自由使用,适合自动化音乐分析、智能歌词生成及多语言音频标注等场景。
• 相较于传统多步骤方案,SongPrep融合全流程,显著提升效率与准确度,推动音乐信息检索技术革新。

SongPrep | #框架
 
 
Back to Top