该项目训练于大规模图像和视频数据集(SA-1B、SA-V),表现可媲美最新的SAM 2模型,同时具有更优的效率。支持Mac MPS后端加速,适合开发者和研究者快速部署与调用。
主要特点:
- 轻量级ViT编码器,兼顾性能与速度;
- 高效内存交叉注意力,提升推理效率;
- 支持图像和视频分割任务;
- 兼容最新SAM 2代码库,持续优化更新;
- 提供完整代码和模型权重,方便本地运行和二次开发;
- 支持多平台,含Mac MPS加速。
安装步骤简单,支持conda环境配置,内置示例和Gradio在线演示,方便快速体验和测试。适合需要高效视觉分割方案的科研人员和工程师使用。