Efficient Track Anything(EfficientTAM)是一款基于轻量级ViT图像编码器的高效视频和图像分割模型。通过引入高效的内存交叉注意力机制,提升了推理速度和性能,能够在iPhone 15上实现超过每秒10帧的视频分割,兼顾速度与准确性。

该项目训练于大规模图像和视频数据集(SA-1B、SA-V),表现可媲美最新的SAM 2模型,同时具有更优的效率。支持Mac MPS后端加速,适合开发者和研究者快速部署与调用。

主要特点:
- 轻量级ViT编码器,兼顾性能与速度;
- 高效内存交叉注意力,提升推理效率;
- 支持图像和视频分割任务;
- 兼容最新SAM 2代码库,持续优化更新;
- 提供完整代码和模型权重,方便本地运行和二次开发;
- 支持多平台,含Mac MPS加速。

安装步骤简单,支持conda环境配置,内置示例和Gradio在线演示,方便快速体验和测试。适合需要高效视觉分割方案的科研人员和工程师使用。
 
 
Back to Top