Efficient Track Anything（EfficientTAM）是一款基于轻量级ViT图像编码器的高效视频和图像分割模型

Efficient Track Anything（EfficientTAM）是一款基于轻量级ViT图像编码器的高效视频和图像分割模型。通过引入高效的内存交叉注意力机制，提升了推理速度和性能，能够在iPhone 15上实现超过每秒10帧的视频分割，兼顾速度与准确性。

该项目训练于大规模图像和视频数据集（SA-1B、SA-V），表现可媲美最新的SAM 2模型，同时具有更优的效率。支持Mac MPS后端加速，适合开发者和研究者快速部署与调用。

主要特点：
- 轻量级ViT编码器，兼顾性能与速度；
- 高效内存交叉注意力，提升推理效率；
- 支持图像和视频分割任务；
- 兼容最新SAM 2代码库，持续优化更新；
- 提供完整代码和模型权重，方便本地运行和二次开发；
- 支持多平台，含Mac MPS加速。

安装步骤简单，支持conda环境配置，内置示例和Gradio在线演示，方便快速体验和测试。适合需要高效视觉分割方案的科研人员和工程师使用。