港中文MMLab、港理工、北京大学等机构联合开源了名为PAM(Perceive Anything Model)的视觉理解模型,该模型在保留SAM2分割一切、追踪一切能力的基础上,新增了输出丰富语义信息的功能。PAM仅用3B参数,就在多个图像和视频理解基准上刷新或逼近SOTA,同时具备更优的推理效率和显存占用。
PAM支持一次交互完成「分割+识别+解释+描述」全流程,适用于图像、视频和长视频。用户通过点击或拖拽矩形框选中物体,PAM可并行输出分割mask和文本信息,包括类别、解释和描述。在视频任务中,PAM还能根据事件变化动态输出流式描述,保持高度语义一致性。
为训练这一模型,研究团队构建了包含150万个图像区域和60万个视频区域标注的大规模高质量数据集。实验结果显示,PAM-3B在PACO基准测试中超越先前最佳模型3.2%,在LVIS基准测试中也表现优异。
PAM的创新之处在于引入了Semantic Perceiver模块,高效连接SAM2分割骨架和LLM,实现视觉特征到多模态token的转换。该模型所有数据和代码均已完全开源,为AR/VR、移动端推理等轻量化应用场景提供了新的可能性。