清华图像理解大模型CogAgent可作游戏规划

清华KEG实验室近日和智谱AI合作联合推出了新一代图像理解大模型CogAgent。该模型基于此前推出的CogVLM，通过视觉GUI Agent，使用视觉模态（而非文本）对GUI界面进行更全面直接的感知，从而作出规划和决策。CogAgent 可以接受1120×1120的高分辨率图像输入，具备视觉问答、视觉定位（Grounding）、GUI Agent等多种能力，在9个经典的图像理解榜单上（含VQAv2，STVQA, DocVQA，TextVQA，MM-VET，POPE等）取得了通用能力第一的成绩。