清华图像理解大模型CogAgent可作游戏规划

每日一看6个月前发布 玼琉璃
1,619 1

清华KEG实验室近日和智谱AI合作联合推出了新一代图像理解大模型CogAgent。该模型基于此前推出的CogVLM,通过视觉GUI Agent,使用视觉模态(而非文本)对GUI界面进行更全面直接的感知,从而作出规划和决策。CogAgent 可以接受1120×1120的高分辨率图像输入,具备视觉问答、视觉定位(Grounding)、GUI Agent等多种能力,在9个经典的图像理解榜单上(含VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE等)取得了通用能力第一的成绩。

© 版权声明

相关文章

1 条评论

  • Magali Will
    Magali Will 游客

    Its like you read my mind You appear to know so much about this like you wrote the book in it or something I think that you can do with a few pics to drive the message home a little bit but instead of that this is excellent blog A fantastic read Ill certainly be back

    未知
    回复