0%

MS-BETI3

一句话来概括BEIT-3:用一个模型,用一个预训练任务,杀穿了vision-language甚至纯vision任务。

MS昨天推送这篇文章,但是今天也就是31号才粗略读了下,这块并不是我的研究领域,就当作是跟踪前沿,但是也学到了key idea:

将图像看作是文本进行处理。

论文PDF地址

我也简单做了点标注

-------------本文结束感谢您的阅读-------------
请作者喝一杯蜜雪冰城吧!