tokenizer(tokenizer。文本序列)
欧易okx交易所下载
欧易交易所又称欧易OKX,是世界领先的数字资产交易所,主要面向全球用户提供比特币、莱特币、以太币等数字资产的现货和衍生品交易服务,通过使用区块链技术为全球交易者提供高级金融服务。
梦辰逸阁源自奥菲斯
量子位|微信官方账号QbitAI
只有19亿参数,只有公开数据集,SOTA在12个任务上被狂刷。
微软';s多模态论文在arXiv上挂出后不久就引起了业界的强烈关注。
有网友总结为"在所有事情上打败所有人"。
什么';这是怎么回事?让';让我们先看看这张雷达图:
橙色的内圈是每次重大任务前的SOTA。
紫色的外圈就是这个BET-3的结果,不仅超越,而且全面超越。
看一个具体的圆圈,多模态模型BET-3不仅刷了所有的多模态任务,还把右上角的纯视觉三大经典任务刷到了SOTA,简直就是六角战士。
知乎最后一个参赛选手,也是做多模态研究的,大喊"杀死游戏"。
其实微软BEiT的系列是从视觉自我监控学习开始的。
其核心理念与何明凯的一致';sMAE,甚至比MAE提出的还要早一点,但是性能却被当时的MAE打败了。
现在,在多模态方向上走了一圈后,我没有';不要期望在某种程度上横扫可视化和多模态列表。
总的来说,取得这个成绩的不是一个庞大庞大的拥有数千亿参数的模型吗?
但是BET-3的总参数只有19亿。甚至训练数据上没有秘密武器,全部使用开放资源。
那么,这一切是怎么发生的?
把图像当成外语
最重要的一点是,论文的题目和摘要已经指出:
把图像当成外语。
这样,文本数据是英文,图片数据的作者开了个玩笑,命名为ImEnglish,所以图文数据相当于平行语料库。
这么多模式,不管是不是纯视觉,都可以用同一个预训练任务来处理。
在此基础上,论文把突破总结成一个词,大融合。
首先,统一表现在网络架构上。
通过统一多模态表示,一些参数可以为不同的任务共享,采用多路变压器架构作为骨干网络。
具体来说就是共享多头自关注层,然后输出时根据具体任务选择专用的FFN层。
二、统一表现在预训方法上。
由于所有的数据都可以视为文本数据,我们可以根据BERT'的方法,这就是所谓的屏蔽数据建模。与基于比较学习的训练方法相比,新方法可以选择更小的批量,减少内存消耗。
第三,统一还表现在规模效应上。
统一的预训练任务将模型参数放大到10亿量级,下游任务的泛化能力增强。
另外,不同的模态数据集在这种方法下也会产生尺度效应。
团队在只使用公开数据的情况下,故意增加训练数据集的规模,结果超过了一些使用高质量私有数据的模型。
BET-V的训练数据来自五个公开数据集约500万张图片和2100万个图文对;单峰数据使用来自ImageNet-21K和160GB文本语料库的1400万幅图像。
此外,规模远小于其他多模态预训练模型,如Align(18亿图形对)、Clip(4亿图形对)、Simvlm(18亿图形对、800GB文本)等等。所有这些优势加起来。BEiT-3用更少的训练数据和更小的模型参数获得了更好的性能。
它在总共八项任务下超越了其之前的SOTA:纯视觉任务(图像分类、对象检测和语义分割)和多模态任务(视觉推理、视觉问答、图像描述、微调跨模态检索和零样本跨模态检索)。
[XY002][XY001]BET-3这篇论文很短,除去参考文献只有9页。
但如果你熟悉微软BEiT系列的历史,你就会知道这项研究成功的意义不仅在于它本身,还在于多模态学习的一个突破
也为大规模视觉预训练领域带来了新的可能。
BEiT和MAE,视觉自我监控的路线之争
关于微软';sBEiT系列。,whichiscalledbidirectionalencoderfromimageconverter,hasmoreimagesthanthefamiliarlanguagemodelBert.
其主要思想是借鉴BERT,将mask建模方法应用于视觉任务,做视觉自我监控学习,解决高质量标注数据难以获得的问题。
第一代拜特论文发表于去年6月,早于何';s梅。它也是MAE'的论文。
第一代拜特,失去了MAE
两项研究都使用"先屏蔽再预测"来完成训练前的任务。最大的区别是BEiT对视觉令牌进行离散化,最终模型预测令牌,而MAE直接预测原始像素。
第一代BEiT的架构
MAE在三大视觉任务上比当时的BEiT略胜一筹。而且因为方法更简单更直接,MAE运行速度快了很多(3.5倍)。
为了证明在MAE中这个标记化的步骤是不必要的,他明凯';的团队还在论文中做了烧蚀试验。
的结果表明,两种方法在统计上没有显著差异,MAE对原始像素的预测是足够的。
但是,BEiT团队并没有放弃离散化token的方法,而是沿着这个思路继续探索。
VL-贝特,多模态初步研究
一年后,团队发表了多模态模型VL-贝特。可以算作这个BET-3的原型。
VL-贝特使用了共享注意力层和连接不同FFN层用于不同任务的架构。
这个想法实际上来自同一个团队的一篇早期论文VLMo。为每种模式设置专家层的方法称为MOME(混合模态专家)。
但是VL-贝特在预训练任务上还是比较复杂的,它会分别对文本数据和图像数据做遮罩建模。至于多模态图形和文本,数据也是分开处理的。
因此,无论是多模态任务还是纯视觉任务,VL-拜特都表现出色,但没有现在的拜特-3那么大。但是不要';别担心,很快就会找到突破口。
BEiTv2仅在[XY002][XY001]BET-3发布前一周,微软和国科大团队发布了一款BEiTv2。
两者的命名方式略有不同,因为BEiTv2真正代表的是BEiT的升级版。
虽然在BET-3的三篇论文中没有明确提到,但很可能不是"第三代",而是别的东西(待后揭晓)。
回到BEiTv2,本文再次聚焦于纯视觉,在原有BEiT的基础上提出了一种新的语义标记器。具体来说,BEiTv2introducedvectorquantizationandknowledgedistillationtotrainmarkers.
它也是一个离散令牌。新方法能够在知识提取中重构教师模型的语义特征,极大地提高了令牌所携带的语义信息,从而提高了模型的性能。
接下来,它';使用谁作为教师模型非常重要。
经过比较尚可';带OpenAI'sCLIP模型,团队发现CLIP更香。
在最终的结果中,BEiTv2的性能超越了MAE以及这一时期出现的其他方法,回归SOTA。
BET-3,高手
了解了整个系列BET的发展,最后看了一眼BET-3。
本文作为李东一起工作,并指出"3"在模型命名中:
。
多模态统一预训练模式分享了注意力的多通道转换器的大汇聚。以这种方式BEiT-3在多模态和视觉任务中都可以实现SOTA,这并不奇怪。像
这样的论文,自然引起了业内的高度关注。鲁汶大学的一位教授认为这意味着微软在人工智能研究方面已经赶上了Google/DeepMind、Meta和OpenAI,并且"重新坐在餐桌前"。
随着讨论的升级,对论文更严格的审查也增加了。
谷歌的一位研究人员指出,论文的结果看起来简洁,令人印象深刻,但这张雷达图的坐标值有点不精确。
知乎也有网友问,如果用CLIP做老师模型,CLIP的高质量匹配数据有什么贡献,直接改CLIP会怎么样?
作者团队
最后,让';让我们介绍一下作者团队。BET-3相关研究论文的作者都来自微软。
三位共同作者是、鲍航波(鲍航波)和(李东)。其中,鲍航波和李东都是从BEiT早期开始参与研究的。,一直贯穿于VL-拜特和拜特v2的发展,而鲍航波是拜特和VL-拜特的论文之一。另一个王文慧以前也参加过VL-贝特的研究。
通讯员为微软亚洲研究院NLP组合作研究经理付如伟。
Beit-3Paper
Referencelink:[1]Beit[2]VL-Beit[3]VLMo[4]Beitv2[5]Maye[6]7[XY002]-End-[XY002]
qubitqbitai头条号签约
关注我们,第一时间获取最新科技动态。