计算机视觉新突破:多任务自回归解码器研究

A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision

Mar 2023

Lucas Beyer, Bo Wan, Gagan Madan, Filip Pavetic, Andreas Steiner, Alexander Kolesnikov, André Susano Pinto, Emanuele Bugliarello, Xiao Wang, Qihang Yu, Liang-Chieh Chen, Xiaohua Zhai

[Google Research]

https://arxiv.org/abs/2303.17376

最近,计算机视觉模型激增,它们执行许多任务,并由图像编码器(通常是ViT)和自回归解码器(通常是Transformer)组成。然而,这项工作中的大多数只是简单地介绍了一个系统及其结果,留下了许多关于设计决策和这些系统的权衡的问题没有得到解答。在这项工作中,我们的目标是提供这样的答案。我们仔细研究了用于多模式计算机视觉中多任务学习的自回归解码器,包括分类、字幕、视觉问答和光学字符识别。通过广泛的系统实验,我们研究了任务和数据混合、训练和正则化超参数、条件类型和特异性、模态组合等的影响。重要的是,我们将这些与调整良好的单任务基线进行比较,以突出多任务所产生的成本。一个关键发现是,在冻结的预训练编码器之上学习的小型解码器工作得出奇地好。我们将这种设置称为带解码器的锁定图像微调(LiT解码器)。它可以被视为教解码器通过自然语言与预先训练的视觉模型进行交互。

QR Code
微信扫一扫,欢迎咨询~

联系我们
武汉格发信息技术有限公司
湖北省武汉市经开区科技园西路6号103孵化器
电话:155-2731-8020 座机:027-59821821
邮件:tanzw@gofarlic.com
Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利
遇到许可问题?该如何解决!?
评估许可证实际采购量? 
不清楚软件许可证使用数据? 
收到软件厂商律师函!?  
想要少购买点许可证,节省费用? 
收到软件厂商侵权通告!?  
有正版license,但许可证不够用,需要新购? 
联系方式 155-2731-8020
预留信息,一起解决您的问题
* 姓名:
* 手机:

* 公司名称:

姓名不为空

手机不正确

公司不为空