江西住房和城乡建设网站,做优化网站是什么意思,宣传片拍摄协议,缪斯国际设计董事长文章目录CLIPabstractintroCLAP: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISIONabstractmethodCLIP
open AI2021.2代码预训练模型
abstract 原有的基于有监督数据训练的计算机分类任务#xff0c;在面对新的分类目标时泛化性和可用性都会变差#xff1…
文章目录CLIPabstractintroCLAP: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISIONabstractmethodCLIP
open AI2021.2代码预训练模型
abstract 原有的基于有监督数据训练的计算机分类任务在面对新的分类目标时泛化性和可用性都会变差 本文提出使用海量网络图文匹配的数据400 millon做预训练模型。和NLP中的GPT模型效果类似1实现可以zero-shot的迁移到很多图像任务——在30多个图像数据集比如OCR视频动作识别以及细分的图像分类任务都表现良好。比如对于ResNet-50 on ImageNet的分类任务不需要训练数据达到精确度相当的结果。 CLIP, for Con- trastive Language-Image Pre-training
intro
受益于NLP大模型预训练的思路启发是否能够利用海量的网络数据预训练模型实现任务目标无关task-agnoistic的学习从而更加适用于多样的下游任务。之前的工作有做过描述图像内容的各种方法尝试但是效果差于经典的方法。分析了之前的工作是在有限的标签数据以及海量的无限制文本两种方式学习的折衷。
CLAP: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISION
abstract
Contrastive Language-Audio Pretraining (CLAP)文本和audio使用两个单独的encoder使用对比学习的训练策略定义到同一个多模态的空间表征embedding128k的text-audio pair用于训练每条audio被处理成5s的数据127h)然后在16个下游任务中进行zero-shot以及finetune的对比
method 输入audiotext1xL 经过audio-encoder将音频时间维度压缩变成XaX_aXa,N是batch sizetext encoder编码后输出XtX_tXt 分别经过线性变换变成EaE_aEa和EtE_tEt 计算相似度矩阵