【深度学习】CLIP,为什么是768?投影为什么是1024?

https://zhuanlan.zhihu.com/p/486857682

为什么是768

好的,让我们一步一步地解析一下这个内容,以便更好地理解 CLIP 模型中的文本嵌入和图像嵌入的结构和尺寸。

背景

CLIP(Contrastive Language–Image Pre-training)模型由 OpenAI 提出,它能够理解并处理图像和文本,通过对它们进行对比学习(contrastive learning)来建立图像和文本之间的关联。

768 维度的来源

Transformer 模型的隐含层大小:

在 CLIP 模型中,无论是文本编码器还是图像编码器,都使用了 transformer 架构。transformer 模型的一个重要参数是隐含层的维度大小(hidden size),CLIP 模型的隐含层大小设置为 768。

这意味着,每一个 token(文本中的单词或图像中的补丁)都会被映射到一个 768 维的向量。

文本嵌入的结构(77x768)

文本的 token 化和嵌入:

文本输入首先通过 to