https://zhuanlan.zhihu.com/p/486857682
为什么是768
好的,让我们一步一步地解析一下这个内容,以便更好地理解 CLIP 模型中的文本嵌入和图像嵌入的结构和尺寸。
背景
CLIP(Contrastive Language–Image Pre-training)模型由 OpenAI 提出,它能够理解并处理图像和文本,通过对它们进行对比学习(contrastive learning)来建立图像和文本之间的关联。
768 维度的来源
Transformer 模型的隐含层大小:
在 CLIP 模型中,无论是文本编码器还是图像编码器,都使用了 transformer 架构。transformer 模型的一个重要参数是隐含层的维度大小(hidden size),CLIP 模型的隐含层大小设置为 768。
这意味着,每一个 token(文本中的单词或图像中的补丁)都会被映射到一个 768 维的向量。
文本嵌入的结构(77x768)
文本的 token 化和嵌入:
文本输入首先通过 to