【深度学习】CLIP，为什么是768？投影为什么是1024？-世界杯彩票玩法-中国女足世界杯_水原世界杯体育场

https://zhuanlan.zhihu.com/p/486857682

为什么是768

好的，让我们一步一步地解析一下这个内容，以便更好地理解 CLIP 模型中的文本嵌入和图像嵌入的结构和尺寸。

背景

CLIP（Contrastive Language–Image Pre-training）模型由 OpenAI 提出，它能够理解并处理图像和文本，通过对它们进行对比学习（contrastive learning）来建立图像和文本之间的关联。

768 维度的来源

Transformer 模型的隐含层大小：

在 CLIP 模型中，无论是文本编码器还是图像编码器，都使用了 transformer 架构。transformer 模型的一个重要参数是隐含层的维度大小（hidden size），CLIP 模型的隐含层大小设置为 768。

这意味着，每一个 token（文本中的单词或图像中的补丁）都会被映射到一个 768 维的向量。

文本嵌入的结构（77x768）

文本的 token 化和嵌入：

文本输入首先通过 to