欢迎重视我的大众号 [极智视界],获取我的更多笔记共享

  大家好,我是极智视界,本文收拾介绍一下 变形金刚大家族 Transformer ViT CLIP BLIP BERT 模型结构。

  这几个模型都跟 变形金刚 相关,Transformer 是最开端的,然后像 ViT、CLIP、BLIP、BERT 都会用到 Transformer Encoder 模块,其间 ViT、CLIP、BLIP 是多模态模型,BERT 是 NLP 大模型。

Transformer

  Paper:《Attention Is All You Need》

  • encoder-decoder ==> 编码器 (6x) 一个词一个词往外蹦,解码器 (6x) 一次性看清整个语句;
  • Multi-Head Attention ==> 一次性重视大局,多通道类比卷积
  • Masked Multi-Head Attention == > 在 t 时刻,掩盖 t 时刻以后的输入;
  • Feed Forward ==> MLP;
极智AI | 变形金刚大家族 Transformer ViT CLIP BLIP BERT 模型结构

ViT

  Paper:《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》

  • Patch + Position Embedding ==> 打成块 (步长 = 核长的卷积) + 方位编码 + 类别编码;
  • Transformer Encoder ==> 图画提特征 ;
  • MLP Head ==> 分类头
  • Multi-Head Attention ==> linear 完成;
极智AI | 变形金刚大家族 Transformer ViT CLIP BLIP BERT 模型结构

CLIP

  Paper:《Learning Transferable Visual Models From Natural Language Supervision 》

  • encoder-encoder ==> Image Encoder (Vit / Resnet),Text Encoder (transofer encoder);
  • Contrastive pre-training ==> 对比学习,自监督;
  • zero-shot == > 迁移学习;
极智AI | 变形金刚大家族 Transformer ViT CLIP BLIP BERT 模型结构

BLIP

  Paper:《BLIP: Bootstrapping Language-Image Pre-training for Unifified Vision-Language Understanding and Generation 》

  • MED ==> Image Encoder (ViT),Text Encoder (BERT),Image-grounded Text encoder (变种BERT),Image-grounded Text decoder (变种BERT);
  • Image Encoder (ViT) ==> 视觉图画特征提取;
  • Text Encoder (BERT) ==> ITC (Image-Text Contrastive Loss),对齐 图画-文本 特征空间;
  • Image-grounded Text encoder (变种BERT) ==> 于 Bi Self-Att 和 Feed Forward 之间刺进 Cross Attention (CA) 模块,以引进视觉特征, ITM (Image-Text Matching Loss),用来猜测 图画-文本对 是 正匹配 仍是 负匹配;
  • Image-grounded Text decoder (变种BERT) ==> 将 Image-grounded Text Encoder 结构中的 Bi Self-Att 替换为 Causal Self-Att,LM (Language Modeling Loss) ,用来生成给定图画的文本描绘;
极智AI | 变形金刚大家族 Transformer ViT CLIP BLIP BERT 模型结构
  • Captioner ==> 字幕器,用于生成给定 web 图画的字幕;
  • Filter ==> 过滤器,用于去除噪声 图画-文本 对;
极智AI | 变形金刚大家族 Transformer ViT CLIP BLIP BERT 模型结构

BERT

  Paper:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

  • Input Embeddings ==> Token Embeddings,Segment Embeddings,Position Embeddings;
  • Masked LM ==> 完形填空,双向;GPT 单向;
  • Next Sentence Prediction (NSP) ==> 语句对;
极智AI | 变形金刚大家族 Transformer ViT CLIP BLIP BERT 模型结构
极智AI | 变形金刚大家族 Transformer ViT CLIP BLIP BERT 模型结构

  好了,以上收拾共享了 Transformer ViT CLIP BLIP BERT 的模型结构。希望我的共享能对你的学习有一点协助。


  • 我正在参与技术社区创作者签约计划招募活动,点击链接报名投稿。

 【大众号传送】

《极智AI | 变形金刚大家族 Transformer ViT CLIP BLIP BERT 模型结构》


极智AI | 变形金刚大家族 Transformer ViT CLIP BLIP BERT 模型结构