极智AI | 变形金刚大家族 Transformer ViT CLIP BLIP BERT 模型结构-六虎

欢迎重视我的大众号 [极智视界]，获取我的更多笔记共享

大家好，我是极智视界，本文收拾介绍一下变形金刚大家族 Transformer ViT CLIP BLIP BERT 模型结构。

这几个模型都跟 变形金刚 相关，Transformer 是最开端的，然后像 ViT、CLIP、BLIP、BERT 都会用到 Transformer Encoder 模块，其间 ViT、CLIP、BLIP 是多模态模型，BERT 是 NLP 大模型。

Transformer

Paper：《Attention Is All You Need》

Paper：《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》

Paper：《Learning Transferable Visual Models From Natural Language Supervision 》

encoder-encoder ==> Image Encoder (Vit / Resnet)，Text Encoder (transofer encoder)；
Contrastive pre-training ==> 对比学习，自监督；
zero-shot == > 迁移学习；

Paper：《BLIP: Bootstrapping Language-Image Pre-training for Unifified Vision-Language Understanding and Generation 》

MED ==> Image Encoder (ViT)，Text Encoder (BERT)，Image-grounded Text encoder (变种BERT)，Image-grounded Text decoder (变种BERT)；
Image Encoder (ViT) ==> 视觉图画特征提取；
Text Encoder (BERT) ==> ITC (Image-Text Contrastive Loss)，对齐图画-文本特征空间；
Image-grounded Text encoder (变种BERT) ==> 于 Bi Self-Att 和 Feed Forward 之间刺进 Cross Attention (CA) 模块，以引进视觉特征， ITM (Image-Text Matching Loss)，用来猜测图画-文本对是正匹配仍是负匹配；
Image-grounded Text decoder (变种BERT) ==> 将 Image-grounded Text Encoder 结构中的 Bi Self-Att 替换为 Causal Self-Att，LM (Language Modeling Loss) ，用来生成给定图画的文本描绘；

Paper：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

好了，以上收拾共享了 Transformer ViT CLIP BLIP BERT 的模型结构。希望我的共享能对你的学习有一点协助。

【大众号传送】

《极智AI | 变形金刚大家族 Transformer ViT CLIP BLIP BERT 模型结构》