PR [Vision-Language Models for Vision Tasks : A Survey]
Vision-Language Models for Vision Tasks : A Survey
Abstract
1 Introduction
- ์ด๋ฏธ์ง ์ธ์ (Visual Recognition)์ Computer Vision ์ฐ๊ตฌ๋ถ์ผ์์ ๋ค์ํ ์ฐ์ ์์์ ์ ์ฉ์ ์ํ ๊ธฐ์ด์ด๋ค.
- ๋ฅ๋ฌ๋์ ๋ฑ์ฅ์ผ๋ก ์ด๋ฏธ์ง ์ธ์ ์ฐ๊ตฌ๋ ์์ฒญ ์ฑ๊ณผ๋ฅผ ์ด๋ฃจ์๋ค. (ํ์ง๋ง, ๋ค์๊ณผ ๊ฐ์ ๊ณผ์ ๋ฅผ ๋จ๊ฒผ๋ค.)
- ์๋ฌด๊ฒ๋ ์๋ ์ํ (from scratch)์์๋ถํฐ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ์ ๊ต์ฅํ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฐ๋ค.
- DNN์ ํ์ต์ํค๊ธฐ ์ํ ๋ฐ์ดํฐ์ ์ ํ๋ณดํ๊ธฐ๊ฐ ํ๋ค๋ค.
- Pre-Training, Fine-Tuning and Prediction ๋ฐฉ์์ ๋ฑ์ฅ
- DNN์ ๋จผ์ ์์ฒญ๋ ์์ ๋ฐ์ดํฐ๋ฅผ ํตํ์ฌ ์ฌ์ ํ์ตํ๋ฉฐ, ์ฌ์ ํ์ต (Pre-Trained)๋ ๋ชจ๋ธ์ ํน์ ๋ฌธ์ ์ ๋ง์ถฐ์ Fine-Tuned ๋๋ค.
โ ์์์ ์๊ฐํ ๋ฅ๋ฌ๋์ ๋ฑ์ฅ์ด ๋จ๊ธด ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๊ณผ์ ์ ๊ฐ์ํ! (์์ ํ ํด๊ฒฐํ ๊ฒ์ ์๋๊ณ , ์ฌ์ ํ ํน์ ๋ฌธ์ ์ (task-specific) ๋ง์ถฐ fine-tuning ํ๋ ๊ฒ๊ณผ, fine-tuning์ ํ๊ธฐ ์ํ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๋ ๊ฒ์ ๋ํ ๊ฐ์ ์ ์ ์์ง ์กด์ฌ)
- Vision-Language Model Pre-training and Zero-shot Prediction
- ํด๋น ๋ฐฉ์์ ๋ฑ์ฅ์ผ๋ก ์ธํด VLM ๋ชจ๋ธ์ (์ด๋ฏธ์ง-ํ ์คํธ) ์์ผ๋ก ์ด๋ฃจ์ด์ง ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ ์ ํตํด ์ฌ์ ํ์ต๋๋ฉฐ, fine-tuning ๊ณผ์ ์์ด๋ ๋ค์ํ task(๋ถ์ผ?)์ ์ ์ฉ์ด ๊ฐ๋ฅํ๋ค.
- VLM์ pre-training ๊ณผ์ ์ด CLIP ๋ชจ๋ธ๊ณผ ๊ฐ์ โ๋์กฐํ์ตโ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ vision-language์ ์ ์ฌ์ฑ์ ์ ํฌ์ฐฉํ๋ฉฐ, zero-shot prediction์ ํฐ ๊ธฐ์ฌ
- โ๋์กฐํ์ตโ : ์๋ก ๋ง๋ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ์ต๋ํ ๊ฐ๊น๊ฒ, ๋ง์ง ์๋ ์์ ์ต๋ํ ๋ฉ๊ฒ ์ค์
- zero-shot prediction : ํ๋ จ ๊ณผ์ ์์ ํ ๋ฒ๋ ๋ฐฐ์ด ์ ์๋ ํด๋์ค(class)๋ ๋ ์ด๋ธ(label)์ ์ํ๋ ๋ฐ์ดํฐ์ ๋ํด ์์ธกํ๋ ๊ฒ
์ ์ด ํ์ต (Transfer Learning), ์ง์ ์ฆ๋ฅ (Knowledge Distillation)๊ณผ ๊ฐ์ ๋ค์ํ ์ฐ๊ตฌ์ ๊ธฐ์ฌ
2 Background
2.1 Training Paradigms for Visual Recognition
์ด๋ฏธ์ง ์ธ์ ๊ธฐ์ ์ ๋ฐ์ 5๋จ๊ณ
- Traditional Machine Learning and Prediction
- Deep Learning from Scratch and Prediction
- Supervised Pre-training, Fine-tuning and Prediction
- Unsupervised Pre-training, Fine-tuning and Prediction
- Vision-Language Model Pre-training and Zero-shot Prediction
2.1.1 Traditional Machine Learning and Prediction
- ๋ฅ๋ฌ๋ ์ด์ ์ Visual Recognition
โ ์ฌ๋์ด โ๋ฌด์์ ๋ด์ผํ ์งโ ๋ฏธ๋ฆฌ ์ ํด์ฃผ๊ณ ํ์ต์ํค๋ ๋ฐฉ์์ผ๋ก ์ฐ๊ตฌ
2.1.2 Deep Learning from Scratch and Prediction
- ๋ฅ๋ฌ๋์ ๋ฑ์ฅ
- End - to - End ํ์ต ๊ฐ๋ฅ (์ ๋ ฅ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง๋ฉด ์ฌ๋์ ๊ฐ์ ์์ด ํ๋์ ํตํฉ๋ ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ด ์ต์ข ์ถ๋ ฅ๊น์ง ๋ชจ๋ ๊ฒ์ ์ฒ๋ฆฌ)
ํ๊ณ์ โย โ ๋๋ฆผ ์๋ ด ์๋ (ํ์ต์๋?), ๋ฐ์ดํฐ ์์ง์ ์ด๋ ค์
2.1.3 Supervised Pre-Training, Fine-tuning and Prediction
- ์ง๋ํ์ต์ ํตํด ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ Fine-Tuningํ์ฌ ๋ชฉ์ ์ ๋ง๊ฒ ๋ณํ์ํค๋ ๋ฐฉ์์ผ๋ก ๋ฐ์
โ ๋ชจ๋ธ์ ํ์ต์๋๋ฅผ ๊ฐ์ํํ๊ณ , ํ์ ๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ๋ ์ข์ ์ฑ๋ฅ์ ๊ธฐ๋ก
2.1.4 Unsupervised Pre-Training, Fine-tuning & Prediction
- ์ฌ์ ํ์ต ๋จ๊ณ์์ ๋ง์ ์์ ๋ผ๋ฒจํ๋ ๋ฐ์ดํฐ๊ฐ ํ์ํ ๊ฒ์ ๋ง๊ธฐ ์ํ์ฌ, ์ ๋ต์ด ์๋ ๋ฐ์ดํฐ๋ก๋ถํฐ ํ๋ จํ๊ณ , ํน์ง์ ๋ฝ๋ ๋น์ง๋ํ์ต ๋ฐฉ์์ด ๋ฑ์ฅ
โ ์ดํ, ๋ชฉ์ ์ ๋ง๊ฒ Fine-Tuningํ์ฌ ์ฌ์ฉํ๋ ๋ฐฉ์์ผ๋ก ๋ฐ์
2.1.5 VLM Pre-training and Zero-shot Prediction
- ์์ฐ์ด ์ฒ๋ฆฌ ๋ถ์ผ์์ ์๊ฐ์ ๋ฐ์, ์ธํฐ๋ท์์ ์ฝ๊ฒ ์์งํ ์ ์๋ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ๋ฐ์ดํฐ๋ฅผ ํตํ์ฌ vision-language์ ๋ํ ๊ณ ์ฐจ์์ ์ธ ์ง์์ ํ์ตํ๊ณ , Zero-shot predictions์ด ๊ฐ๋ฅํด์ก๋ค.
- ์ดํ VLM์ ๋ฐ์ ์ํค๊ธฐ ์ํ ์๋
- ๋ค์ํ ํ ์คํธ-์ด๋ฏธ์ง ๋ฐ์ดํฐ ํ์ฉ
- ํฌ๊ณ , ํํ๋ ฅ์ด ํ๋ถํ ๋ชจ๋ธ ๊ฐ๋ฐ
- ์๋ก์ด ์ฌ์ ํ์ต ๋ชฉํ ์ค๊ณ
2.2 Development of VLMs for Visual Recognition
์ด๋ฏธ์ง ์ธ์์ ์ํ VLM ๋ชจ๋ธ์ ๋ฐ์ ๊ณผ์
2.3 Relevant Surveys
- ์ง๊ธ๊น์ง Visual Question Answering, Natural Language for Visual Reasoning, Phrase Grounding๊ณผ ๊ฐ์ ๋ถ์ผ์ ๋ํ Survey๋ง ์กด์ฌํ์์.
๐ก ํด๋น ๋ ผ๋ฌธ์์๋..!
- ์ต๊ทผ์ VLM ์ฌ์ ํ์ต ๋ฐฉ์
- VLM์ด ํ์ตํ ์ง์์ Visual Recognition์ ์ ์ฉํ๋ 2๊ฐ์ง ์ ๊ทผ๋ฒ
- Visual Recognition์ ์ํ VLM์ ๋ฒค์น๋งํน
3 VLM Foundations
3.1 Network Architectures
- VLM ์ฌ์ ํ์ต์ โ์ด๋ฏธ์ง์ ํ ์คํธ์ ํต์ฌ ํน์ง์ ์ ๋ฝ์๋ด๋ ๋ฅ๋ฌ๋ ๋คํธ์ํฌ๋ฅผ ๋ง๋๋ ๊ณผ์ โ
- ํ ์คํธ/์ด๋ฏธ์ง ์ธ์ฝ๋ : ํ ์คํธ/์ด๋ฏธ์ง ์ํ์ ์ ๋ ฅ๋ฐ์ ํ ์คํธ/์ด๋ฏธ์ง ์๋ฒ ๋ฉ(์ซ์)์ผ๋ก ๋ณํ
3.1.1 Architectures for Learning Image Features
- ์ด๋ป๊ฒ ์ด๋ฏธ์ง ํน์ง ํ์ต?
- CNN ๊ธฐ๋ฐ์ ์ํคํ ์ณ, Transformer ๊ธฐ๋ฐ์ ์ํคํ ์ณ
CNN-based Architectures
- VGG, ResNet, EfficientNet๊ณผ ๊ฐ์ ํฉ์ฑ๊ณฑ ๋คํธ์ํฌ (์ด๋ฏธ์ง ํน์ง๋ค์ ํ์ตํ๊ธฐ ์ํด ์ค๊ณ)
- ResNet : ํฉ์ฑ๊ณฑ ๋ธ๋ก๋ค ์ฌ์ด์ skip connections ๋ฅผ ํตํ์ฌ ๊ธฐ์ธ๊ธฐ ์์ค/ํญ๋ฐ ๋ฌธ์ ๋ฅผ ์ํํ๊ณ , ๋์ฑ ๋ ๊น์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- skip connections : ์ด์ ๊ณ์ธต์์ ๋์จ ์ ๋ณด๋ฅผ ๋ฐ๋ก ๋ค์ ๊ณ์ธต์ด ์๋๋ผ, ๋ช ๊ฐ์ ๊ณ์ธต์ ๊ฑด๋๋ฐ๊ณ ์ ๋ฌ
- ResNet : ํฉ์ฑ๊ณฑ ๋ธ๋ก๋ค ์ฌ์ด์ skip connections ๋ฅผ ํตํ์ฌ ๊ธฐ์ธ๊ธฐ ์์ค/ํญ๋ฐ ๋ฌธ์ ๋ฅผ ์ํํ๊ณ , ๋์ฑ ๋ ๊น์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
vision-language ๋ชจ๋ธ๋ง๊ณผ ํน์ง๋ค์ ๋ ์ ์ถ์ถํ๊ธฐ ์ํด์ ๋ค์ํ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ก๋ค.
- ์์) ResNet-D
- antialiased rect-2 blur pooling ์ฌ์ฉ
- antialiased rect-2 blur pooling? โ ๋ค์ด์ํ๋ง ๊ณผ์ ์์ ๋ฐ์ํ๋ ๊ณ๋จ ํ์์ ๋ฐฉ์งํ๋ ๊ธฐ์
- global average pooling(์ ์ญ ํ๊ท ํํฐ) โ attention pooling(์ดํ
์
ํ๋ง) (transformer multi-head attention) ๋์น
- ์ด๋ฏธ์ง์ ์ต์ข ํน์ง ๋งต์์ ์ค์ํ ๋ถ๋ถ์ ๋ ๋์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌ
- antialiased rect-2 blur pooling ์ฌ์ฉ
Transformer-based Architectures
๋ํ์ ์ธ Transformer ์ํคํ ์ณ๋ฅผ ๊ฐ์ง ์ด๋ฏธ์ง ํ์ต ๋ชจ๋ธ์ธ ViT
- multi-head self-attention layer์ feed-forward network๋ก ๊ตฌ์ฑ๋ Transfomer ๋ธ๋ก๋ค์ ์ธต์ธต์ด ์๋๋ค.
- multi-head self-attention layer : ์ด๋ฏธ์ง ์ ๋ณด๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์
- feed-forward network : multi-head self-attention layer์์ ์ป์ ์๋ก์ด ์ ๋ณด๋ค์ ๊ฐ๋ณ์ ์ผ๋ก ์ฒ๋ฆฌ/๋ณํ
- ์ด๋ฏธ์ง ๋ถํ (Split into patches)
- ๋ฒกํฐํ, ์์น ์ ๋ณด ์ถ๊ฐ (Linear Projection & Position Embedding)
๐ก ViT ์์ ๋ด์ฉ : ์ค๋น๋ ์ด๋ฏธ์ง ๋ฒกํฐ๋ค์ Transformer ์ธ์ฝ๋ ์ฒ๋ฆฌ ์ ์ ์ ๊ทํ ๊ณ์ธต ์ถ๊ฐ (์ด ๋ถ๋ถ์!)
- Transformer ์ธ์ฝ๋ ์ฒ๋ฆฌ
3.1.2 Architectures for Learning Language Features
- ์ด๋ป๊ฒ ํ ์คํธ ํน์ง๋ค์ ํ์ต?
- Transformer ์ํคํ ์ณ๊ฐ ์ด๋ฅผ ๋ด๋นํ๋ฉฐ, CLIP๊ณผ ๊ฐ์ ๋ชจ๋ธ๋ค ๋ํ ํ์ค์ ์ธ Transformer ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค.
3.2 VLM Pre-training Objectives
- VLM์ ํต์ฌ์ผ๋ก์จ, VLM ์ฌ์ ํ์ต ๋ชฉํ๋ ํ๋ถํ vision-language ์ฌ์ด์ ์๊ด๊ด๊ณ๋ฅผ ์ํด ์ค์ ๋์์
- ํฌ๊ฒ Contrastive Objectives, generative objectives, alignment objectives๋ก ๋๋๋ค.
3.2.1 Contrastive Objectives (๋์กฐํ์ต ๋ชฉํ)
Image Contrastive Learning
- ์๋ก ๋ค๋ฅธ ์ด๋ฏธ์ง ํน์ง๋ค์ ํ์ตํ๋ ๊ฒ์ด ๋ชฉํ
์๋ฒ ๋ฉ ๊ณต๊ฐ์์ positive keys(๊ฐ์ ์ด๋ฏธ์ง)์๋ ๊ฐ๊น์ด, ๊ทธ๋ฆฌ๊ณ negative keys(๋ค๋ฅธ ์ด๋ฏธ์ง)์๋ ๋ฉ๋ฆฌ
- ฯ : ํ์ต์ ๊ฐ๋๋ฅผ ์กฐ์ ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ
Image-Text Contrastive Learning
- ์ด๋ฏธ์ง ํ ์คํธ VLM ๋์กฐ ํ์ต ๋ฐฉ์
- ์ด๋ฏธ์ง โ ํ ์คํธ ์๋ฐฉํฅ์ผ๋ก ํ์ต์ด ์ด๋ฃจ์ด์ง๋ฉฐ, image-text infoNCE ์์ค์ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ์งํ๋๋ค.
infoNCE โ ๋ง์ ๋ ธ์ด์ฆ๋ค๊ณผ์ ๋์กฐ๋ฅผ ํตํด ์ ๋ณด๋์ ์ต๋ํํ๋ ์์คํจ์ (์ค๋ต๋ค ์ฌ์ด์์ ํ๋์ ์ ๋ต์ ๊ตฌ๋ณํ๊ฒ ํ์ฌ ์ค๋ต๋ค๊ณผ ์ต๋ํ ๋ง์ด ๋น๊ตํ์ฌ ๋ง์ ์ ๋ณด๋์ ํ๋)
Image-Text-Label Contrastive Learning
- ์ด๋ฏธ์ง-ํ ์คํธ ๋ผ๋ฒจ ๋์กฐ ํ์ต์ ์์ ์ด๋ฏธ์ง ํ ์คํธ ๋์กฐ ํ์ต์ โ์ง๋โ ๊ฐ๋ ์ ๋ํ์ฌ ๊ฐํํ์๋ค.
- ์๋ ์ง (Image-Text)๋ง์ ์ ๋ต์ผ๋ก ์ทจ๊ธํ๋ ๋ฐฉ์์์, ๊ฐ์ ํด๋์ค (๋ผ๋ฒจ)์ ์ํ๋ ๋ชจ๋ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ์ ๋ต์ผ๋ก ๊ฐ์ฃผํ๋๋ก ๊ท์น ํ์ฅ!
3.2.2 Generative Objectives
- ์์ฑ ํ์ต ๋ชฉํ (Generative Objectives)๋ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง/ํ ์คํธ๋ฅผ ์์ฑํ๋ ๊ณผ์ ์์ ์๋ฏธ์ ํน์ง์ ํ์ต
Masked Image Modelling
- Cross-Patch ๋ฐฉ์์ผ๋ก ์ด๋ฏธ์ง-ํ ์คํธ์ ์ ์ฌ๋๋ฅผ ํ์ต
Masked Language Modelling
์ ๋ ฅ ํ ์คํธ ํ ํฐ๋ค ์ค ์ผ์ ํผ์ผํธ๋ฅผ ๋ง์คํนํ๊ณ , ๋ง์คํน๋์ง ์์ ํ ํฐ๋ค์ ํ ๋๋ก ๋ค์ ์ฑ์๋๊ฐ๋ค.
Masked Cross-Model Modelling
- ์์์ ์ค๋ช 2๊ฐ์ง ๋ฐฉ์์ ํตํฉ
์ด๋ฏธ์ง-ํ ์คํธ ์ ๋ฐ์ดํฐ์์ ์ด๋ฏธ์ง, ํ ์คํธ๋ฅผ ๊ฐ๊ฐ ๋ฌด์์๋ก ๋ง์คํนํ๊ณ , ๋ง์คํน๋์ง ์์ ๋ถ๋ถ๋ค์ ํ ๋๋ก ๋ค์ ์ฑ์๋๊ฐ๋ค.
Image-to-Text Generation
- ์ด๋ฏธ์ง์ ์ด์ ๋ฌธ๋งฅ์ ํตํ์ฌ ๋งค ์๊ฐ ๋ค์ ์ ๋ต ๋จ์ด๋ฅผ ๊ฐ์ฅ ๋์ ํ๋ฅ ๋ก ์์ธกํ๋๋ก ํ๋ จ์ํจ๋ค.
3.2.3 Alignment Objectives
- ์ ๋ ฌ ๋ชฉํ (Alignment Objectives)๋ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ๋์ด์ global ๋งค์นญ ํน์ region-word ๋งค์นญ์ ํตํด ์ด๋ฏธ์ง-ํ ์คํธ๋ฅผ ์ ๋ ฌํ๋ค. (โ์ ๋ ฌํ๋คโ โ [์ด๋ฏธ์ง,ํ ์คํธ]๊ฐ ๋์ผํ ์๋ฏธ๋ฅผ ๊ณต์ ํ๋๋ก ๋ง๋ฆ)
Image-Text Matching (์ ์ญ์ ๋งค์นญ)
- global ์๊ด๊ด๊ณ๋ฅผ ์๋์ ๊ฐ์ด ์ค์
- score ํจ์ S๋ฅผ ํตํ์ฌ ์ด๋ฏธ์ง์ ํ ์คํธ ์ฌ์ด์ ์ ๋ ฌํ๋ฅ (์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ์๋ก ์ง์ด ๋ง์ ๊ฐ๋ฅ์ฑ)์ ์ด์ง ๋ถ๋ฅ ์์ค๋ก ์ธก์ ํ๋ค. (์๋ ์์์ p๊ฐ 1์ด๋ฉด ์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ์๋ก ์ง์ ์ด๋ฃจ๊ณ , 0์ด๋ฉด ์ด๋ฃจ์ง ์์)
Region-Word Matching (์ง์ญ์ ๋งค์นญ)
- local cross-modal ์ฐ๊ด์ฑ(์ด๋ฏธ์ง์ ์ผ๋ถ๋ถ๊ณผ ํ
์คํธ)๋ฅผ ์ธก์ (ํน์ ๋จ์ด/๊ตฌ๋ฌธ ์ ํตํ์ฌ ํน์ ์์ญ/๊ฐ์ฒด์ ์ฐ๊ฒฐ)
- ๊ฐ์ฒด ํ์ง์ ๊ฐ์ ๋ถ์ผ์์ ํ์ฉ
3.3 VLM Pre-Training Frameworks
- two-tower ํ๋ ์์ํฌ๊ฐ VLM ์ฌ์ ํ์ต์ ๊ฐ์ฅ ๋ง์ด ํ์ฉ๋๋ค.
- ์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ๊ฐ๊ฐ์ ์ธ์ฝ๋์์ ๊ฐ๋ณ์ ์ผ๋ก ์ธ์ฝ๋ฉ๋จ
- two-leg ํ๋ ์์ํฌ (์ด๊ฒ๋ ์ธ์ฝ๋๊ฐ ๊ฐ๊ฐ ๋๋์ด์๊ธดํจ)
- multi-modal fusion ๊ณ์ธต์ ์ถ๊ฐํ์ฌ ํน์ง๋ค ๊ฐ์ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- one-tower ํ๋ ์์ํฌ
- ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ํ๋์ ์ธ์ฝ๋์์ ํตํฉํ์ฌ ์ฒ๋ฆฌํ๋ค.
3.4 Evaluation Setups and Downstream Tasks
- VLM ๋ชจ๋ธ๋ค์ ํ๊ฐํ ๋ ๊ฐ์ฅ ํํ ์ฌ์ฉ๋๋ ๋ฐฉ์ ์๊ฐ
3.4.1 Zero-shot Prediction
- zero-shot ์์ธก์ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ํ์ธํ๋ํ์ง ์๊ณ ๋, ๋ค์ํ downstream ์์ ๋ค(์๋์ ๋์ค๋)์ ์ ์ฉ์ด ๊ฐ๋ฅํ์ง์ ๋ํด ํ๊ฐํ๋ ๊ฐ์ฅ ํํ ๋ฐฉ์์ด๋ค.
Image Classification
Semantic Segmentation
Object Detection
Image-text Retrieval (์ด๋ฏธ์ง ํ ์คํธ ๊ฒ์)
- ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ง๊ณ ๊ด๋ จ๋ ํ ์คํธ๋ฅผ ์ฐพ์ / ํ ์คํธ๋ฅผ ๊ฐ์ง๊ณ ๊ด๋ จ๋ ์ด๋ฏธ์ง๋ฅผ ์ฐพ์
3.4.2 Linear Probing (์ ํ ์กฐ์ฌ)
- ์ฌ์ ํ์ต๋ VLM ๋ชจ๋ธ์ ์ผ๋ ค์(์ ๋ ์์ ํ์ง ์์ ์ฑ๋ก) VLM ์์ฒด๊ฐ ์ผ๋ง๋ ํน์ง๋ค์ ์ ์ถ์ถํ๋์ง ํ๊ฐํ๋ ๋ฐฉ์
- ์ด๋ฏธ์ง ๋ถ๋ฅ๋, ํ๋์ธ์ ๋ถ๋ถ์ ์ฃผ๋ก ํ์ฉ๋๋ค.
4 Datasets
4.1 Datasets for Pre-Training VLMs
- crowd-labelled ๋ฐ์ดํฐ์ ๋ณด๋ค image-text ๋ฐ์ดํฐ ์ ์ด ๋ ํ๋ณดํ๊ธฐ ์ฝ๊ณ , ๊ฐ๊ฒฉ๋ ์ ๋ ด
- image-text ๋ฐ์ดํฐ์ ๋ง๊ณ ๋, ๋ชจ๋ธ์ด ์ด๋ฏธ์ง์ ์ง์ญ์ ์ธ ํน์ง๋ค์ ์ ์ดํดํ๊ธฐ ์ํด axuxiliary(๋ถ๊ฐ์) ๋ฐ์ดํฐ์ ์ ํ์ฉํ๊ธฐ ์ํ ์ฐ๊ตฌ๋ค๋ ์งํ๋์๋ค.
5 Vision-Language Model Pre-Training
- VLM Pre-Training์ 3๊ฐ์ง์ ํ์ต ๋ชฉํ๋ฅผ ๊ฐ์ง๊ณ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ก๋ค.
- Contrastive Objectives, Generative Objectives, Alignment Objectives
5.1 VLM Pre-Training with Contrastive Objectives
- ์๋ก ๋ค๋ฅธ ์ด๋ฏธ์ง ํ ์คํธ ํน์ง๋ค์ ํ์ตํ๊ธฐ ์ํด Contrastive Objectives๋ฅผ ์ค๊ณ
5.1.1 Image Contrastive Learning
- ์ด๋ฏธ์ง ์์์์ ์ฐจ๋ณ์ ์ธ ํน์ง๋ค์ ํ์ตํ๋ ๊ฒ์ด ๋ชฉํ
- ์ด ๋ฐฉ์์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ์ต๋ํ ํ์ฉํ๊ธฐ ์ํด ์ฃผ ๋ชฉํ ์ธ์ ๋ถ๊ฐ์ ์ธ ๋ชฉํ๋ก์จ ์์ฃผ ํ์ฉ
5.1.2 Image-Text Contrastive Learning
- Image-Text ๋์กฐ๋ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฐ๊น๊ฒํ๊ณ , ์๋ก ๋ค๋ฅธ ์ด๋ฏธ์ง-ํ ์คํธ์ ๊ฑฐ๋ฆฌ๋ ๋ฉ๊ฒ ์ค์ ํจ์ผ๋ก์จ vision-language์ ์๊ด์ฑ์ ํ์ต
- ์์) CLIP
- ์ด๋ฏธ์ง์ ํ ์คํธ์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ค์ ๋ด์ (dot-product)์ ํตํด ์ ์ฌ์ฑ์ ์ธก์
- ๋์นญ์ ์ธ ์ด๋ฏธ์ง-ํ
์คํธ infoNCE ์์ค ํ์ฉ
- ๋์นญ์ ์ธ ์ด๋ฏธ์ง-ํ ์คํธ infoNCE? โ (์ด๋ฏธ์งโํ ์คํธ ๋ฐฉํฅ์ ์ ์, ํ ์คํธโ์ด๋ฏธ์ง ๋ฐฉํฅ์ ์ ์)
CLIP์ ์ํฅ์ผ๋ก, ALIGN ๋ชจ๋ธ์ 18์ต๊ฐ์ ์์ฒญ๋ ์์ ์ด๋ฏธ์ง-ํ ์คํธ ์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ์ฌ์ ํ์ต์ ๊ท๋ชจ๋ฅผ ๋๋ฆผ
โ ํด๋น ๋ฐ์ดํฐ ์์๋ ์ง์ด ์ ๋ง์ง ์๋ Noisy Data๊ฐ ๋ง์ด ์์ (์ฌ์ ํ์ต์ ์์ด์ ๋ฐ์ดํฐ์ ์์ผ๋ก ์น๋ถ)
โ ๋ ธ์ด์ฆ์ ๊ฐํ ๋์กฐ ํ์ต ๋ฐฉ๋ฒ ์ฌ์ฉ
- ALIGN ์ฒ๋ผ ์์ผ๋ก ์ฌ์ ํ์ต์ ์ํค๋ ๋ฐฉ์๊ณผ, ๋ฐ์ดํฐ์ ์์ ์ ์ง๋ง, ์ต๋ํ์ ์ ๋ณด๋ฅผ ๋ฝ์๋ด๋ ๋ฐฉ์์ผ๋ก ์ฌ์ ํ์ต์ ์ํค๋ 2๊ฐ์ง ์ฐ๊ตฌ ๋ํฅ์ด ๋ํ๋จ
- ์์ด ๋ง์ง ์์ ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๋ค
- DeCLIP : ์ต๊ทผ์ ์ด์ supervision ์ ์
- ์ ํ๋ ๋ฐ์ดํฐ ์, ๋น์ทํ ์ง(์ด๋ฏธ์ง-ํ ์คํธ)์์ ํจ์จ์ ์ธ ์ฌ์ ํ์ต์ด ๊ฐ๋ฅํ๋๋ก ํจ
- OTTER : ๊ฐ์์ (์ด๋ฏธ์ง-ํ
์คํธ)์ง์ ๋ง๋ฆ
- ์ฌ์ ํ์ต์ ํ์ํ ๋ฐ์ดํฐ์ ์์ ์ค์
- ZeroVL : ์ ํ๋ ๋ฐ์ดํฐ ์์์ ๋ฐ์ดํฐ๋ฅผ ์ต๋ํ ํ์ฉ
- ํธํฅ๋์ง ์์ ๋ฐ์ดํฐ ์ํ๋ง, ๋ฐ์ดํฐ ์ฆ๊ฐ์ ํ์ฉ
- DeCLIP : ์ต๊ทผ์ ์ด์ supervision ์ ์
- ๋์กฐ ํ์ต์ ํ์ฉํ ๋์ ์ฌ๋ฌ ๋จ๊ณ๋ก ๋๋์ด ํ์ฉํ๋ ๋ฐฉ์๋ค (Performing image-text contrastive Learning across various semantic levels)
- FILIP : ๋จ์ด์ ์ด๋ฏธ์ง์ ๊ฐ ๋ถ๋ถ๋ค์ ํ๋ํ๋ ๋น๊ตํ๋ โ์ง์ญ์ โ ๋ฐฉ์ ์ฌ์ฉ
- PyramidCLIP : ์ฌ๋ฌ ๊ฐ์ ๋จ๊ณ(์ด๋ฏธ์ง์ ์ ์ฒด์ ์ธ ๋ถ๋ถ โ ์ธ๋ถ์ ์ธ ๋ถ๋ถ๋ฅผ ์ถ์ถํ๋ ๋จ๊ณ)๋ก ๋๋์ด ๋์กฐํ์ต์ ํ์ฉํ๋ฉฐ, ๋จ๊ณ๋ค ์ฌ์ด์ Cross-level(์์ง์ ์ ๋ณด ๊ตํ) ๋ฟ๋ง ์๋๋ผ, ๋์ผํ ๋จ๊ณ ๋ด์์ Peer-level(์ํ์ ์ ๋ณด๊ตํ) ๋ฐฉ์์ ๋ชจ๋ ์ฌ์ฉํ์ฌ ํ์ต
- ์ต๊ทผ์ VLM ๋ชจ๋ธ๋ค์ ์ด๋ฏธ์ง-ํ
์คํธ ์์ผ๋ก ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ์ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ ์ฉํ์ฌ ํ์ตํ๋ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ง๊ณ ์์
- LA-CLIP, ALIP ๋ชจ๋ธ : ์ฃผ์ด์ง ์ด๋ฏธ์ง์ ๋ํด LLM์ ์ฌ์ฉํ์ฌ ๋ ์์ธํ๊ณ ํ๋ถํ ์ค๋ช ๊ธ(ํ ์คํธ)๋ฅผ ์์ฑํ์ฌ ๋ฐ์ดํฐ์ ์ง์ ํฅ์
- RA-CLIP : ์ด๋ฏธ์ง-ํ ์คํธ ์์ ํ์ตํ ๋, ๋ฐ์ดํฐ ๋ฒ ์ด์ค์ ์๋ฏธ์ ์ผ๋ก ๊ด๋ จ๋ ๋ค๋ฅธ ์ด๋ฏธ์ง-ํ ์คํธ ์๋ค์ ๋ถ๋ฌ์์ ํ์ต์ ํจ๊ป ํ์ฉ
5.1.3 Image-Text-Label Contrastive Learning
- ํด๋น ์ฌ์ ํ์ต ๋ฐฉ์์ ์ด๋ฏธ์ง-ํ ์คํธ ๋์กฐ ํ์ต ๋ฐฉ์์ ์ด๋ฏธ์ง ๋ถ๋ฅ๋ฅผ ์ํ ๋ผ๋ฒจ์ ํ์ฉํ๋ ๋ฐฉ์
- ์ด๋ฏธ์ง ๋ผ๋ฒจ์ ํ์ฉํ๋ ์ง๋ํ์ต๊ณผ ์ด๋ฏธ์ง-ํ ์คํธ ์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ VLM ๋น์ง๋ ํ์ต ๋ฐฉ์์ ๋ชจ๋ ํ์ฉ
5.1.4 Discussion
- ๋์กฐ ํ์ต (Contrastive Learning)
- ์๋ก ๋ง๋ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ์๋ก ๊ฐ์ ์๋ฒ ๋ฉ ๋ถ์ฌ, ๋ค๋ฅธ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ์๋ก ๋ค๋ฅธ ์๋ฒ ๋ฉ ๋ถ์ฌ
- ์ด๋ฏธ์ง๋ฅผ ๊ตฌ๋ณํ๋ ํน์ง, ๊ทธ์ ๋ง๋ ํ
์คํธ์ ๋ํ ํน์ง๋ค์ VLM์๊ฒ ์ ๊ณต
- Zero-Shot ์์ธก์ ํฐ ๊ธฐ์ฌ
- ๋์กฐํ์ต ๋ฐฉ์์ ํ๊ณ์
- Positive, Negative ์ด๋ฏธ์ง ํ ์คํธ ์์ ์ ํํ๊ฒ ๊ฐ๊น์ดํ๊ณ , ๋ฉ๋ฆฌํ๋ ๊ฒ(์ต์ ํ)์ด ๋ณต์ก
- ํน์ง์ ํ๋ณ๋ ฅ์ ์กฐ์ ํ๋ temperature(์จ๋) ํ์ดํผํ๋ผ๋ฏธํฐ์ ํฌ๊ฒ ์์กด
- ์ด temperature(์จ๋) ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ ํ๋ ๋ฐฉ์์ด ๊ฒฝํ์ ์์กดํ๋ ๋น๊ณผํ์ ๋ฐฉ์์
5.2 VLM Pre-training with Generative Objectives
- ์์ฑ์ VLM (์ด๋ฏธ์ง์ ํ
์คํธ ์
๋ ฅ์ ๋ฐํ์ผ๋ก ์๋ก์ด ์ฝํ
์ธ ๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ) ์ ์ฌ์ ํ์ตํ๋ ๋ฐฉ์
- ์ด๋ฏธ์ง ๋ง์คํน ๋ฐฉ์, ํ ์คํธ ๋ง์คํน ๋ฐฉ์, ์ด 2๊ฐ์ง๋ฅผ ๋ชจ๋ ํ์ฉํ๋ cross-modal modelling
5.2.1 Masked Image Modelling
- ์๊ธฐ์ง๋ ํ์ต ๋ฐฉ์์ผ๋ก์จ, ์ด๋ฏธ์ง์ ์ผ๋ถ๋ถ์ ๋ง์คํน ์ฒ๋ฆฌํ ํ, ์ธ์ฝ๋๊ฐ ํด๋น ๋ถ๋ถ์ ์์ธกํ๊ณ ๋ณต์ํ๋๋ก ํ๋ จ์ํด (๋ง์คํน ์๋ ๋ถ๋ถ์ ๊ธฐ๋ฐ์ผ๋ก!)
- FLAVA : BeiT ๋ชจ๋ธ์์์ฒ๋ผ, ์ง์ฌ๊ฐํ ๋ชจํ์ ๋ธ๋ก์ผ๋ก ๋ง์คํนํ๋ ๋ฐฉ์์ ์ฑํ
- KELIP, SegCLIP : ์ด๋ฏธ์ง ํจ์น์ 75%์ ๋ง์คํนํ์ฌ ๋ชจ๋ธ์ ํ์ต์ํด
5.2.2 Masked Language Modelling
- ์ด๋ฏธ์ง ๋ง์คํน๊ณผ ๊ฐ์ด ๋ฌธ์ฅ์ ์ผ๋ถ ํ ํฐ์ ๋ง์คํนํ๊ณ , ๋ง์คํน๋ ํ ์คํธ ํ ํฐ์ ์์ธกํ๋๋ก ํ์ต
- FLAVA : ํ ์คํธ ํ ํฐ์ 15%๋ฅผ ๋ง์คํน, ๋๋จธ์ง ํ ์คํธ ํ ํฐ๋ค์ ๋ฐํ์ผ๋ก ๋ง์คํน๋ ํ ์คํธ ํ ํฐ์ ์์ธกํ๋๋ก ํ์ต
- FIBER : ๋ ์ข์ ์ธ์ดํน์ง (Language Feature)๋ฅผ ํ์ตํ๊ธฐ ์ํด Masked Language Modeling ๋ฐฉ์์ฑํ
5.2.3 Masked Cross-Modal Modelling
- Masked Cross-Modal ๋ฐฉ์
- ์ด๋ฏธ์ง ํจ์น์ ์ผ๋ถ๋ถ์ ๋ง์คํน, ํ ์คํธ ํ ํฐ์ ์ผ๋ถ๋ถ์ ๋ง์คํนํ์ฌ VLM์ด ๋ง์คํน๋ ์ด๋ฏธ์ง ํจ์น, ํ ์คํธ ํ ํฐ๋ค์ ๋ง์คํน๋์ง ์์ ๋ถ๋ถ๋ค์ ํ์ฉํ์ฌ ๋ณต์ํ๋๋ก ํ์ต
5.2.4 Image-to-Text Generation
- ์ฃผ์ด์ง ์ด๋ฏธ์ง์ ๋ถํฉํ๋ ํ ์คํธ๋ฅผ ์์ฑํ๋ ๊ฒ์ด ๋ชฉํ
- VLM์ ํ ํฐํ๋ ํ ์คํธ๋ฅผ ์์ธกํ๋๋ก ํ์ตํ์ฌ Vision-Language Correlation(์๊ฐ-์ธ์ด ์๊ด๊ด๊ณ)์ ์ธ๋ถ์ ์ธ ํน์ง๋ค๊น์ง ํฌ์ฐฉํ๋๋ก ํจ
- ์ฐ์ ์ ๋ ฅ๋ ์ด๋ฏธ์ง๋ฅผ ๋ชจ๋ธ์ด ์ดํดํ ์ ์๋ ์ซ์ ๋ฒกํฐ ํํ(Intermediate Embedding)์ผ๋ก ๋ฐ๊พธ๊ณ , ํด๋น ์ด๋ฏธ์ง์ ๋ง๋ ํ ์คํธ๋ก ๋์ฝ๋ฉํ์ฌ ๋ฌธ์ฅ ์์ฑ
- ํ ์คํธ ๋์ฝ๋๊ฐ ๋ฌธ์ฅ์ ์์ฑํ๋ ๋งค ์๊ฐ๋ง๋ค ์ด๋ฏธ์ง๋ก๋ถํฐ ํ์ํ ์๊ฐ์ ํํธ๋ฅผ ์ฐธ๊ณ ! ๋ผ๊ณ ์๊ฐํ์
5.2.5 Discussion
- ์์ฑ์ VLM ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ๋ ๋ฐฉ์์ ์ด๋ฏธ์ง-์ธ์ด์ ํน์ง๋ค์ ํ๋ถํ๊ฒ ํ์ตํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ VLM์ ์ฌ์ ํ์ต ๋ฐฉ์์๋ ์ถ๊ฐ์ ์ผ๋ก ์ฌ์ฉ๋๊ณคํ๋ค.
- ์ด๋ฏธ์ง/ํ ์คํธ/Cross-Modal ๋ง์คํน ๋ฐฉ์์ ์ด๋ฏธ์ง-์ธ์ด์ ์ธ๋ถ์ ์ธ ํน์ง๋ค๊น์ง ํ์ตํ๊ธฐ ๋๋ฌธ์ zero-shot ์์ธก์ ๋ ๊ฐํจ
5.3 VLM Pre-Training with Alignment Objectives
- ์ฃผ์ด์ง ํ ์คํธ๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ ์ค๋ช ํ๊ณ ์๋์ง, ์ด๋ฏธ์ง์ ๋ถํฉํ๋ ์ค๋ช ์ธ์ง ์์ธกํ๊ธฐ ์ํด ์ด๋ฏธ์ง์ ํ ์คํธ๋ค์ ์ ๋ ฌํ๋ ๊ฒ์ VLM์ ๋ชฉํ๋ก ์ผ๋๋ค.
5.3.1 Image-Text Matching
- ์ด๋ฏธ์ง-ํ
์คํธ ๋งค์นญ ๋ฐฉ์
- ์ด๋ฏธ์ง ์ ์ฒด์ ํ ์คํธ ์ ์ฒด๋ฅผ ๋ณด๊ณ (Global image-text Correlation)์ ์ด๋ฏธ์ง-ํ ์คํธ ์ฌ์ด์ ์๊ด๊ด๊ณ (์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ์์ด ๋ง๋์ง)๋ฅผ ์์ธกํ๋๋ก ํจ
- FLAVA ๋ชจ๋ธ์ ์ด๋ฏธ์ง-ํ ์คํธ ์์ผ๋ก ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ๋ค์ ์๋ก ์์ด ๋ง๊ฒ ๋งค์นญํจ (๋ถ๋ฅ, ์ด์ง๋ถ๋ฅ ์์ค์ ํตํด)
- FIBER ๋ชจ๋ธ : ์๋ก ๋ง์ง ์์ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ๊ตฌ๋ถํ๋ ๊ฐํ ๋ถ์ ์ ์ธ ํน์ง๋ค์ ํ์ตํ๋๋กํ์ฌ ์ด๋ฏธ์ง์ ํ ์คํธ๋ค์ ๋ ์ ์ ๋ ฌํ ์ ์๋๋ก ํจ
5.3.2 Region-Word Matching
- ์ด๋ฏธ์ง ์ ์ฒด๊ฐ ์๋ ์ผ๋ถ๋ถ๊ณผ, ํ
์คํธ์ ์ผ๋ถ๋ถ์ ์๋ก ๋ง๊ฒ ์ ๋ ฌํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ์ฌ ์ด๋ฏธ์ง์ ํ
์คํธ์ ์ง์ญ์ ์ธ ์์ธํ ํน์ง๋ค์ ํ์ตํ๋๋ก ํจ
- zero-shot ์์ธก์์๋ ์ข์ ์์ธก๋ ฅ, ๊ฐ์ฒด ํ์ง๋ ์์ ๋ถํ ๋ถ์ผ์์๋ ์ข์ ์์ธก๋ ฅ์ ๊ฐ์ง
- GLIP, FIBER, DetCLIP ๋ชจ๋ธ๋ค ๋ชจ๋ ๊ฐ์ฒด๋ฅผ ๋ถ๋ฅํ ๋ ํ์ฉํ๋ logits(๋ชจ๋ธ์ ์ต์ข
ํ๋ฅ ์ ๋ง๋ค๊ธฐ ์ ์ ๋ฐ์ดํฐ)์ ์ง์ญ์ ์ด๋ฏธ์ง-์ธ์ด ์ ๋ ฌ ์ ์๋ก ๋์ฒด
- ์์ญ-๋จ์ด ์ ๋ ฌ ์ ์ : ์ด๋ฏธ์ง์ ํ ์คํธ์ ์ง์ญ์ ํน์ง๋ค์ ์ ์ฌ์ฑ์ ๋ด์ ํ ์ ์
5.3.3 Discussion
- ์ด๋ฏธ์ง-ํ
์คํธ๊ฐ ์๋ก ๋ง๋๋ก ์ ๋ ฌํ๋ Alignment Objectives๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ํ
์คํธ ๋ฐ์ดํฐ๊ฐ ์๋ก ๋ง๋์ง์ ๋ํด ์์ธกํ๋๋ก ํ์ต
- ์ฅ์
- ์ด๋ฏธ์ง์ ํ ์คํธ ์ฌ์ด์ ์ธ๋ฐํ๊ณ ์ ๊ตํ ์๊ด๊ด๊ณ๋ค์ ์ ํ์ตํจ
- ๋จ์
- ์ด๋ฏธ์ง์ ํ ์คํธ ์ฌ์ด์ ๊ด๊ณ์๋ง ์ง์คํ๊ธฐ ๋๋ฌธ์, ์ด๋ฏธ์ง ๋ด๋ถ์ ๊ด๊ณ (์ด๋ฏธ์ง ๋ด์์ ๋, ์ฝ ์ฌ์ด์ ๊ด๊ณ), ํ ์คํธ ๋ด๋ถ์ ๊ด๊ณ(๋ฌธ๋ฒ์ ๊ด๊ณ)๋ฅผ ์ ํ์ตํ์ง ๋ชปํจ
- ์ฅ์
โ ๋ฐ๋ผ์ Alignment Objectives (์ ๋ ฌ ๋ชฉํ)๋ ๋จ๋ ์ผ๋ก ์ฌ์ฉ๋๊ธฐ๋ณด๋ค๋ ๋ค๋ฅธ VLM ์ฌ์ ํ์ต์ ์ถ๊ฐ๋๋ ๋ณด์กฐ ์์ค๋ก ์์ฃผ ์ฌ์ฉ๋จ
5.4 Summary and Discussion
๐ก VLM ์ฌ์ ํ์ต ๋ชจ๋ธ
โ ์ด๋ ๊ฒ 2๊ฐ์ง์ ์ฐ๊ตฌ ํ๋ฆ์ด VLM ์ฐ๊ตฌ์ ํฐ ์ถ์ ์ด๋ฃจ๊ณ ์๋ค.
6 VLM Transfer Learning
6์ฅ์์ ์๊ฐํ ๊ฒ๋ค
- ์ฌ์ ํ์ต๋ VLM์ ์ ์ดํ์ต ๋ฐฉ์์ ๋ํ ๋๊ธฐ
- ์ ์ดํ์ต์ ์ํ ๊ธฐ๋ณธ์ ์ธ ๊ตฌ์ฑ
- 3๊ฐ์ง ์ ์ด ํ์ต ์ ๊ทผ๋ฒ
6.1 Motivation of Transfer Learning
- ์ฌ์ ํ์ต๋ VLM ๋ชจ๋ธ๋ค์ด ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์
์ ์ ์ฉ๋ ๋ ๋ค์๊ณผ ๊ฐ์ 2๊ฐ์ง ์ฐจ์ด์ ์ ๋ถ๋ชํ
- ์ด๋ฏธ์ง์ ํ
์คํธ ๋ฐ์ดํฐ์ ๋ถํฌ ์ฐจ์ด
- ๋ฐ์ดํฐ๊ฐ ํน์ ์ด๋ฏธ์ง ์คํ์ผ๊ณผ ํ ์คํธ ํ์์ ๊ฐ์ง๊ณ ์์ ์ ์์
- ํ์ต ๋ชฉํ์ ์ฐจ์ด
- VLM ์ ์ฌ์ ํ์ต ๋ชฉํ๋ ํน์ ์์ ์ ์ฝ๋งค์ด์ง ์๊ณ , ๋ฒ์ฉ์ ์ธ ์ง์์ ํ์ตํ๋๋ก ์ค์ ๋์ง๋ง, ์ค์ ์์ ์ ์ด๋ฏธ์ง ๋ถ๋ฅ, ๊ฐ์ฒด ํ์ง์ฒ๋ผ ๋น๊ต์ ๊ตฌ์ฒด์ ์ด๊ธฐ ๋๋ฌธ!
- ์ด๋ฏธ์ง์ ํ
์คํธ ๋ฐ์ดํฐ์ ๋ถํฌ ์ฐจ์ด
6.2 Common Setup of Transfer Learning
- ์ ์ด ํ์ต์ ๊ธฐ๋ณธ์ ์ธ ๊ตฌ์ฑ (3๊ฐ์ง๊ฐ ์์)
- Supervised Transfer (์ง๋ ์ ์ด ํ์ต)
- ๋ผ๋ฒจ(์ ๋ต)์ด ์๋ ๋ค์ด์คํธ๋ฆผ ๋ฐ์ดํฐ ์ ์ฒด๋ฅผ ์ฌ์ฉํ์ฌ ๋ฏธ์ธ ์กฐ์
- Few-shot Supervised Transfer ( ์ ์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ง๋ ์ ์ด ํ์ต )
- ์์ฃผ ์ ์ ์์ ๋ผ๋ฒจ์ด ์๋ ๋ค์ด์คํธ๋ฆผ ์ํ๋ง์ ์ฌ์ฉํ์ฌ ๋ฏธ์ธ์กฐ์
- Unsupervised Transfer (๋น์ง๋ ์ ์ดํ์ต)
- ๋ผ๋ฒจ (์ ๋ต)์ด ์๋ ๋ค์ด์คํธ๋ฆผ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๋ฏธ์ธ ์กฐ์
- 3๊ฐ์ง ๋ฐฉ์ ์ค ๊ฐ์ฅ ์ด๋ ต์ง๋ง, ๊ฐ์ฅ ์ ๋งํ๊ณ ํจ์จ์ ์
- ์ต๊ทผ์๋ ๋น์ง๋ ์ ์ดํ์ต์ ๋ํ ์ฐ๊ตฌ๊ฐ ํ๋ฐํจ!
- Supervised Transfer (์ง๋ ์ ์ด ํ์ต)
6.3 Common Transfer Learning Methods
- ๊ธฐ์กด์ ์กด์ฌํ๋ VLM ์ ์ดํ์ต ๋ฐฉ์์ 3๊ฐ์ง์ ์นดํ ๊ณ ๋ฆฌ๋ก ๋๋
6.3.1 Tansfer via Prompt Tuning
- ์์ฐ์ด ์ฒ๋ฆฌ ๋ถ์ผ์ โprompt learningโ์์ ์๊ฐ์ ๋ฐ์ ๋ฐฉ์
- ์ ์ฒด VLM ๋ชจ๋ธ์ ๋ฏธ์ธ์กฐ์ ํ๊ธฐ ๋ณด๋ค๋, ๋ค์ด์คํธ๋ฆผ์ ๋ง๊ฒ VLM์ ์กฐ์ ํ๊ธฐ ์ํด ์ต์ ์ ํ๋กฌํํธ๋ฅผ ์ฐพ๋ ๊ฒ (์ด์ ๋ํด ์๋์ ๊ฐ์ 3๊ฐ์ง ๋ฐฉํฅ์ ์ฐ๊ตฌ๊ฐ ์กด์ฌ)
๐ก Text Prompt Tuning
- ์ฌ๋์ด ์ง์ ํ๋กฌํํธ๋ฅผ ๋ง๋๋(ํ๋กฌํํธ ์์ง๋์ด๋ง) ๋์ , ๋ผ๋ฒจ์ด ์๋ ๋ค์ด์คํธ๋ฆผ ์ํ๋ค์ ์ด์ฉํ์ฌ ์ต์ ์ ํ๋กฌํํธ๋ฅผ ํ์ตํ๋ ๋ฐฉ์
- ์ฝ๊ฒ ์ดํดํด๋ณด์๋ฉด,,
๊ฝ ์ข ๋ฅ 3๊ฐ์ง๋ฅผ ๋ถ๋ฅํ๋ ๋ค์ด์คํธ๋ฆผ ์์ ์ด๋ผ๋ฉด, ๊ฐ๊ฐ์ ๊ฝ ์ข ๋ฅ(์ฅ๋ฏธ, ํค๋ฆฝ, ๋ฑ)์ ๋ผ๋ฒจ์ด ์๋ ๋ฐ์ดํฐ ๋ช๊ฐ๋ฅผ ์ํ๋ก ํ์ฉํ์ฌ 3๊ฐ์ง ๊ฝ์ ๊ฐ์ฅ ์ ๋ถ๋ฅํ๋ ์ต์ ์ ํ๋กฌํํธ๋ฅผ ์ฐพ์ - ์ฌ๊ธฐ์ ํ๋กฌํํธ๋ ๋ชจ๋ธ์ด ์ต์ ํ๋ ์ซ์ ๋ฒกํฐ๋ค์ ์กฐํฉ์
- ์ฝ๊ฒ ์ดํดํด๋ณด์๋ฉด,,
- CoOp ๋ชจ๋ธ (ํด๋น ๊ธฐ์ ์ ์ด๊ธฐ ๋ชจ๋ธ)
- ํ์ต ๊ฐ๋ฅํ ๋จ์ด ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ํด๋์ค ์ด๋ฆ์ ์ต์ ํ๋ ๋ฌธ๋งฅ์ ํ์ตํ๋ ๋ฐฉ๋ฒ ์ ์
- ๊ณผ์ ํฉ ๋ฐฉ์ง ๋ฐฉ์
- CoOp ๋ชจ๋ธ์ ๋ชจ๋ ์ด๋ฏธ์ง์ ๋์ผํ ํ์ต๋ ํ๋กฌํํธ๋ฅผ ๋ถ์ฌ, ๊ณผ์ ํฉ ๋ฐ์ ์ํ์ด ๋์
โ ์ ๋ ฅ๋๋ ์ด๋ฏธ์ง ๊ฐ๊ฐ์ ๋ง์ถฐ ๋์ ์ผ๋ก ๋ค๋ฅธ ํ๋กฌํํธ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ ์ ์
- CoOp ๋ชจ๋ธ์ ๋ชจ๋ ์ด๋ฏธ์ง์ ๋์ผํ ํ์ต๋ ํ๋กฌํํธ๋ฅผ ๋ถ์ฌ, ๊ณผ์ ํฉ ๋ฐ์ ์ํ์ด ๋์
- ํ์ต ๊ฐ๋ฅํ ๋จ์ด ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ํด๋์ค ์ด๋ฆ์ ์ต์ ํ๋ ๋ฌธ๋งฅ์ ํ์ตํ๋ ๋ฐฉ๋ฒ ์ ์
- ๊ทธ ์ด์ธ์ ๊ฐ์ ๋ฐฉ๋ฒ๋ค
- SubPT ๋ชจ๋ธ : ํ๋กฌํํธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํ ๋ถ๋ถ ๊ณต๊ฐ ๊ฐ๋
๋์
- LASP : ํ์ต ๊ฐ๋ฅํ ํ๋กฌํํธ๊ฐ ๋๋ฌด ์๋ฑํ ๋ฐฉํฅ์ผ๋ก ํ์ต๋์ง ์๊ฒ โ๊ท์ โ ๋์
- VPT : ์ผ๋ฐํ ์ฑ๋ฅ์ ์ํ ๊ฐ ์ด๋ฏธ์ง์ ๋ง๋ โํ๋กฌํํธ ๋ถํฌโ ๋ชจ๋ธ๋ง
- KgCoOp : ํ์ต ๋ ๋ณด์ง ๋ชปํ ์๋ก์ด ํด๋์ค์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์
- SubPT ๋ชจ๋ธ : ํ๋กฌํํธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํ ๋ถ๋ถ ๊ณต๊ฐ ๊ฐ๋
๋์
๐ก
Visual Prompt Tuning
- VLM ์ ์๋ก์ด ์์
์ ์ ์ฉํ ๋, ํ
์คํธ ์
๋ ฅ์ด ์๋ ์ด๋ฏธ์ง ์ธ์ฝ๋์ ์
๋ ฅ์ ์กฐ์ ํ๋ ๋ฐฉ์
- VLM ๋ชจ๋ธ์ ์ฌ์ ํ์ต๋ ๊ฐ์ค์น๋ ์์ ํ์ง ์๊ณ , ์ด๋ฏธ์ง ์ธ์ฝ๋์ ๋ค์ด๊ฐ๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ง ์กฐ์
- VLM ๋ชจ๋ธ์ ์ ๋ ฅ์ผ๋ก ํ์ฉ๋๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ ํจ์น๋ค ์ฌ์ด์ ํ์ต ๊ฐ๋ฅํ ํจ์น(๋น์ฃผ์ผ ํ๋กฌํํธ ๋ฒกํฐ) ์ถ๊ฐ
- ํ์ต ๊ฐ๋ฅํ ํจ์น?
- ๋ฐ์ดํฐ๊ฐ ์๋! ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ผ๊ณ ์๊ฐ!
- ์ฒ์์๋ ๊ทธ๋ฅ ๋ฌด์์ ์ซ์๋ก ์์ํด์ ํ๋ จ์ ํตํ์ฌ ํด๋น ์ซ์๊ฐ ๋ชจ๋ธ์ ๋ชฉ์ ์ ๋ง๊ฒ ์กฐ๊ธ์ฉ ์กฐ์ ๋จ
โ ์ด ์ซ์๋ค์ ํ์ต์ด ๋๋๋ฉด ํ์ฌ ํน์ ๋ค์ด์คํธ๋ฆผ ์์ ์ ๊ฐ์ฅ ์ต์ ํ๋ ์ํ๊ฐ ๋จ!
๐ก Text-Visual Prompt Tuning
ํ ์คํธ ํ๋กฌํํธ ํ๋ + ๋น์ฃผ์ผ ํ๋กฌํํธ ํ๋
- ์ ๋ ฅ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋์์ ์กฐ์
- Visual Prompt Tuning์ฒ๋ผ ์ด๋ฏธ์ง ํจ์น ์ฌ์ด์ ํ์ต ๊ฐ๋ฅํ ๋น์ฃผ์ผ ํ๋กฌํํธ ๋ฒกํฐ ์ถ๊ฐ
- ๋๊ฐ์ด ์ ๋ ฅ๋ ํ ์คํธ์๋ ํ์ต ๊ฐ๋ฅํ ํ ์คํธ ํ๋กฌํํธ ๋ฒกํฐ๋ฅผ ๋ผ์ ๋ฃ์
โ ํ์ต์ด ์งํ๋๋ฉด์ ํ ์คํธ, ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ๋ผ์์ ธ์๋ ํ๋กฌํํธ ๋ฒกํฐ๊ฐ ๊ฐ๊ฐ ํน์ ๋ค์ด์คํธ๋ฆผ์ ๊ฐ์ฅ ์ต์ ํ๋ ์ํ๋ก ํ์ต์ด๋จ!
โ ์ด๋ฏธ์ง/ํ ์คํธ 2๊ฐ์ง ๋ฐฉ์์ด ํจ๊ป ํ๋ ฅํ์ฌ ์ต์ข ์์ค์ ๊ฐ์ฅ ํจ๊ณผ์ ์ผ๋ก ์ค์ผ ์ ์๋ ๋ฐฉํฅ์ผ๋ก ํจ๊ป ์กฐ์
Discussion
- ํ๋กฌํํธ ํ๋ : ํ๋ผ๋ฏธํฐ ํจ์จ์ ์! (๊ฑฐ๋ํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์์ฃผ ์์ ์ผ๋ถ ํ๋ผ๋ฏธํฐ๋ง ํ๋ จ or ์์ )
- ๊ณ์ฐ๋์ด ์ ์
- ํ์ฉํ๊ธฐ ์ฌ์ฐ๋ฉฐ, ๊ฐ๋จํจ (์ถ๊ฐ์ ์ธ ๋คํธ์ํฌ ๋ ์ด์ด/๋คํธ์ํฌ ๋ ์ด์ด์ ๋ณ๊ฒฝ ์ด ํ์ํ์ง ์์)
- ๊ณ ์ ๋ ํ๋กฌํํธ๊ฐ ์๋ก์ด ์ด๋ฏธ์ง์ ์ ๋ง์ง ์์ ์์ธก ์ฑ๋ฅ์ด ์ ํ๋๋ ์ตํต์ฑ ๋ถ์กฑ์ ํ๊ณ๋ ์์ง ์กด์ฌ
- ๊ณ ์ ๋ ํ๋กฌํํธ? : ํน์ ๋ค์ด์คํธ๋ฆผ ์์ ์ ๋ง์ถฐ ํ๋กฌํํธ๊ฐ ํ์ต๋์๊ธฐ ๋๋ฌธ์ ์๋ก์ด ๋ถ์ผ์ ์ด๋ฏธ์ง์๋ ์ฑ๋ฅ์ด ๋ฎ์
6.3.2 Transfer via Feature Adaptation
Feature Adaptation (ํน์ง ์ ์?)์ VLM์ด ์ด๋ฏธ์ง๋ ํ ์คํธ ํน์ง๋ค์ ์ ์ํ๋๋ก ํ์ธํ๋ํ๋ ๋ฐฉ์ ์ ์ดํ์ต์ ๋ฐฉ์ ์ค ํ๋
- ์ถ๊ฐ์ ์ธ light-weight ํน์ง adapter ๋ชจ๋์ ํ์ฉ
- Clip-Adapter : ๊ธฐ์กด์ CLIP ๋ชจ๋ธ์ ํ
์คํธ, ์ด๋ฏธ์ง ์ธ์ฝ๋ ๋ค์ ํ์ต ๊ฐ๋ฅํ ์ ํ ๋ ์ด์ด๋ฅผ ์ฌ๋ฌ๊ฐ ์ฝ์
- ์๋กญ๊ฒ ์ฝ์ ๋ ์ ํ ๋ ์ด์ด๋ค๋ง ๋ค์ด์คํธ๋ฆผ ๋ฐ์ดํฐ๋ก ํ์ต, CLIP์ด ์ถ์ถํ ํน์ง์ ๋ณํ
- SVL-Adapter : ์ ๋ ฅ๋ ์ด๋ฏธ์ง์ ๋ํ ์๊ธฐ์ง๋ํ์ต์ ํ๋ ์ถ๊ฐ์ ์ธ ์ธ์ฝ๋๋ฅผ ์๋ตํฐ๋ก ํ์ฉ
๊ฒฐ๋ก : ํน์ง ์ ์๊ธฐ(feature adapter)๋ VLM์ด ๋ค์ด์คํธ๋ฆผ ๋ฐ์ดํฐ์ ์ ์ํ๋๋ก ํ๋ฉฐ, ์์ ์๊ฐํ ์ ์ดํ์ต ๋ฐฉ๋ฒ ํ๋กฌํํธ ํ๋์ ๋์์ผ๋ก ๋ ์ค๋ฅด๊ณ ์์
Discussion
- Feature Adaptation
- ์ฅ์ : ํด๋น ์ ์ดํ์ต ๋ฐฉ์์ด ๊ต์ฅํ ์ตํต์ฑ(๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์ ์ ํ์ฉ ๊ฐ๋ฅ)์ด ์์ผ๋ฉฐ, ํจ๊ณผ์ ์
- ๋จ์ : ๋คํธ์ํฌ์ ๊ตฌ์กฐ๋ฅผ ์์ ํด์ผํ๋ฉฐ, ๋ฐ์ดํฐ์ ๋ํ ์ง์ ์ฌ์ฐ๊ถ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฐ ์ ์๋ค.
6.3.3 Other Transfer Methods
- ์์์ ์๊ฐํ ๋ฐฉ๋ฒ ์ด์ธ์๋ ๋ค์ํ ์ ์ดํ์ต ๋ฐฉ๋ฒ์ด ์กด์ฌ
- Wise-FT : ์๋ณธ VLM์ ๊ฐ์ค์น์ ๋ฏธ์ธ ์กฐ์ ๋ VLM์ ๊ฐ์ค์น๋ฅผ ๊ฒฐํฉํ๋ ๋ฐฉ์
- Mask-CLIP : ์ด๋ฏธ์ง ์ธ์ฝ๋ ์ํคํ ์ฒ๋ฅผ ์์ , ์ด๋ฏธ์ง ์ ์ฒด์ ๋ํ ํ๋ถํ ์ด๋ฏธ์ง ํน์ง ์ถ์ถ
- VT-CLIP : ์๊ฐ์ ์ ๋ ์ดํ ์ ๋์
- CuPL & VCD : GPT-3์ ๊ฐ์ LLM์ ํ์ฉํ์ฌ ๋จ์ํ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ๋ ์์ธํ ํ๋กฌํํธ๋ก ํ์ฅ
6.4 Summary and Discussion
- VLM์ ์ ์ด ํ์ต ๋ฐฉ์์ ๊ฐ์ฅ ๋ฉ์ธ์ด ๋๋ ๋ฐฉ์ 2๊ฐ์ง
- Prompt Tuning
- Feature Adapter
- ์ง๊ธ๊น์ง๋ few-shot ์ง๋ ์ ์ดํ์ต์ ๋ํ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ๋ค๋ฉด, ์ต๊ทผ์๋ ๋น์ง๋ ์ ์ด ํ์ต์ ๋ํ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ๊ฒ ์ด๋ฃจ์ด์ง๊ณ ์๋ค.
7 VLM Knowledge Distillation
- VLM ์ง์ ์ฆ๋ฅ
- ์ฌ์ ํ์ต๋ VLM์ ๋ค์ํ ์๊ฐ ๋ฐ ํ ์คํธ ๊ฐ๋ ์ ํฌ๊ดํ๋ ๋ฒ์ฉ์ ์ธ ์ง์์ ๊ฐ์ง๊ณ ์์
- ํ์ง๋ง, ๊ฐ์ฒด ํ์ง, ์์ ๋ถํ ๊ณผ ๊ฐ์ โ์กฐ๋ฐํ ์์ธกโ(Dense Prediction)์ ํฝ์ ๋จ์์ ์ดํด๋ฅผ ์๊ตฌํจ
โ ์ด๋ป๊ฒ VLM์ด ๊ฐ์ง๊ณ ์๋ ์๊ฐ, ํ ์คํธ์ ๋ํ ๋ฒ์ฉ์ ์ธ ์ง์์ ์กฐ๋ฐํ ์์ธก ์์ ์ ์ํด ์ค๊ณ๋ ๋ชจ๋ธ์ ์ ๋ฌ(์ฆ๋ฅ)ํ ์ ์์๊น?
7.1 Motivation of Distilling Knowledge from VLMs
- ์ง์ ์ฆ๋ฅ์ ์ ์ด ํ์ต์ ์ฐจ์ด์
| ์ง์ ์ฆ๋ฅ (Knowledge Distillation) | ์ ์ด ํ์ต (Transfer Learning) |
|---|---|
| VLM์ โ์ง์โ๋ง์ ๊ฐ์ ธ์ ์์ ํ ๋ค๋ฅธ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์๊ฒ ์ ๋ฌ (VLM ์ํคํ ์ฒ์ ์ฝ๋งค์ผ ํ์ X) | ๊ธฐ์กด์ ์ฌ์ ํ์ต๋ VLM ์ํคํ ์ฒ๋ ๊ทธ๋๋ก ๋ ์ํ์์ ์ผ๋ถ ์์ ๋ถ๋ถ๋ง ์์ /์ถ๊ฐํ์ฌ ์๋ก์ด ์์ ์ ์ ์์ํด |
| Faster R-CNN, DETR ๊ฐ์ ํ์ง ๋ชจ๋ธ์ ์ํคํ ์ฒ์ ์ฅ์ ์ ์ด๋ฆฌ๋ฉด์ VLM ์ง์์ ์ ๋ฌํ๋ ๊ฒ์ด ๊ฐ๋ฅ! | ๋ง์ฝ ๋ค์ด์คํธ๋ฆผ ์์ ์ด ์๋ณธ VLM ์ํคํ ์ฒ์ ์ ํฉํ์ง ์์๋ ๊ทธ ๊ตฌ์กฐ๋ฅผ ๋ฌด์กฐ๊ฑด ๋ฐ๋ผ์ผํจ |
7.2 Common Knowledge Distillation Methods
๋๋ถ๋ถ์ ์ง์ ์ฆ๋ฅ ๋ฐฉ์์ ์ด๋ฏธ์ง ์ ์ฒด์ ๋ํ ์ง์ ์์ค์ ์ด๋ฏธ์ง์ ์ผ๋ถ(์ง์ญ์ ) ํน์ ํฝ์ ๋จ์์ ์์ (๋ ์ธ๋ฐํ ์์ ๋ค)๋ค์ ํด๊ฒฐํ๋ ๋ชจ๋ธ์ ์ ๋ฌํ๋ ๋ฐฉ์์ (๊ฐ์ฒด ํ์ง(Object Detection) or ์์ ๋ถํ (Semantic Segmentation))
7.2.1 Knowledge Distillation for Object Detection
Open-Vocabulary Object Detection
- ์ผ๋ฐ์ ์ธ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ : โ๊ฐโ, โ์๋์ฐจโ ๋ฑ ์ ํด์ง ํด๋์ค๋ง ์๊ธฐ ๋๋ฌธ์ ์ดํ๋ ฅ์ด ์ ํ์
- CLIP๊ณผ ๊ฐ์ VLM ๋ชจ๋ธ๋ค์ ์ธํฐ๋ท์ ์์ญ์ต ๊ฐ์ ์ด๋ฏธ์ง-ํ ์คํธ ์์ผ๋ก ํ์ต๋์๊ธฐ ๋๋ฌธ์ ์ดํ๋ ฅ์ด ๋ ๋์!
- ViLD, ZSD-YOLO, OADP ๋ชจ๋ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด VLM์ ๋ฐฉ๋ํ ์ง์์ ์ฆ๋ฅ(์ ๋ฌ)๋ฐ์
โ VLM์ ์ด ๋ฐฉ๋ํ ์ง์์ ๊ธฐ์กด ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ์ฆ๋ฅ(์ ๋ฌ)ํ๋ ๋ฐฉ๋ฒ์ ์ฐ๊ตฌ
Prompt Learning์ ํตํ ์ง์ ์ฆ๋ฅ๋ฅผ ์ฐ๊ตฌ
- โํ๋กฌํํธโ๋ฅผ ํ์ตํ๋ ๋ฐฉ์์ผ๋ก, VLM์ ์ง์์ ํ์ง๊ธฐ์ ์ ๋ฌ
VLM์ด ์์ฑํ ๊ฐ์ ๋ผ๋ฒจ ํ์ฉ
- ์ด๋ฏธ ํ์ต๋ VLM์ ์ผ์ข ์ โ์๋ ๋ผ๋ฒจ๋ง ๊ธฐ๊ณโ๋ก ์ฌ์ฉํ์ฌ ๊ฐ์ฒด ํ์ง ํ์ต์ ํ์ํ ๋ฐ์ดํฐ๋ฅผ ์์ฑ
7.2.2 Knowledge Distillation for Semantic Segmentation
- ์์ ๋ถํ (Semantic Segmentation)์ ์ํ ์ง์ ์ฆ๋ฅ ๋ฐฉ๋ฒ
- ๊ฐ์ฒด ํ์ง์ ๋ง์ฐฌ๊ฐ์ง๋ก, ์ด๋ฏธ์ง์ ํฝ์
์ด ์ค๋ช
ํ๊ณ ์๋ ํด๋์ค ๋ชฉ๋ก์ ๋ฒ์๋ฅผ ํ์ฅํ๊ธฐ ์ํด (์ดํ๋ ฅ ํฅ์)
- CLIPSeg : ์์ ๋ถํ ๋ง์ ์ํ ๋ชจ๋ธ๋ก์จ, ๊ฐ๋ฒผ์ด ํธ๋์คํฌ๋จธ ๋์ฝ๋๋ฅผ ์ถ๊ฐ
- LSeg : CLIP์ ํ ์คํธ ์๋ฒ ๋ฉ๊ณผ ํฝ์ ๋จ์์ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ ์ฌ์ด์ ์๊ด๊ด๊ณ๋ฅผ ์ต๋ํ
Knowledge Distillation for weakly-supervised semantic (์ฝํ ์ง๋ ํ์ต ํ๊ฒฝ์์์ VLM์ ์ง์ ์ฆ๋ฅ)
- ์ฝํ ์ง๋ (weak-supervision) ์ด๋?
- ์ ๊ตํ ํฝ์ ๋จ์์ ์ ๋ต ์์ด, ์ด๋ฏธ์ง ๋ ๋ฒจ์ ๋ผ๋ฒจ๊ณผ ๊ฐ์ด ๋ถ์์ ํ๊ณ ์ฝํ ํํ์ ์ ๋ต๋ง์ ํ์ฉ
- ๊ฐํ ์ง๋ : ์ฌ์ง ์์ ์ํ, ๊ณ ์์ด๋ฅผ ํฝ์ ๋จ์๋ก ํน์ ์ง์ด์ค
- ์ฝํ ์ง๋ : ๊ทธ๋ฅ ์ด๋ฏธ์ง ์ ์ฒด์ ๋ํ ์ค๋ช (๊ณ ์์ด์ ์ํ์ผ)
- ์ฝํ ์ง๋์ ๊ฐ์ฅ ํฐ ํ๊ณ์ : ์ด๋ฏธ์ง ๋ด์ ํน์ ๊ฐ์ฒด๊ฐ ์๋ค๋ ์ ๋ณด๋ง์ผ๋ก โ์ด๋ค ํฝ์ โ์ด ๊ทธ ๊ฐ์ฒด๋ฅผ ๋ํ๋ด๊ณ ์๋์ง ์๊ธฐ ํ๋ฆ
โ ํด๋์ค ํ์ฑํ ๋งต์ ํ์ง์ ๋์ด๋ ๋ฐ VLM์ ์ง์์ ํ์ฉ (ํด๋์ค ํ์ฑํ ๋งต : ๋ชจ๋ธ์ด ํน์ ํฝ์ ์ ๊ฐ์ฒด๋ก ํ๋จํ ๋, ์ด๋ฏธ์ง์ ์ด๋ ๋ถ๋ถ์ ์ฃผ๋ก ๋ณด์๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ํํธ๋งต)
- CLIP-ES, CLIMS
7.3 Summary and Discussion
- ์ ์ดํ์ต๊ณผ ๋น๊ตํด๋ณด์์๋, ์ง์ ์ฆ๋ฅ ๋ฐฉ์์ ๋ ์ตํต์ฑ์ด ์์ผ๋ฉฐ, ์๋ณธ VLM์ ๊ตฌ์กฐ์ ๊ตฌ์ ๋ฐ์ง ์๊ณ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์ ์ ์ ์ฉ ๊ฐ๋ฅ
- ๋๋ถ๋ถ์ ์ง์ ์ฆ๋ฅ ์ฐ๊ตฌ๋ ๊ฐ์ฒด ํ์ง ํน์ ์์ ๋ถํ ์์ ์ ๋ค๋ฃจ๊ณ ์๋ค.
8 Performance Comparison
8.1 Performance of VLM Pre-Training
- ์ฌ์ ํ์ต๋ VLM ๋ค์ด ์ด๋ ์ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋์ง Zero-shot Prediction(์ ๋ก์ท ์์ธก) ํ๊ฐ ๋ฐฉ์์ ํตํด ๋น๊ต/๋ถ์
- ํ๊ฐ ๋ฐฉ์ : ๋ชจ๋ธ์ ์ถ๊ฐ๋ก fine-tuningํ์ง ์๊ณ , ์ฌ์ ํ์ต๋ง ๋ ์ํ๋ก ํ๊ฐ
ํ๊ฐ ํญ๋ชฉ : ์ด๋ฏธ์ง ๋ถ๋ฅ, ๊ฐ์ฒด ํ์ง, ์์ ๋ถํ ๋ฑ ์ฌ๋ฌ ์ข ๋ฅ์ ์๊ฐ ์ธ์ ์์ ์ ๋ํด ํ๊ฐ
- ์์ ํ ์ด๋ธ 7,8์ ํตํด์๋ ์ ์ ์๋ฏ์ด, ํน์ ์์ (๊ฐ์ฒด ํ์ง, ์์ ๋ถํ ) ๋ถ์ผ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์
- ์ซ์๊ฐ ๋ฎ๋ค๊ณ ์๊ฐํ์ง๋ง,, ์ ๋ก์ท ์์ธก ํ๊ฐ๋ผ๋ ๋งค์ฐ ์ด๋ ค์ด ์กฐ๊ฑดํ์์ ๋ฌ์ฑ๋ ์ ์์ด๋ฉฐ, ๊ฐ์ฒด ํ์ง๋ ์์ ๋ถํ ๊ณผ ๊ฐ์ ํน์ ์์ ์ fine-tuned๋์ง ์์ ์ํ๋ผ๋ ๊ฒ์ ๊ฐ์ํ์๋, ์ข์ ์ฑ๋ฅ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค.
8.2 Performance of VLM Transfer Learning
- VLM ์ ์ดํ์ต์ ์ฑ๋ฅ
- ์ง๋ ์ ์ดํ์ต, few-shot ์ง๋ ์ ์ดํ์ต, ๋น์ง๋ ์ ์ดํ์ต ๋ฐฉ์์ผ๋ก ๋๋์ด ์งํ
8.3 Performance of VLM Knowledge Distillation
- VLM ์ง์ ์ฆ๋ฅ ๋ฐฉ์์ ์ฑ๋ฅ
- ์ด๋ป๊ฒ ๊ฐ์ฒด ํ์ง/์์ ๋ถํ ๋ถ์ผ์์ ์ง์ ์ฆ๋ฅ๊ฐ ๋์์ ์ค ์ ์๋์ง ํ์ธ
- ๊ฐ์ฒด ํ์ง์ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ์ , ์์ ๋ถํ ์ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ์ ํ์ฉ
8.4 Summary
9 Future Directions
- VLM ์ฌ์ ํ์ต (Pre-Training)์ ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ
- ์ธ๋ฐํ ์๊ฐ-์ธ์ด ์๊ด๊ด๊ณ ๋ชจ๋ธ๋ง - ์ด๋ฏธ์ง ์ ์ฒด๊ฐ ์๋ ํน์ ๋ถ๋ถ(ํฝ์ /ํจ์น)๊ณผ ํ ์คํธ๋ฅผ ์ฐ๊ฒฐ
- ์๊ฐ๊ณผ ์ธ์ด ํ์ต์ ํตํฉ - ํ๋์ ํตํฉ๋ Transformer์ธ์ฝ๋ ์์์ ์ด๋ฏธ์ง-ํ ์คํธ ํ๋ฒ์ ์ฒ๋ฆฌ
- ๋ค์ค ์ธ์ด๋ฅผ ์ฌ์ฉํ ์ฌ์ ํ์ต - ์์ด ์ค์ฌ์ด ์๋ ๋ค์ํ ์ธ์ด๋ก๋ ์ฌ์ ํ์ต ๊ฐ๋ฅ(๋ฌธํ์ , ์ง์ญ์ ํธํฅ)
- ๋ฐ์ดํฐ์ ํจ์จ์ฑ - ๋ ์ ์ ๋ฐ์ดํฐ๋ก๋ ํ๋ จ ๊ฐ๋ฅํด์ผํจ
- LLM์ ํ์ฉ - LLM์ ํ์ฉํ์ฌ ๋ ํ๋ถํ๊ณ ์ ํํ ํ ์คํธ ์ค๋ช ์ ์์ฑํ์ฌ ์ด๋ฅผ ํ์ฉํด์ผํจ
- VLM ์ ์ด ํ์ต (Transfer Learning)์ ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๋น์ง๋ VLM ์ ์ด ํ์ต
- ๋ฐ์ดํฐ์ ์์กดํ๋ฉฐ, ๊ณผ์ ํฉ ์ํ์ด ์๋ ์ง๋/์์์ท ํ์ต์ ๋์ด ๋ผ๋ฒจ์ด ์๋ ์ํ์์๋ ํ์ต์ด ๊ฐ๋ฅํด์ผํจ (์ด ๋ถ์ผ ๋ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค!!!)
- ํ
์คํธ ์์ VLM ์ ์ด ํ์ต
- ๊ฐ ๋ค์ด์คํธ๋ฆผ ์์ ๋ง๋ค ํ๋ จ์ ๋ฐ๋ก ํด์ผํ๋ ๋นํจ์จ์ ๊ทน๋ณตํ๊ธฐ ์ํด, ์์ธก์ ์ํํ๋ ํ ์คํธ ์์ ์์ ์ฆ์์ผ๋ก ํ๋กฌํํธ๋ฅผ ์ ์์ํฌ ์ ์์ด์ผํจ
- LLM์ ํ์ฉํ VLM ์ ์ดํ์ต
- ์ฌ๋์ด ์ง์ ํ๋กฌํํธ๋ฅผ ๋ง๋ค๊ฑฐ๋, ๋ฐ์ดํฐ๋ก ํ์ตํ๋ ๋์ , LLM์ ํตํด ๋ค์ด์คํธ๋ฆผ ์์ ์ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ ํ๋กฌํํธ๋ฅผ ์๋์ผ๋ก ์์ฑํ๋ ์ฐ๊ตฌ ํ์
- ๋น์ง๋ VLM ์ ์ด ํ์ต
- VLM ์ง์ ์ฆ๋ฅ (VLM Knowledge Distillation)์ ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๋ค์์ VLM๋ก๋ถํฐ ์ง์ ์ฆ๋ฅ
- ํ๋์ VLM์ด ์๋, ์ฌ๋ฌ VLM๋ชจ๋ธ๋ก๋ถํฐ ์ง์์ ์ ๋ฌ ๋ฐ์ ์ ์์ด์ผํจ
- ๋ค๋ฅธ ์๊ฐ ์ธ์ ์์
์ผ๋ก์ ํ์ฅ
- ๊ฐ์ฒด ํ์ง, ์์ ๋ถํ ์ด์ธ์ ์ฌ๋ ์ฌ์๋ณ, ์ธ์คํด์ค ์ธ๋ถํ ๋ฑ ๋ ๋์ ์๊ฐ ์ธ์ ์์ ์๋ ์ ์ฉ๋ ์ ์์ด์ผํจ
- ๋ค์์ VLM๋ก๋ถํฐ ์ง์ ์ฆ๋ฅ
10 Conclusion
- VLM์ ํต์ฌ ๊ฐ์น
- ์๊ฐ ์ธ์์ ์ํ VLM์ ์น ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฉํ ์ ์์ผ๋ฉฐ, ํน์ ์์ ์ ๋ํ ํ์ธํ๋ ์์ด๋ ์ ๋ก์ท ์์ธก์ด ๊ฐ๋ฅํจ
โ ๊ตฌํ์ด ๊ฐ๋จํ๋ฉด์๋ ๊ด๋ฒ์ํ ์๊ฐ์ ์ธ์ ์์ ์์ ํฐ ์ฑ๊ณผ
- VLM ๋ฐ์ดํฐ์ , ์ ๊ทผ๋ฒ, ์ฑ๋ฅ์ ๋ํ ์ ๋ณด๋ฅผ ์์ฝํ์ฌ VLM ์ฌ์ ํ์ต์ ์ต๊ทผ ๋ฐ์ ์ ๋ํ ์ ์ฒด์ ์ธ ๊ทธ๋ฆผ์ ํ์ ํ ์ ์์ผ๋ฉฐ, VLM์ ์์ผ๋ก์ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์























