본문 바로가기
Best Paper review/Computer vision

[5분 컷 리뷰] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

by 연금(Pension)술사 2025. 3. 4.

 

Motivation


  • 기존 Vision-Language model의 한계: VLM모델들은 특정 테스크 중심으로 강점을 보이는 경우가 많았음. 예를 들어, 이미지에 대한 캡션 생성(image-to-text generation) 또는 택스트 기반의 이미지 이해(text-conditioned image understanding)에 따로따로 최적화 되어있는 경우가 많음. 즉, 하나의 모델이 이해와 생성을 동시에 수행하는 프레임워크가 필요함
  • 데이터 관점의 한계: 최신 VLP(Vision-Language Pretraining)은 웹크롤링한 이미지-텍스트를 이용하지만, 노이즈가 많고, 의미적 일치(alignment)가 떨어짐. 따라서 웹 데이터를 효과적으로 정제하는 방법도 필요함

 

Method: 1)인코더와 디코더의 기능을 합친 MED, 2)이미지 생성 및 필터 작업의 CapFlit


BLIP모델 아키텍처: Multi-modal Mixture of Encoder Decoder (MED): BLIP는 하나의 통합된 모델이 이해(understanding)와 생성(generation) 태스크를 모두 수행할 수 있도록 설계. 기존 Vision-Language 모델들이 encoder-only 또는 encoder-decoder-only 방식을 따랐던 것과 달리, BLIP는 **Multimodal Mixture of Encoder-Decoder (MED)**라는 새로운 모델 아키텍처를 제안

BLIP은 세 가지 모드로 동작할 수 있음

  1. Uni-modal encoder: 이미지와 텍스트를 각각 독립적으로 인코딩. Image-text contrastive learning (ITC)방식으로 학습함. 시작에 [CLS]토큰을 추가하여 문장의 내용을 요약할 수 있도록 함.
  2. Image-grounded text encoder: 이미지 기반 텍스트 인코더로 기존 텍스트 인코더(BERT)구조에 Cross attention (Cross-Attention)을 추가해서 이미지와 텍스트 인코딩 과정에 관여. (Cross attention은 self-attention은 Q,K,V가 모두 Origin이 동일한 데이터라면, Cross-attention은 Q와 K/V가 다른 경우를 의미. 여기서는 Q텍스트, K/V은 이미지가 될 수 있음). [Encode] 토큰을 텍스트에 추가하고 [Encode] 토큰의 출력은 multi-modal representation으로 활용할 수 있도록 하기 위함.
  3. Image-grounded text decoder: Causal self-attention(CA)으로 변경하여 캡션을 생성할 수 있도록 함. BERT의 Bi-directional self-attention을 없애고, CA을 추가함. Causal self-attention이란 Self-attention은 Q,K,V의 self attention에서 모든 token을 다 참고하여 어텐션을 계산하는 것이지만, Causal self-attention은 현재시점까지의 토큰만 참고하여 계산하는 방법을 의미함(자세한 설명). [Decode] 토큰을 추가해서 시퀀스의 시작을 의미하는 시그널로 활용.

 

사전학습의 방법(BLIP)의 최적화 방법은 멀티테스크 학습으로 3개의 목적함수를 동시에 최적화 하는 것. 위에서 앞서 설명한 1,2번째는 이해중심의 학습이며, 나머지 하나는 생성형중심의 학습.

  • ITC(Image-text contrastive learning):이미지 또는 텍스트의 인코더를 학습하는 (=Unimodal encoder)을 만들기 위한 작업임. Positive image-text pairs을 찾는 과정이고, CLIP과 유사함.
  • ITM(Image-text matching loss): 이미지가 보조적으로 들어가는(Image-grounded) 택스트 인코더를 학습하기 위한 방법임. ITM은 이진분류 테스크로 ITM head (linear layer)가 들어가서, 이 이미지-텍스트 페어가 Positive(진짜)인지 가짜(negative)인지를 맞추는 문제임. Hard negative sampling을 적용해서 배치내에 유사도는 높지만 negative인 페어를 만이 뽑도록 함.
  • Language modeling loss (LM): image-grounded text decoder을 학습하기 위함. CE(CrossEntropy) 손실함수를 써서 자기회귀(autoregressive)로 다음 단어를 예측하게 만드는 방법임. 라벨 스무딩방법을 이용해서 (alpha=0.1) 일반화 성능을 향상

 

위까지는 모델링에 대한 학습내용이고 아래는 텍스트를 정제하기위한 기법인 CapFlit(Captioning and Filtering)임.

  1. Captioner: 웹에서 크롤링한 이미지에 대해 새로운 캡션을 생성. Image-grounded text decoder형태이며, 웹에서 구한 이미지 $I_{w}$으로부터 합성 캡셔닝인 $T_{s}$을 이미지당 하나씩 생성.
  2. Filter: Image-grounded text encoder. ITC와 ITM목적함수를 갖고, 이미지-텍스트가 매칭(positive)되는건지 구분하는 역할임. 

BLIP의 기대 효과


  • 기존 모델보다 이해(understanding)와 생성(generation) 태스크 모두에서 높은 성능을 보임.
  • CapFilt를 통해 노이즈가 많은 웹 데이터에서도 효과적으로 학습 가능, 데이터 규모를 키우면서도 품질을 보장.
  • 다양한 다운스트림 태스크(이미지-텍스트 검색, 이미지 캡셔닝, VQA, 비디오-텍스트 태스크 등)에 범용적으로 적용 가능.

 

결론


BLIP 논문의 motivation기존 Vision-Language Pre-training 방식의 모델적 한계(이해와 생성의 분리)와 데이터적 한계(노이즈 많은 웹 데이터)를 극복하는 것에 있음.
이를 위해 Multimodal Mixture of Encoder-Decoder (MED) 모델과 CapFilt 데이터 부트스트래핑 기법을 도입하여 보다 범용적이고 데이터 효율적인 VLP 모델을 구축하는 것이 핵심 목표.

반응형