본문 바로가기
Digital pathology

Delving into Out-of-Distribution Detection with Vision-Language Representations

by 연금(Pension)술사 2025. 6. 24.

 

Motivation


  • 대부분의 OOD 문제는 Single modality임. 
  • 언어모델과 비쥬얼모델의 결합으로 더 풍부하게 표현 가능함
  • Zero-shot OOD detection 진행

 

 

Methods


Zero-shot OOD:  목표

  1. Known class에 해당하는지(ID) 아닌지(OOD) 여부를 결정.
  2. 알고있는 샘플(ID)라면, known class에서 클레스를 할

 

Concept matching

  • 입력 텍스트: $t_{i}$
  • Text encoder: $\mathcal{T}$
  • 입력 이미지: $\mathcal{x}'$
  • Image encoder: $\mathcal{I}$
  • 텍스트와 이미지의 코사인유사도: $ s_{i}\mathcal(x) = \frac{ \mathcal{I}(x')  \cdot  \mathcal{T}(t_{i})}{|| \mathcal{I}(x')||  \cdot || \mathcal{T}(t_{i}) ||}$. 밑첨자(i)은 한 이미지에 대해서 여러 "This is a photo of a ___"을 넣었기 떄문에 그중에 하나와의 유사도를 의미하기 때문
  • MCM: $S_{MCM} = max_{i} \frac{e^{s_{i}/\tau}}{\sum e^{s_{j}/\tau}}$. 여러 텍스트 중에 가장 높은 서술문과의 유사도

만일, OOD Detector가 특정 기각역을 넘기는 경우을 1, 아닌 경우를 0으로 활용하기도 함.

그리고, softmax score가 일정 threshold보다 낮은 경우를 OOD로 간주 (이때, temperature scaling이 중요함을 이론/실증적으로 보임)


맥시멈 컨셉 매칭(Maximum concept matching, MCM): 

 

결론


이 OOD에서는 one-class OOD처럼 진행하는게 아니라, 클레스의 종류(ID classes)을 알고있어야 비교 대상이 가능할 것으로 보임. 조직병리에서는 Free-text로 써여져 있는 기술문이 많아서 text label을 한정하기가 어려워서 OOD에 적용하긴 좀 어려운 연구

 

이론


임베딩벡터의 차원이 높아지면 표현력은 좋아지지만, 유사도는 균등분포처럼 바뀌어버림. 아래의 가정처럼 표현할 수 있음. 특정 i에 대한 이미지-텍스트 임베딩은, 다른 y2에 대한 텍스트임베딩과의 유사도의 차이가 거의 크지않음($\detla$)라고 가정.

 

이렇게 가정하면(Assumption 3.1)이 참이라면(=유사도의 차이가 거의 없다면), 상수($T$)보다 큰 temperature scaler $\tau$가 있다면, temperature scaler을 안썼을떄보다 썼을떄 FPR이 더 낮다.

반응형