Motivation
- 컴퓨터비전에서 회귀문제를 분류문제로 변환해서 풀면 성능이 더 좋은 경우가 많음(예, depth estimation)
- 회귀모델의 경우 entropy가 낮은 특징 공간을 학습하는게 문제. 분류의 경우 CE을 주로 사용하는데, CE값이 큰 높은 엔트로피를 학습하게끔 유도됨.
- 하지만, 회귀문제는 MSE을 사용하면서 특징공간이 덜 퍼져있음(low-entropy)
- 아래의 그림 (Figure1)을 보더라도, 특징벡터가 좁게모여있고, [0, 6]사이의 값이 연속적으로 이어지는 순차적인 구조가 이어지져 낮은 엔트로피를 보이는 반면, classification은 많이 퍼져있고 무질서해보이는 높은 포현력(=큰 엔트로피를 보임)
Method
- total loss: $L_{total} = L_{m} + \lambda_{d}L_{d} + \lambda_{t}L_{t} $
- $L_{m}$: 테스크마다 정해지는 regression loss
- $L_{d}$: Diversity term: 특징 공간 형성
- $L_{d}: -\frac{1}{M(M-1)} \sum \sum {w_{ij}||z_{c_{i}} - z_{c_{j}}}||$
- $w_{i,j}$ 가중치로 $w_{i,j}=||y_{i} - y_{j}||$. 즉 라벨이 멀리 떨어진 샘플일수록 더 멀리 멀어지도록 유도
- $L_{t}$: tightness term: 같은 레이블을 가진 특징벡터를 묶어줌
- $L_{t} = \frac{1}{N_{b}} \sum_{i=1}^{N_{b}}{ ||z_{i}-z_{c_{i}}||^{2} }$
반응형
'Best Paper review' 카테고리의 다른 글
[5분 컷 리뷰] Supervised Contrastive Learning (0) | 2024.07.23 |
---|---|
[5분 컷 리뷰] Cyclic learning rate 리뷰 및 사용법 (0) | 2024.05.13 |