본문 바로가기

Best Paper review/Others

RankMe: Assessing the Downstream Performance of Pretrained Self-Supervised Representations by Their Rank

by 연금(Pension)술사 2025. 9. 2.

ICML 2023

Motivation

SSL의 대부분(SimCLR)은 라벨없이 학습하고, 학습이 잘되었는지 아닌지를, 라벨/튜닝(라벨)에 의존했음
라벨을 이용해서, Linear probing으로 확인하는 작업을 주로 했고, 라벨없는 경우 확인하기 어려움
라벨없이도 표현의 품질을 가늠하고, 튜닝이 필요없는 지표를 제안
- "임베딩의 유효랭크"가 다운스트림 테스크에 영향
- 랭크(Rank, 계): 서로 독립인 축의 방향 (=SVD의 0이 아닌 특이값의 계수)

방법론

용어정리: Representation (인코더의 출력), 프로젝터(MLP). 프로젝터의 출력이 임베딩(embeddings)

입력: 데이터셋에서 임베딩 행렬 $Z \in \mathbb{R} ^{N \times K}$ (25,600개도 OK)
Z의 특이값 계산 $\sigma(Z) = [\sigma_{1}, ..., \sigma_{m}]$.
특이값의 정규화: $p_{k} = \frac{\sigma_{k}(Z)}{||\sigma(Z)||_{1} + \epsilon}$
Shannon entropy을 이용해서 지수형으로 계산: $RankMe(Z) = exp(-\sum_{k=1}^{m}(p_{k}logp_{k}))$

값의 범위가 1~K로, 값이 클수록 랭크가 높을수록 유요한 축(axis)이 고르게 존재한다는거니까 특징이 풍부하게 추출됨을 의미. 즉. 화이트닝(각 축이 상관이 없오, 분산이 1로 같아지는 것) $p_{k}$들이 균등할수록 엔트로피가 커져서 RankMe가 커지고, 좋은 특징추출기임을 보임

주요결과

RankMe 수치가 높을수록, Top1정확도가 증가하는 추세. 일부 풀랭크에서는 떨어지는 경우도 있음.
Oracle: ImageNet 검증라벨로 선형분류기를 학습해서 성능 제일 좋은 모델을 고른 것.

소스데이터셋에의 랭크가 커질수록, 타깃데이터의 랭크도 같이커지고, Test representation top1도 커짐

저작자표시 (새창열림)

'Best Paper review > Others' 카테고리의 다른 글

[5분 컷 이해] Chebyshev Polynomial-Based Kolmogorov-Arnold Network (0)	2025.06.14
라벨 스무딩(Label smoothing)이 노이즈라벨에 도움이되나? Does label smoothing mitigate label noise? (0)	2025.02.25
CSI: Novelty Detection via Contrastive Learning on Distributionally Shifted Instances (0)	2024.12.10
[5분 컷 이해] DRIT++: Image to image translation 리뷰 (0)	2024.07.15
[3분 컷 리뷰] Regularizing Neural Networks by Penalizing Confident Output Distributions 해석 (1)	2023.12.26

티스토리툴바