Class-Balanced Loss Based on Effective Number of Samples

요약

Balanced CrossEntropy(=weigthed CE)에서의 가중치가 빈도수의 역수로 들어가면 과하게 들어가서 성능이 안좋음. 유효수를 이용하여 좀 더 이론적으로 타당하고 부드러운(re-smooth된) re-weight 을 하자

Motivation

현실 세계의 데이터들은 대부분 클래스 분포가 균형을 이루지 않고, 몇 개 클래스에 많은 샘플이 몰리고 나머지 클래스는 적은 샘플을 가진 long-tailed 분포를 갖게
이런 분포 하에서 학습된 모델은 다수 클래스(head classes)에 치우쳐 학습되고, 소수 클래스(tail classes)에 대해 일반화 성능이 낮음
기존 대응 방법으로는 재표본화(resampling) (over-sampling 소수클래스 또는 under-sampling 다수클래스)와 비용재가중치(cost-sensitive weighting) 방식(예: 클래스 빈도의 역수) 등
하지만 이 방식들이 한계가 있는데, 예컨대 over-sampling은 중복 데이터로 인해 과적합 위험이 있고, under-sampling은 유용한 데이터를 버리는 문제가 있습니다. 또한 단순 클래스 빈도 역수 방식은 실제 데이터셋에서 최적이 아닐 수 있다는 empirical evidence가 존재
논문은 이러한 한계를 극복하기 위해 샘플들이 가지는 정보 중복(overlap) 을 고려한 개념인 ‘유효 샘플 수(effective number of samples)’를 제안

사전지식

집합 커버 문제(Set cover problem): 주어진 집합 U와 그 부분집합이 있을때, 부분집합들을 가장 적게 선택해서 부분집합의 합집합이 U을 덮게하는지 찾거나 / k개 이하의 조합이 있는지? / 가장적은수로 찾게하려면?(최적화) 등의 문제.

Random cover problem: 집합커버문제랑 좀 다르게 이미 큰 집합 S가 있고, 그 내부에 작은 집합을 n개 던지면 평균적으로 얼마나 덮히나? 등에 관한 문제

Method: 결론(유효수 $E(n)=\frac{1-\beta^{n}}{1-\beta}$)

단순화 하기 위한 조건: 부분겹침은 생각하지 않고, Complete overlap vs Not overlap만 생각. Random cover problem에서 이전과 겹침과 안겹침만 생각함. 부분겹침은 상당히 어려움.

Notation

RankMe: Assessing the Downstream Performance of Pretrained Self-Supervised Representations by Their Rank (0)	2025.09.02
[5분 컷 이해] Chebyshev Polynomial-Based Kolmogorov-Arnold Network (0)	2025.06.14
라벨 스무딩(Label smoothing)이 노이즈라벨에 도움이되나? Does label smoothing mitigate label noise? (0)	2025.02.25
CSI: Novelty Detection via Contrastive Learning on Distributionally Shifted Instances (0)	2024.12.10
[5분 컷 이해] DRIT++: Image to image translation 리뷰 (0)	2024.07.15

연금술사