본문 바로가기
Best Paper review/Others

라벨 스무딩(Label smoothing)이 노이즈라벨에 도움이되나? Does label smoothing mitigate label noise?

by 연금(Pension)술사 2025. 2. 25.

 

요약


1. 라벨스무딩이 실험적으로 노이즈 기법들과 비슷한 성능을 보임

2. 지식증류에서 학습데이터에 노이즈가 포함되어있는 경우에도 향상될 수 있음

Lukasik, M., Bhojanapalli, S., Menon, A., & Kumar, S. (2020, November). Does label smoothing mitigate label noise?. In International Conference on Machine Learning (pp. 6448-6458). PMLR.

 

Motivation


  • 라벨스무딩은 정답 라벨을 0또는 1로 주는것이 아니라, [0, 1]사이의 값으로 만드는 작업입니다.
  • 보통, 라벨스무딩이 정규화작업과 유사하기에(=한 쪽으로 강하게 학습되지 않도록 제어), 일반화 성능이 올라가고 모델 켈리브이에이션(=예측이 0과 1로 극단적으로 쏠리지 않게)이 된다고 알려져 있습니다.

라벨 스무딩이 딥러닝에 영향을 어떻게 주는지는 보통 라벨이 노이즈할 때, 효과적으로 알려져있습니다. 하지만, 직관적으로 아래와 같이, 서로 다른 의견이 팽팽히 있습니다.

"Over-confidence 문제를 해결하기 때문에 해결할 것이기 때문에, 일반화 성능이 좋을 것이다."

vs "아니다, 라벨에 노이즈를 주는 겪이기 때문에 성능이 악화된다.", 

사전 연구에서는 라벨 스무딩이 노이즈에 어떻게 영향주는지 조사된 경우가 거의 없지만, 유사하게는 손실함수 보정(Loss correction)기법과 라벨스무딩사이에 유사점이 있어서 이를 리뷰합니다.

 

Notation


  • R(f; S)은 훈련데이터셋 S가 유한할 때, 실제 계산한(empirical) 손실함수 값을 의미합니다. 1/N로 평균내어줍니다.
  • 라벨스무딩을 적용한 R(f;S)은 y에 특별하게 전처리를 해주는데요.
    • 정답라벨에 대해서(i=y), alpha 만큼 빼주고,
    • 정답라벨 외의 대해서(i /= y), alpha/L만큼 균등분포를 적용합니다.

예를 들어, 3개의 클레스의 멀티클레스분류 문제일 때, [0, 0, 1]의 라벨이 원본 라벨이라면, 라벨스무딩은 L=3, alpha=0.1인 상황에, [0.033, 0.033, 0.9333]의 라벨을 주는 것입니다.

 

 

라벨스무딩이 노이즈라벨에 주는 효과


실험조건

  • 데이터셋: CIFAR-10, CIFAR-1000, ImageNet
  • 노이즈 만들기: 20%의 데이터에, 정답레이블 외에 나머지 레이블에 랜덤하게 하나를 할당합니다. (대칭적 노이즈)
  • 학습방법
    • 기본학습(baseline): softmax cross-entropy
    • LS(label smoothing): alpha값을 다양하게 변경함
    • FC(forward):  예측값을 보정하는 방식.  l(Tf). T은 조정값(3). 즉, 출력값에 직접 곱함
    • BC(barward): 손실값을 보정하는 방법.  T의 역행렬을 이용하는 방식. T^{-1} l(f)

 

  • alpha값에 따른 변화도 label smoothing보다 FC(forward correction)이 더 좋게 관찰됩니다.

 

  • 라벨스무딩의 계수(alpha)가 증가할 수록, 모든 데이터셋에서 성능이 올라갔습니다.

 

 

Summary


  1. Label Smoothing은 간단하면서도 강력한 대안이 될 수 있습니다.
  2. **노이즈 보정 기법(FC, BC)**과 경쟁력 있는 성능을 보였습니다.
  3. 노이즈 상황에서도 **모델의 일반화 성능(Generalization Performance)**을 높이는 데 도움을 줍니다.
  4. 특히, **Forward Correction (FC)**이 가장 일관되게 좋은 성능을 나타냈으며,
    **Label Smoothing (LS)**은 간단한 구현에도 불구하고 유사한 효과를 보여줬습니다.
반응형