본문 바로가기

Best Paper review33

Class-Balanced Loss Based on Effective Number of Samples https://openaccess.thecvf.com/content_CVPR_2019/papers/Cui_Class-Balanced_Loss_Based_on_Effective_Number_of_Samples_CVPR_2019_paper.pdf 요약Balanced CrossEntropy(=weigthed CE)에서의 가중치가 빈도수의 역수로 들어가면 과하게 들어가서 성능이 안좋음. 유효수를 이용하여 좀 더 이론적으로 타당하고 부드러운(re-smooth된) re-weight 을 하자\Motivation 현실 세계의 데이터들은 대부분 클래스 분포가 균형을 이루지 않고, 몇 개 클래스에 많은 샘플이 몰리고 나머지 클래스는 적은 샘플을 가진 long-tailed 분포를 갖게이런 분포 하에서 학습된 모델은 다수 클.. 2025. 11. 14.
Sigmoid Loss for Language Image Pre-Training Motivation:softmax-based contrastive loss의 단점2번의 정규화:. image축단위로 softmax을 하고, text축단위로 softmax하기때문에, 2번연산함. 수치적으로 불안정 함: softmax의 $e^{z_{i}}$에서 $z_{i}$가 커지면 overflow가되어서 수치적으로 불안정함 (최대값을 빼서 사용하지만 여전히 불안정) 장점Batch size: 16K 미만에서도 잘 동작함. (배치사이즈 커질수록 CLIP이랑은 비슷해지긴 함)배치사이즈 키울 수 있음: symmetric하기 때문에. Methods$x_{i}$: normalized image feature vector$y_{i}$: normalized text vector$t$: temperature scale. .. 2025. 9. 15.
RankMe: Assessing the Downstream Performance of Pretrained Self-Supervised Representations by Their Rank ICML 2023 MotivationSSL의 대부분(SimCLR)은 라벨없이 학습하고, 학습이 잘되었는지 아닌지를, 라벨/튜닝(라벨)에 의존했음라벨을 이용해서, Linear probing으로 확인하는 작업을 주로 했고, 라벨없는 경우 확인하기 어려움라벨없이도 표현의 품질을 가늠하고, 튜닝이 필요없는 지표를 제안"임베딩의 유효랭크"가 다운스트림 테스크에 영향랭크(Rank, 계): 서로 독립인 축의 방향 (=SVD의 0이 아닌 특이값의 계수) 방법론용어정리: Representation (인코더의 출력), 프로젝터(MLP). 프로젝터의 출력이 임베딩(embeddings)입력: 데이터셋에서 임베딩 행렬 $Z \in \mathbb{R} ^{N \times K}$ (25,600개도 OK)Z의 특이값 계산 $\si.. 2025. 9. 2.
[5분 컷 이해] Chebyshev Polynomial-Based Kolmogorov-Arnold Network SS, S., AR, K., & KP, A. (2024). Chebyshev polynomial-based kolmogorov-arnold networks: An efficient architecture for nonlinear function approximation. arXiv preprint arXiv:2405.07200. (https://arxiv.org/pdf/2405.07200) Motivation기존 MLP 기반 신경망은 3가지 한계점을 지님비효율적인 파라미터 사용: 비선형함수를 근사하기위해서, 파라미터 수를 많이 증가시켜야함.고정된 비선형성: 비선형을 만들기위해서 MLP와 고정된 activation function을 사용하는데, 복잡한 패턴을 표현하기 어려움해석불가능해결과제Kolomogor.. 2025. 6. 14.
해석: End-to-End Multi-Task Learning with Attention 하나의 네트워크로 이미지의 공동 특징을 추출하고, 각 테스크별로 soft-attention module을 적용한 논문Liu, S., Johns, E., & Davison, A. J. (2019). End-to-end multi-task learning with attention. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 1871-1880). Motivation멀티테스크 학습에서는 공통표현(Shared representation)을 학습하는데 있어서 다음의 2가지 요소가 도전과제:네트워크 아키텍처 문제(어떻게 공통특징을 추출할 것인가?): 공통표현에서 각 테스크별로 공유되는 특징 뿐만아니.. 2025. 3. 17.
[5분 컷 리뷰] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Motivation기존 Vision-Language model의 한계: VLM모델들은 특정 테스크 중심으로 강점을 보이는 경우가 많았음. 예를 들어, 이미지에 대한 캡션 생성(image-to-text generation) 또는 택스트 기반의 이미지 이해(text-conditioned image understanding)에 따로따로 최적화 되어있는 경우가 많음. 즉, 하나의 모델이 이해와 생성을 동시에 수행하는 프레임워크가 필요함데이터 관점의 한계: 최신 VLP(Vision-Language Pretraining)은 웹크롤링한 이미지-텍스트를 이용하지만, 노이즈가 많고, 의미적 일치(alignment)가 떨어짐. 따라서 웹 데이터를 효과적으로 정제하는 방법도 필요함 Method: 1)인코더와 디코더의 기능을.. 2025. 3. 4.