본문 바로가기

Best Paper review29

해석: End-to-End Multi-Task Learning with Attention 하나의 네트워크로 이미지의 공동 특징을 추출하고, 각 테스크별로 soft-attention module을 적용한 논문Liu, S., Johns, E., & Davison, A. J. (2019). End-to-end multi-task learning with attention. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 1871-1880). Motivation멀티테스크 학습에서는 공통표현(Shared representation)을 학습하는데 있어서 다음의 2가지 요소가 도전과제:네트워크 아키텍처 문제(어떻게 공통특징을 추출할 것인가?): 공통표현에서 각 테스크별로 공유되는 특징 뿐만아니.. 2025. 3. 17.
[5분 컷 리뷰] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Motivation기존 Vision-Language model의 한계: VLM모델들은 특정 테스크 중심으로 강점을 보이는 경우가 많았음. 예를 들어, 이미지에 대한 캡션 생성(image-to-text generation) 또는 택스트 기반의 이미지 이해(text-conditioned image understanding)에 따로따로 최적화 되어있는 경우가 많음. 즉, 하나의 모델이 이해와 생성을 동시에 수행하는 프레임워크가 필요함데이터 관점의 한계: 최신 VLP(Vision-Language Pretraining)은 웹크롤링한 이미지-텍스트를 이용하지만, 노이즈가 많고, 의미적 일치(alignment)가 떨어짐. 따라서 웹 데이터를 효과적으로 정제하는 방법도 필요함 Method: 1)인코더와 디코더의 기능을.. 2025. 3. 4.
Ordinal crossentropy: IMPROVING DEEP REGRESSION WITH ORDINAL EN-TROPY Motivation컴퓨터비전에서 회귀문제를 분류문제로 변환해서 풀면 성능이 더 좋은 경우가 많음(예, depth estimation)회귀모델의 경우 entropy가 낮은 특징 공간을 학습하는게 문제. 분류의 경우 CE을 주로 사용하는데, CE값이 큰 높은 엔트로피를 학습하게끔 유도됨.하지만, 회귀문제는 MSE을 사용하면서 특징공간이 덜 퍼져있음(low-entropy)아래의 그림 (Figure1)을 보더라도, 특징벡터가 좁게모여있고, [0, 6]사이의 값이 연속적으로 이어지는 순차적인 구조가 이어지져 낮은 엔트로피를 보이는 반면, classification은 많이 퍼져있고 무질서해보이는 높은 포현력(=큰 엔트로피를 보임)  Methodtotal loss: $L_{total} = L_{m} + \lambda.. 2025. 3. 4.
라벨 스무딩(Label smoothing)이 노이즈라벨에 도움이되나? Does label smoothing mitigate label noise? 요약1. 라벨스무딩이 실험적으로 노이즈 기법들과 비슷한 성능을 보임2. 지식증류에서 학습데이터에 노이즈가 포함되어있는 경우에도 향상될 수 있음Lukasik, M., Bhojanapalli, S., Menon, A., & Kumar, S. (2020, November). Does label smoothing mitigate label noise?. In International Conference on Machine Learning (pp. 6448-6458). PMLR. Motivation라벨스무딩은 정답 라벨을 0또는 1로 주는것이 아니라, [0, 1]사이의 값으로 만드는 작업입니다.보통, 라벨스무딩이 정규화작업과 유사하기에(=한 쪽으로 강하게 학습되지 않도록 제어), 일반화 성능이 올라가고 모델 켈리.. 2025. 2. 25.
CSI: Novelty Detection via Contrastive Learning on Distributionally Shifted Instances 요약SimCLR에서는 Instance discrimiation이 학습목적으로 원본이미지를 서로 다른 증강방법을 이용해도, 서로 같은 임베딩이 되게끔 유도한다. CSI은 SimCLR방법과 매우 유사한데, 원본이미지를 증강한 경우만 OOD(Out Of Distribution)으로 학습하는 방법이다. 이미지 증강방법들의 집합 $S:=\{S_{0}, S_{i}, ..., S_{K-1}\}$동일 이미지 반환: $I=S_{0}$ 여러 이미지 증강방법S로부터 하나를 뽑아, 이미지 모든 이미지를 증강하고(원본반환 포함)이를 SimCLR을 돌림. 이 과정을 여러 증강방법에 대해서 반복함. 추가적인 학습 테스크로, 증강된 이미지가, 어떤 증강방법으로 이용되었는지를 분류하는 방법도 진행 최종학습 Objective은 증강에 .. 2024. 12. 10.
MoCo (Momentum Contrast for Unsupervised Visual Representation Learning) PreliminaryPositive sample: Origin이 동일한 이미지(또는 데이터포인트)Negative sample: Origin이 다른 이미지(또는 데이터포인트)Dictionary look-up task: 여기서는 contrastive learning을 의미합니다. Query image에서 하나의 positive이미와 나머지 (N-1)개의 negative이미지와 유사도를 계산하는 과정이기에 k-value와 같은 dictionary구조라고 일컫습니다.InfoNCE: InfoNCE은 미니배치 K+1개에서 1개의 positive sample을 찾는 softmax 함수 + temperature scale추가 Methods: 딕셔너리 사이즈를 키워 negative samples을 포함할 수 있으면 좋은.. 2024. 9. 11.