Best Paper review/Computer vision10 해석: End-to-End Multi-Task Learning with Attention 하나의 네트워크로 이미지의 공동 특징을 추출하고, 각 테스크별로 soft-attention module을 적용한 논문Liu, S., Johns, E., & Davison, A. J. (2019). End-to-end multi-task learning with attention. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 1871-1880). Motivation멀티테스크 학습에서는 공통표현(Shared representation)을 학습하는데 있어서 다음의 2가지 요소가 도전과제:네트워크 아키텍처 문제(어떻게 공통특징을 추출할 것인가?): 공통표현에서 각 테스크별로 공유되는 특징 뿐만아니.. 2025. 3. 17. [5분 컷 리뷰] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Motivation기존 Vision-Language model의 한계: VLM모델들은 특정 테스크 중심으로 강점을 보이는 경우가 많았음. 예를 들어, 이미지에 대한 캡션 생성(image-to-text generation) 또는 택스트 기반의 이미지 이해(text-conditioned image understanding)에 따로따로 최적화 되어있는 경우가 많음. 즉, 하나의 모델이 이해와 생성을 동시에 수행하는 프레임워크가 필요함데이터 관점의 한계: 최신 VLP(Vision-Language Pretraining)은 웹크롤링한 이미지-텍스트를 이용하지만, 노이즈가 많고, 의미적 일치(alignment)가 떨어짐. 따라서 웹 데이터를 효과적으로 정제하는 방법도 필요함 Method: 1)인코더와 디코더의 기능을.. 2025. 3. 4. MoCo (Momentum Contrast for Unsupervised Visual Representation Learning) PreliminaryPositive sample: Origin이 동일한 이미지(또는 데이터포인트)Negative sample: Origin이 다른 이미지(또는 데이터포인트)Dictionary look-up task: 여기서는 contrastive learning을 의미합니다. Query image에서 하나의 positive이미와 나머지 (N-1)개의 negative이미지와 유사도를 계산하는 과정이기에 k-value와 같은 dictionary구조라고 일컫습니다.InfoNCE: InfoNCE은 미니배치 K+1개에서 1개의 positive sample을 찾는 softmax 함수 + temperature scale추가 Methods: 딕셔너리 사이즈를 키워 negative samples을 포함할 수 있으면 좋은.. 2024. 9. 11. [5분 컷 리뷰] MiT(Mixed Vision Transformer). SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers Motivation최근 연구들은 언어모델을 차용하여 비전문제를 풀려는 아키텍처가 많이 발표되고 있으며, 대표적으로 ViT(Vision Transformer)가 있습니다.(2021년 당시) Vision Transformer을 기반으로한 모델들은 ViT을 인코더 백본으로 특징을 뽑고, CNN을 여러겹 적용하여 decoders로 하여 꽤 좋은 성능을 보여주었습니다.위의 아키텍처는 아래의 2문제가 있어, Segformer가 해결하고자 했던 것 입니다.Single scale low-resolution: 하나의 스케일의 feature만 사용된다는 것입니다. 인코더에서 이미지를 특징화하고, 디코더에서 하나의 입력스케일만 입력받습니다.Computational cost: 이미지가 클수록 계산량이 많다는 것입니다. 특히,.. 2024. 8. 12. [5분 컷 리뷰] DINO v2: Learning Robust Visual Features without Supervision 요약iBOT(masked image modeling)과 DINO(knowledge distillation with no label)방법을 혼합한 방법 Transactions on Machine Learning Research (01/2024) Data processing: LVD-142M dataset의 생성과정많은 양의 데이터 학습을 위해, 데이터 처리방식을 1) 라벨, 비라벨 이미지 수집, 2) 중복이미지 제거, 3) 이미지 검색데이터 수집: 데이터 수집은 라벨링된 데이터와 라벨링 안된 데이터 크게 2가지의 데이터셋을 구축했습니다. 라벨링 된 데이터는 classifcation, segmentation, depth estimation 등의 다양한 문제에 사용되는 공공데이터를 수집했습니다. 다른 한편으로.. 2024. 5. 24. [5분 컷 리뷰] DINO: Emerging Properties in Self-Supervised Vision Transformers IntroductionNLP분야에서는 masked language라는 사전학습 전략으로 Transformer가 매우 인기를 끌었습니다. 반면, 비전테스크에서는 CNN의 대안으로 ViT가 쓰이는 것 같지만, 아직까지는 계산비용도 크고, 데이터도 많이필요해서 큰 이점을 못 얻고 있었습니다. 이 논문은 자기지도학습(Self-supervised learning)이라는 사전학습을 방법론을 이용해서, 비전테스크에서도 성공적인 사전학습을 할 수 있을지, 그리고 그 방법을 제시합니다. 언어문제에서는 self-supervised learning의 pretext task로 masked language 을 진행합니다. 반면, 이미지 분류문제에서는 풍부한 이미지의 정보(예, 형태, 컬러 등)이 이미지에 포함되어 있습니다. 그.. 2024. 4. 25. 이전 1 2 다음