본문 바로가기

segformer 리뷰1

[5분 컷 리뷰] MiT(Mixed Vision Transformer). SegFormer: Simple and Efﬁcient Design for SemanticSegmentation with Transformers Motivation최근 연구들은 언어모델을 차용하여 비전문제를 풀려는 아키텍처가 많이 발표되고 있으며, 대표적으로 ViT(Vision Transformer)가 있습니다.(2021년 당시) Vision Transformer을 기반으로한 모델들은 ViT을 인코더 백본으로 특징을 뽑고, CNN을 여러겹 적용하여 decoders로 하여 꽤 좋은 성능을 보여주었습니다.위의 아키텍처는 아래의 2문제가 있어, Segformer가 해결하고자 했던 것 입니다.Single scale low-resolution: 하나의 스케일의 feature만 사용된다는 것입니다. 인코더에서 이미지를 특징화하고, 디코더에서 하나의 입력스케일만 입력받습니다.Computational cost: 이미지가 클수록 계산량이 많다는 것입니다. 특히,.. 2024. 8. 12.

이전 1 다음

티스토리툴바