2. Foundation Models: Definition, Importance, and Technical Foundations
- Phase 1: Inductive learning (manual)
- Phase 2: 자동으로 고수준 특징을 추출하게 됨 (=representation learning)
- Phase 3: 모델이 동질화 되어가는 중 (why? data scale, SSL, Transformer) => 의학분야에 의미있음.
정의: 규모(scale), 자기지도(SSL), 적응성(Adaptability)을 특징으로함.
Table 1.최근 40개의 FM. 초기에는 contrastive learning으로 사용했는데 최근에는 generative architecture로 변화중.
3. Foundation Models Technology
3.1. Modeling
- Function approximation capacity(=표현력): 보편적인 함수 근사가 가능해야(모델 깊이 등을 통해)..
- Scalabiltiy: 매개변수와 학습 데이터가 증가하더라도 안정적인 최적화 성능ㅇ유지해야.
- Multi-modality: 여러 입력의 모달리티의 동시 처리가 가능해야.
- Knowledge storage & retrieval capacity: 사실적지식, 임상지침. 절차적 지식(워크플로) 등의 인코딩이 가능해야
- Transfer learning capcacity: 사전학습이 효과적인 초기화 지점이 되어야. 파인튜닝 효율성, Zero/Few shot 일반화
- Systematic generalization (체계적 일반화):
=> 구성은 1) MSA, 2) Deep + Residual achcitecture 3) Large params, 4) Pre-trainig object
3.2. Training: SSL을 이용. 하지만 아직 Domain completeness, computational efficiency가 아직... 도전과제
3.2.1. SSL and BIO-based Models
3.2.2. Vision transformer: ViT-B~G까지 주로 사용
3.3.3. Hybrid & Multi-Task models. CNN + Transformer 장점을 혼합하는 경우 테스크를 동시학습. (예: Tissue concept)
3.3.4. Multimodal and Vision-Language Integration: 다중염색/다중배율 등이 주로 연구(다중염색=>PathDuet, )
3.3.5. Conclusion and Future Directions: 주요트랜드. 1) Scaling, 2) domain specific adpatation, 3) multi-modal, 4) efficient arhictucture
3.5. Aggregation
- mSTAR
- PathAlign
- PRISM
- Prov-GigaPath
- SlideChat
- CHIEF
- COBRA
- TITAN
3.6. Reusing Attention-based aggregation. Multi-Head ABMIL으로 우수한 성능보임(Madeleine. 2024)
4.평가:
- 내적평가(Intrinsic): 과제랑 상관없이, 모델 자체의 그 기저 능력. 색상/형태, 편향(인구집단), 언어능력. 예시 RankMe
- 외적평가(Extrinsic):: 테스트 특화모델을 평가. 특정테스크에 대한 일반화된 성능을 측
4.1. Adaptation : Prompt, Fine-tuning, Continual learning
4.2. Evaluation of pathology foundation models. 주로 Extrinsic evaludation. few-shot. 등등..