Method
- 모델아키텍처
VLM (Vision Lanuage Model)으로 슬라이드 이미지를 입력으로 레포트를 생성하는 것을 의미합니다 (Figure 2A). 컴포넌트는 2가지입니다. 비젼모델과 언어모델입니다.
- VFM(Vision Foundation model): visual features을 생성합니다. 모델은 CTransPath: Swin transformer로 TCGA, PAIP데이터셋을 SSL로 학습한 모델입니다.
- Lanuage model: Vision feature와 프롬프트을 언어모델에 전달한 결과를 cross-attention을 이용하여 최종 레포트를 내는 모델입니다. model: BioGPT(Auto-regressive generative model의 Transformer중 디코더 파트만)을 사용했습니다.
- Resampler: : 이미지의 일부만 사용하기 위한 장치입니다.
- Cross Attention block: 언어모델의 특징, 프롬프트의 특징을 통합하기 위한 블록입니다.
이미지 전처리
1. 100X 확대에서의 tiling (mpp1) + non overlapping
2. normalization (pytorch preprocessing 하듯)
모델의 학습
1. CTransPath라는 사전학습모델을다시 MIL을 이용해서 재학습시켰다고합니다.
2. CTransPath의 파라미터는 프리징시키고, 언어모델만 파인튜닝합니다.
3. 학습 시 text augmentation을 시킵니다. text augmentation은 GPT-4을 이용해서 paraphrases 시킵니다.
추론
0. 이미지와 프롬프트의 짝을 VLM에 전달합니다.
1. 이미지를 타일링합니다(tessellation)
2. 비전모델(CTransPath)에 포워딩합니다
3. 이미지 피쳐중에서 일부만 샘플링합니다(Perceiver resampler)
4. 프롬프트는 토큰화되서 언어모델에 전달됩니다.
5. 언어모델의크로스 어텐션블록에서 통합합니다.
Perceiver resampler라는 샘플링 방법을 썼다고합니다.
6. Ensemble refinemnet: 여러개의 pathology report을 생성하게하고, GPT4 모듈을 이용하여 합치도록 합니다.
실험
- 데이터셋: 13,000 WSI을 학습(출간시 데이터 공개, 10TB)
- 벤치마크모델: BioGPT-1B(Text only), GPT-4V(Vision only), Lower baseline(랜덤으로 선택된 병리보고서), Upper baseline(같은 진단명을 가진 두 병리 보고서선택)
- Metrics:
1) 중요한 단어의 매칭
2) 중요한 텀의 매칭(키워드 추출임. ScispCy, NER tool임)
3) BioBERT에서 유사도 확인: cosine similarity
4) GPT-3-ADA을 이용한 유사도 확인
결과
Figure 4: 유사도도 꽤나 성능 좋음
A. 프롬프트 및 이미지를 이용한 포워딩 방법 예시
B. 기존방법론과의 비교: 텍스트 전체를 예측하는 것이어서 좀 어려운 것 같음
C. 프롬프트로만 예측한 분류성능
D. 내부 데이터셋의 데이터분포
E. Accuacy 상에서(회색) MIL이 더 잘맞추긴하지만 HistoGPT1B도 잘맞춤. (GPT-3B은의외로 언더퍼폼)
F. 유사도는 전반적으로 ER모델이 잘맞춤.
Figure 5: Zeroshot으로 tickness도 잘맞춤
A. 예측된 tumor tickness랑 regression했을때도 상관있게 나옴.
B. 예측된 tumor tickness랑 regression했을때도 상관있게 나옴. 몇몇 셋은 좀 틀렸는데 알고보니 단위가 달랐음
C. Figure 5B의 플롯팅(attention map)
D. External validatrion set에서의 예측. 슬라이드레벨은 잘맞추는데, 패치수준에서는 못맞추는듯.
E. 암종의 침윤에 따라, Gradient attention map확인
반응형