PathGen-1.6M

Motivation

데이터 구성

큰 구성은 1)Agent Model 준비과 2) 데이터구성 파이프라인으로 나뉨

Agent model생성하기: 3개의 Agent을 생

PathGen-CLIP-L: 문제점(병리트고하된 모델이 아님)
1. PathCAP, Quilt-1M, OpenPath 데이터를 합쳐서 700K의 이미지의 데이터셋을 구성
2. CLIP을 이용해서 병리에 특화된 CLIP모델을 생성.
Description LLM Agent: 기존문제점(기존 캡셔닝은 너무 단순한 수준) -> 방법: GPT-4V에 이미지와 캡션을 전달하여, 원본 캡션을 더 정확하게 표현할 수 있도록 함. (LLaVA은 isntruction-following 성질이라 설명을 잘만듬)
1. Dataset: Image-caption 10,000장을 얻음(PathCap, OpenPath, Quilt-1M)
2. Caption 증강: 1.의 데이터셋을 이용해서 GPT4V에 넣어 증강 + 명세.
3. LLaVA-v1.5-13B모델의 visual encoder을 PathGen-CLIP-L-init으로 교체
Revised LLM Agent:문제점(다지선다, QA은 잘하는데 self-correction은 안됨)
1. 데이터생성: Description LLM Agent가 설명을 생성 -> GPT4을이용해서 인위적인 오류 생성
2. Revised LLM Agent 훈련: 입력:오류+오류카테고리, 출력: 오류교정 문
Summarize Agent: 문제점(token 77개까지만 CLIP에서 받음)
1. 데이터생성: GPT4에 description을 생성해서 요약해달라고함. (유료여서 그랬을듯..)
2. Llama-2: 학습

Dataset 구성하기

결과

Controllable Latent Space Augmentation for Digital Pathology (0)	2025.09.16
ReMix: A General and EﬃcientFramework for Multiple InstanceLearning Based Whole Slide ImageClassiﬁcation (0)	2025.09.04
Yottixel, SISH, RCCNet (3)	2025.07.23
Similar image search for histopathology: SMILY (1)	2025.07.21
Cellpose: a generalist algorithm for cellular segmentation (1)	2025.06.25

연금술사