Digital pathology

[5분 컷 리뷰] Improving quality control in the routine practice for histopathological interpretation of gastrointestinal endoscopic biopsies using artificial intelligence

연금(Pension)술사 2024. 1. 6. 19:39

요약

소화기(GI track)를 내시경(EGD, Colonoscopy)으로 검사할 때, 대장내시경과 위내시경을 진행합니다. 대장내시경과 위내시경시에 용종 등이 있으면 생검(bx)을 진행하고, 이를 병리검사합니다. 본 논문에서는 생검이후에 병리검사에서의 오류가 있을 수 있는 내용들을 QC하기위해 인공지능을 사용합니다. 매일 분석을 진행하고 분석결과중 인공지능이 예측한 결과랑 판독의가 제시한결과가 다를 경우 리뷰를 다시 진행합니다, 이 논문은 이 방법론을 적용하고 약 3개월간의 내용입니다. 약 7-10배로 슬라이드 조직 판독리뷰가 빨라졌으며, AI로 더블체크를 진행했습니다. 그리고, 인공지능을 도입한 이후 종전대비 휴면에러는 1.2일당 17배의 휴먼에러가 더 많이 검출되었다고 합니다. 

 

Preliminary


- Reference laboratory(위탁검사 실험실): 타 기관으로부터 검사를 받는 위탁 검사실을 의미합니다. 여기서 Reference 은 "참조"가 아닌 수탁/위탁 등을 의미합니다, 예, 전원오거나 가는것도 refer라합니다.

- 씨잰의료재단은 수술로 절제한 검체를 받는 것이 아닌, 내시경 검사등으로 얻어낸 생검(biopsy)을 주로 위탁받습니다. 이런 위탁은 검사실이 없는 1,2차의료병원으로부터 받습니다.

 

Introduction


한국에서는 모든 종류의 암으로 사망하는 사람들 중, 대장암으로 인한 사망이 3위(11.0%), 위암으로 인한 사망이 4위(9.8%)정도 됩니다. 한국에서 이를 위한 스크리닝 검사로 위내시경, 대장내시경을 진행합니다(이를 통틀어 GI endoscopy라고 부름). 그리고, 대장내시경 할때 대부분 용종등이 발견되면, 생검(biopsy, bx)을 하게됩니다. 생검결과는 실험실이 있는 경우 직접이 시행하게되고, 실험실이 없는 경우는 위탁을 하게됩니다. 문제는 위탁을 보낸후, 수탁을 받는 쪽에서서 Human error가 발생할 수 있다는 점입니다. 이런 생검결과는 조직검사(Histopathology)을 하게되는데 이 검사 특성상, 확증적인 진단의 수단이됩니다. 혹시나 발생하는 False negative가 환자의 치료를 놓치는 큰 비용이될 수 있다는 것입니다. 

 

 보통 이런 휴먼에러를 줄이기위해서, 실험실에서는 QC(Quality control)을 자체적으로 진행하는데요. 병리과 선생님당 랜덤으로 몇명씩 샘플을 랜덤으로 뽑아서 리뷰한다거나 하는 식입니다. 근데 이 마저도 꽤 부담이됩니다. 그래서 AI을 이용한 QC을 이용하고자합니다. AI을 이용한 QC방법은 3가지 제한사항이 있는데요.

  1. 첫 째는, 이러한 AI driven QC은 실제로 한다 하더라도, 완전히 병리과정을 대체할 수 없긴합니다. 예를 들어, 위암의 리스크라고 여겨지는 Helicobacter pylori등도 캡쳐가 되어야하는데, 이런건 잡기는 어렵습니다. 또는 위암의 분류는 USS(Updated sydney system)등의 기준에 따라 분류해서 레포트해줘야하는데 이런 검출/분류도 생각보다 쉽지않습니다.
  2. 둘 째는 조직병리 판독 프로세스를 변경해야하는 비용입니다. 대부분에 실험실에서는 조직병리 판독(interpretation)이후에 슬라이드를 스캔하는 형식입니다. 슬라이드를 스캔해야 어찌되었든 이미지를 디지털로 뜰 수 있기에, 이런 프로세스는 병원에서 변경하기가 꽤 비용이 됩니다. 마지막인 세번째는, AI을 이용한 판독자체가 판독자에게 편향을 줄 수 있기 때문입니다. 

그래서, 이 연구는 실증적으로 위의사항을 고려하여 AI driven QC방법론이 실제로 휴먼에러를 더 줄 수 있는지에 대한 연구입니다. 

 

방법론: AI Pipeline


이 연구는 기존에 진단된 조직병리 검사결과를 다시 라벨링하는것부터 시작합니다. 인공지능의 개발과정을 포함해서 총 1,762의 위암생검, 1,509의 대장암생성의 WSI을 가져와서 Training/Validation/Test로 나누었습니다. 그리고나서, 5명의 병리학자들이 기존 진단결과를 리뷰하고 다시 라벨링하는 과정을 거쳤습니다. 그리고 각 슬라이드를 Malignant, Dysplasia, negative for dysplaisa, Uncategorized(그외)로 4가지로 분류했습니다. 실제로는 U은 실무적으로 의미가 없기에 U을 제외한 3종의 분류기를 만들었습니다.

 

그리고 아래의 이미지에 따라 데이터를 처리합니다.

  1. 데이터 파이프라인: MRSX format으로 저장하고, Openlibary으로 핸들링. Openlibary을 이용해서 패치단위(256x256)으로 나눔.**
  2. Annotation: WSI에서 negative 이미지는 따로 Annotation할게 없으니까 그냥 패치로 만들고, Dysplasia랑 malignant만 병변위치까지 Annotation합니다.
  3. 패치 분류기(patch classifier) 학습: DenseNet201로 학습. M, D, N의 분류. WSI classifier의 일부 요소로 사용. + UI제공 목적
  4. WSI 분류기 학습: Patch classifier의 결과를 다시 pooling하는 MIL을 진행한듯(patch classifier의 결과를 사용) + 위치정보를 인댁싱하여 MIL진행하고 결과를 UI에 뿌림. 이 결과도 DenseNet201로 만듬.
  5. 뷰어 개발(SeeDP): Openslide libary OpenSeadragon 3.0.0. 히트맵과 예측결과를 알려줌. (히트맵은 gradient based XAI방법 중 하나를 사용한것같내요)

*MRXS format: multi-file with very complicated proprietary metadata and indexes (https://openslide.org/formats/mirax/

** 패치크기를 키우면 성능엔 도움이 될 수 있지만, UI상으로 그래도 꽤 큰 이미지이게 병변을 확인하긴 어려울 수 있음.

 

데이터 플로우 및 히트맵 예시

 

방법론: QC방법


  1. 단계1: 병리학자가 조직병리를 판독합니다. 이 과정에서는 이 병리이미지가 어느 장기의 검체인지는 모르고, 접수번호만부여받습니다.
  2. 단계2: 3D HISTECH Scanner로  WSI을 스캔하고, MRXS파일을 생성하여 특정 디렉토리에 저장합니다. (아마 메시징 큐역할로) Auto File Watcher 가 MRXS의 생성을 감지하고 복본을 따로 저장합니다. 그리고 SeeDP가 이를 병리번호를 부여하고 저장합니다. 그리고, 레포트의 검체정보의 해더에 있는 키워드에 따라서 인공지능 모델에 요청을 보냅니다(예, GC은 stomach, esopga~, gastro~, CRC은: leum, illeocecal, Cecum같은 해부학적명칭). 요청받은 인공지능 모델은 WSI file을 읽어서 패치 수준, 슬라이드 수준으로 예측하고 이 결과를 DB에 저장합니다. 
  3. 단계3: SeeDP 프로그램에서 판독결과와 예측결과가 일치하는지를 체크하고 다음날에 볼 수 있도록 준비합니다.

 

결과: Daily QC전의 검증, daily QC의 검증


QC운영전의 검증테스트: 실험수준의 결과로는 위암과 대장암에서의 약 96.0%와 95.8% Validation결과를 얻었습니다. 한편. 실제로 도입하기전에 Inhouse dataset으로도 검증도 했습니다. 사전검사(Pre-test)셋을 따로 구축해서 319셋의 대장암, 419셋의 위암데이터셋을 구축했습니다. 이 데이터셋 비율은 임상에서 실무적으로 얻어지는 비율과 동일하게 셋팅했습니다. 이 데이터셋에서도 93.08%, 95.30%의 정확도를 보였습니다. 

 

Daily QC의 검증: 서두에서 얘기했듯이 약 3개월간의 기간동안 전향적으로 연구한 결과를 제시했습니다. 3개월동안에 WSI 분류 성능(정확도)은 약 90.29%로 보였습니다. 이런 인공지능을 이용한 진단보조에서는 False negative가 상당히 중요한데 이 언급도 있습니다. NPV(Negative predictive value, negative로 예측했던 결과중에 실제 negative비율)은 97.20%을 보였습니다. 아마 Threshold을 느슨하게 잡았어도 이 정도 오차를 보일 수 있는데 개선여지가 아직 남은듯합니다. 특히 진짜 FN인경우 CRC에서 한 케이스를 보였습니다. 

 

실제 이 인공지능 모델로 QC을 세달간진행하고, 인공지능QC전 약 33개월의 결과를 함께보여주었습니다. 33개월동안 GC은 5,789의 슬라이드를 봤고, 이는 랜덤샘플한 결과입니다 (약 160.8슬라이드/한달 정도겠구요). 이 경우는 병리판독의의 18개의 불일치를 결과를 보였구요. 이중 16개 케이스는 약간차이나는정도, 2건은 중간정도 판독차이가 있었습니다. 아마 계속 QC해왔던 기관이라 에러율은 딱히없어보였습니다. 한편, 3개월동안의 SeeDP을 용한 QC을 진행한 경우, 3arm 으로 1) 랜덤리뷰, 2)AI +병리과전문의 3) AI only로 각각 평가했습니다. AI +병리과전문의로 오류케이스를 잡는 경우는 1.2일정도 걸렸고, 이를 교정하는데 3.4일내에 끝났습니다. 한편, 원래 프로세스에서는 40.2일이 걸렸습니다. 이는 상당한 생산성향상을 보여줍니다. 더 많은 오류검출과 빠른 엑션이 가능함을 결과로 제시했습니다.

 

결론


1. 실제 임상프로세스에 도입하기 위해서는 임상프로세스의 과정을 크게 바꾸지 않으면서 도입이 필요한데, 큰 변경사항없이 이 과정을 수행했습니다.

2. 연구에서 보여준 것처럼 AI driven QC프로세스는 오검사로 일어날 위협으로 환자안전에 도움을 줄 수 있습니다. 특히, QC 방법으로 인공지능결과와 불일치결과를 확인하면서, 1-2달 걸리던 오진을 빠르게 교정하고 의뢰인(의사)에게 오류없이 알려줄 수 있습니다.

반응형