최신연구결과(해외)

General studyA novel endoscopic artificial intelligence system to assist in the diagnosis of autoimmune gastritis: a multicenter study

관리자
2025-04-25
조회수 74

Chen S, Xu L, Yan L, Zhang J, Zhou X, Wang J, Yan T, Wang J, He X, Ma H, Zhang X, Zhu S, Zhang Y, Xu C, Gao J, Ji X, Bai D, Chen Y, Chen H, Ke Y, Li L, Yu C, Mao X, Li T, Chen Y.

Endoscopy. 2025 Apr;57(4):299-309. doi: 10.1055/a-2451-3071.

 

INTRODUCTION

자가면역성 위염(AIG; type A 위염 또는 자가면역 위축성 위염이라고도 함)은 자가면역에 의해 발생하는 만성 위축성 위염(CAG)으로, Helicobacter pylori 관련 위축성 위염(HpAG)과는 역학, 발병기전, 임상 양상, 치료, 그리고 질병 예후에 이르기까지 여러 면에서 차이를 보입니다 [1–3]. 이전의 연구들과 임상적 관심은 대부분 HpAG에 집중되어 있었으며, 이는 전 세계적으로 가장 흔한 형태의 CAG로 여겨졌고, 진단 및 치료에 대한 국제적인 합의도 확립되어 있었습니다 [4, 5]. 반면, AIG소화기내과 의사들의 낮은 인지도특이한 임상 증상의 부재로 인해 자주 진단되지 않으며, 이로 인해 진단 지연이 빈번히 발생합니다 [6, 7].

그러나 AIG는 진행성 질환으로, 생명을 위협할 수 있는 합병증비타민 B12 결핍성 빈혈(악성빈혈), 비타민 B12 신경병증, 그리고 위 신경내분비종양 발생 위험 증가와 같은 문제를 일으킬 수 있습니다 [8–10]. 따라서 AIG의 조기 진단을 위한 고도화된 기술 개발이 매우 중요합니다.

AIG의 진단은 도전적이며, 혈청학적 검사, 내시경 소견, 조직병리학적 평가를 종합적으로 고려한 접근이 필요합니다 [10–12]. 식도위십이지장내시경(EGD), 특히 백색광 내시경은 AIG 진단을 위한 가장 일반적인 1차 진단 도구입니다 [13]. AIG의 특징적인 내시경 소견으로는 체부 위축이 우세하며, 끈적이고 점성이 높은 점액잔존 벽세포 점막(oxyntic mucosa)의 존재가 포함됩니다 [10]. EGD 중에는 진단 확정을 위해 위 생검이 수행됩니다.

그러나 EGD검사자 간 해석 차이로 인한 민감도와 특이도의 불일치로 인해 진단 도구로서의 한계를 지닙니다 [3]. 또한, 다양한 CAG 아형들 간의 구분 역시 내시경 평가에서의 또 다른 과제로 작용합니다. 이론적으로 AIG는 체부 위축이 우세한 반면, HpAG는 점차적으로 진행되는 전정부 위축을 특징으로 하지만, 일부 사례에서는 점막 변화가 미세하여 AIG와 HpAG의 구분이 어려운 경우도 있습니다 [14]. 따라서 AIG와 HpAG를 정확히 구분할 수 있도록 내시경 평가를 강화할 수 있는 새로운 효과적인 기술에 대한 연구가 시급합니다.

최근 인공지능(AI), 특히 컴퓨터 비전 분야의 딥러닝 기술이 빠르게 발전하면서, 내시경 영상에서 정보를 추출하고 이를 기반으로 자동 진단 및 분류를 제공할 수 있는 AI 시스템 개발이 가능해졌습니다 [15]. 최근 메타분석에 따르면, AI 모델은 일반적인 CAG 진단에 있어 내시경 하에서 민감도 94%의 우수한 성능을 보여주었습니다 [16]. 그러나, 내시경 하에서의 특정 CAG 아형, 특히 AIG 진단과 HpAG 및 비위축성 위염(NAG)과의 감별 진단에 관한 문헌은 매우 부족한 상황입니다.

더불어, 의료 분야에서는 해석 가능한 AI 시스템에 대한 관심이 커지고 있습니다. AI 시스템의 투명성을 높이기 위해서는, 모델 학습 이후 단계에서 알고리즘 설명력을 높이는 방법(post-modeling)뿐만 아니라, 초기부터 의학적 지식을 통합하는 방식(ante-modeling)을 도입하여 의료 설명력을 제고하는 것이 중요합니다 [17].

본 연구에서는 내시경 검사(EGD) 중 사용할 수 있는 설명 가능하고 시각적으로 일관된 새로운 AI 보조 내시경 시스템을 개발하고자 하였습니다. 연구 목적은 두 가지로, 1) AIG의 진단을 용이하게 하고, 2) AIG와 비-AIG(HpAG 및 NAG) 간 감별 진단 능력을 향상시키며, 동시에 AIG, HpAG, NAG 등 다양한 형태의 위염을 분류할 수 있는 일반화된 시스템을 구축하는 것입니다.


METHODS

이 연구는 헬싱키 선언(Declaration of Helsinki) 및 개별 예후 또는 진단을 위한 다변량 예측 모델의 투명한 보고 지침(TRIPOD) + AI 성명서를 준수하여 수행되었습니다. 연구 계획은 저장대학교 의과대학 제1부속병원 임상연구윤리위원회의 승인을 받았으며(승인번호: 2023–0872), 참여한 다른 기관들에서도 동의하였습니다.

Patients

이 다기관 후향적 코호트 연구는 2019년 1월부터 2023년 9월 사이에 식도위십이지장내시경(EGD)을 시행받고 자가면역성 위염(AIG), 헬리코박터 파일로리 관련 위염(HpAG), 또는 비위축성 위염(NAG)으로 진단된 18세 이상의 환자를 대상으로 하였으며, 연구는 중국의 6개 3차 의료기관에서 수행되었습니다. 참여 기관은 저장대학교 의과대학 제1부속병원(센터 1), 타이저우 병원(센터 2), 자싱대학교 제2병원(센터 3), 저우산 제3인민병원(센터 4), 저장중의약대학교 제3부속병원(센터 5), 위항 제1인민병원(센터 6)이었습니다. 모든 환자에게서 인구학적 정보, 과거 병력, 혈청학적 검사 결과, 조직병리학 결과, 백색광 내시경 영상이 수집되었습니다.

AIG의 포함 기준은 국제적 합의 및 권위 있는 선행 연구를 바탕으로 설정되었습니다 [1, 18]:

  1. 벽세포 항체 및/또는 내인자 항체에 대한 혈청검사에서 양성인 임상 증후군이 있을 것,

  2. 전정부는 보존되고 활동성 헬리코박터 파일로리 감염이 없는 상태에서, 벽세포 점막(oxyntic mucosa)의 어떤 등급의 위축이라도 존재하는 조직병리학적 소견이 있을 것.

HpAG의 포함 기준은 다음과 같습니다:

  1. 항-헬리코박터 파일로리 항체 양성의 혈청학적 증거 및/또는 헬리코박터의 존재에 대한 조직병리학적 증거,

  2. 위축성 변화에 대한 조직병리학적 확진.

NAG(비위축성 위염 및 비위염 포함)의 포함 기준위축 소견이 없거나 위염 소견이 없는 것으로 확인된 조직병리학 결과에 기반하였습니다.

다음에 해당하는 환자는 연구에서 제외되었습니다:

  1. 초점 불일치, 적절하지 않은 공기 주입, 영상 흐림 등으로 인해 이미지 품질이 낮은 경우,

  2. 식도 또는 위의 악성 종양 병력이 있는 경우.

모든 사례는 EGD 경력이 20년 이상인 전문 내시경의 2인이 각각 평가하였으며, 위장 질환에 대한 10년 이상의 경험을 가진 병리학자가 조직병리학적 결과를 재검토하였습니다.

Allocation of datasets 

각 코호트의 환자에 대해 내시경 전문의가 촬영한 백색광 이미지 데이터셋이 추출되었습니다. 이미지 데이터셋이 포함된 환자들의 분포▶표 1에 자세히 나와 있습니다. 본 연구에서는 다음과 같은 네 가지 이미지 데이터셋이 할당되었습니다:

  1. 학습 및 검증용 데이터셋,

  2. 내부 테스트용 데이터셋,

  3. 외부 테스트용 데이터셋,

  4. 내시경의 대상 온라인 테스트용 데이터셋.

학습 및 검증 데이터셋내부 테스트 데이터셋은 모두 센터 1(저장대학교 제1부속병원)에서만 수집되었으며, 외부 테스트 데이터셋센터 2~6에서 독립적으로 수집되었습니다. AI 보조 시스템 개발을 위한 준비 과정에서, 학습 및 검증 데이터셋은 모델의 신뢰성을 확보하기 위해 4:1 비율로 나누어 5배 교차 검증(fivefold cross-validation)에 사용되었습니다. 내부 테스트 데이터셋외부 테스트 데이터셋AI 보조 시스템의 성능 평가에 사용되었습니다.

내시경의 대상 온라인 테스트용 데이터셋AIG, HpAG, NAG 각각 30건씩 총 90개의 EGD 이미지 데이터셋으로 구성되었으며, 이는 내부 및 외부 테스트 데이터셋에서 비율에 맞게 무작위로 수집되었습니다. 데이터셋 할당은 개별 이미지가 아닌 환자 단위로 이루어졌으며, 동일 환자의 이미지는 서로 다른 데이터셋에 분할되지 않았습니다.

Development of the AI-assisted system 

Multi-site feature fusion model

개발 절차는 ▶그림 1에 나타난 바와 같이 총 다섯 단계로 구성되었습니다: 이미지 전처리, 위 부위 분류, 단일 부위 특성 추출, 다부위 특성 융합 및 분류, 그리고 진단 예측.

Fig. 1 The development of the artificial intelligence system using convolutional neural network-based models for endoscopic diagnosis of autoimmune gastritis. AIG, autoimmune gastritis; HpAG, Helicobacter pylori-associated atrophic gastritis; NAG, nonatrophic gastritis; O-corpus, overturned corpus. 

Image preprocessing

이 단계에서는 데이터를 준비하기 위해 여러 절차가 수행되었습니다(▶그림 1a).
우선, 이미지 주변의 검은 테두리를 제거하고 이미지를 256 × 256 픽셀로 크기 조정한 뒤, 중심부의 224 × 224 픽셀을 잘라내어 합성곱 신경망(CNN) 모델의 입력 크기에 맞추었습니다. 이미지 색상을 표준화하기 위해 픽셀 정규화가 적용되었습니다. 모델의 일반화 성능을 향상시키기 위해 학습 과정에서는 무작위 자르기(random cropping), 반전(flip), 회전(rotation), 색상 왜곡(color jitter), 아핀 변환(affine transformation) 등의 데이터 증강 기법이 활용되었습니다. 위축성 위염(CAG)은 확산성 병변으로 나타나므로, 위축 부위를 별도로 표시하지 않고 전체 이미지를 그대로 학습 및 테스트에 사용하였습니다. 이와 같은 추가 정보는 시스템의 성능 향상에 도움이 될 수 있기 때문입니다.

Gastric site categorization

이 단계에서는 이미지 분류 작업에서 깊이, 잔차 연결(residual connection), 그리고 높은 성능으로 잘 알려진 심층 학습 합성곱 신경망(CNN) ResNet-101(파이토치 PyTorch로 구현됨)을 선택하였으며, 모델 개발 및 실행을 위해 적절한 프로그래밍 언어인 파이썬 3.9(Python Software Foundation, Wilmington, Delaware, USA)를 사용하였습니다 [19].

일반적인 EGD 검사 과정, 위축성 위염(CAG)의 분류에 대한 전문가 합의 [20–22], 그리고 AIG에 대한 권위 있는 선행 연구 [1, 11, 23]를 종합하여, 위 내시경 이미지를 다음 다섯 부위로 분류하였습니다(▶그림 1b):

  1. 체부(corpus),

  2. 반전된 체부(overturned corpus, O-corpus),

  3. 기저부(fundus),

  4. 각부(angle),

  5. 전정부(antrum).

이러한 부위 구분은 AIG, HpAG, NAG의 내시경적 특징을 종합적으로 반영하기 위한 것이었습니다.

Feature extraction, fusion, and diagnosis prediction

단일 부위 특성 추출 단계(▶그림 1c)에서는 각 위장 부위로부터의 특성이 ResNet-101 모델을 사용해 자동으로 추출되었습니다. 각 모델은 해당 부위의 이미지에 대해 개별적으로 학습되었으며, 특성 추출을 위해 완전 연결 계층(fully connected layers)은 제거하고 합성곱 계층(convolutional layers)만 유지하였습니다.

다중 특성 융합 및 분류 단계(▶그림 1d)에서는, 다섯 개 위장 부위에서 추출된 특성을 하나로 연결(concatenate)하여 더 큰 완전 연결 계층을 통해 융합하고 추가 분석 및 분류를 수행하였습니다.

마지막으로, AI 모델은 각 위염 유형에 대한 진단 예측과 그에 따른 확률을 제시하였으며(▶그림 1e), 가장 높은 확률 점수를 가진 위축성 위염(CAG) 아형을 내시경 소견에 따른 권장 진단으로 제시하였습니다.

Online testing system for endoscopists

내시경에서 내시경의AI 시스템의 진단 성능을 비교하기 위해 온라인 테스트 시스템이 개발되었습니다. 온라인 테스트에 대한 안내 영상은 ▶비디오 2에 제시되어 있습니다.

이번 평가에는 내시경 경험이 10년 이상이고 5,000건 이상의 EGD 시술 경험이 있는 전문가 내시경의 5명과, EGD 경험이 5년 미만이며 1,000건 미만의 시술 경험이 있는 비전문가 내시경의 5명이 참여하였습니다. 내시경의들은 온라인 테스트 시스템에서 AI의 도움 없이 초기 진단을 먼저 내린 후, AI의 지원을 받은 상태에서 최종 진단을 제시해야 했습니다. AI 지원 전후의 개별 진단 데이터가 추출되어 분석에 사용되었습니다.

Outcomes

본 연구의 일차 결과(primary outcome)AIG 진단에서의 AI 성능AIG와 비-AIG(HpAG 및 NAG)를 구분하는 데 있어 AI의 성능이었습니다. 이차 결과(secondary outcomes)로는 HpAG 및 NAG 진단에서의 AI 성능, 서로 다른 수준의 숙련도를 가진 내시경의와 비교한 AI의 성능, 그리고 AI 지원 유무에 따른 내시경의의 진단 성능이 포함되었습니다.

Explainability of the AI system: heatmap analysis 

AI 시스템의 예측을 설명하기 위해, 우리는 Gradient-weighted Class Activation Map (Grad-CAM)을 사용하여 히트맵을 생성하였습니다. 이 히트맵은 모델의 마지막 합성곱 계층이 예측을 생성하는 데 사용한 이미지의 영역을 강조하여 시각화해 줍니다 [24]. 모든 히트맵은 숙련된 내시경의들이 검토하고 해석하였습니다.

Statistical analysis

AI 시스템의 성능정확도(accuracy), 민감도(sensitivity), 특이도(specificity), 양성 예측도(positive predictive value), 음성 예측도(negative predictive value)95% 신뢰구간(95% CI)을 이용해 검증되었습니다. 이러한 성능 지표들의 95% 신뢰구간은 Clopper–Pearson 방법을 사용하여 계산하였습니다. AI 성능을 평가하기 위해 수신자 조작 특성 곡선(ROC) 분석이 수행되었고, ROC 곡선 아래 면적(AUROC)과 표준편차(SD)scikit-learn 패키지(버전 1.2.2; scikit-learn.org)를 사용하여 계산되었습니다. 또한, AI 시스템의 성능서로 다른 수준의 경험을 가진 내시경의들과 비교하거나, AI 지원 유무에 따른 내시경의 성능을 비교하기 위해 유의수준 0.05의 양측 Mann–Whitney U 검정Clopper–Pearson 방법으로 계산된 95% 신뢰구간을 함께 사용하였습니다. 모든 통계 분석은 파이썬(버전 3.9)을 사용하여 수행되었으며, ROC 곡선은 matplotlib 패키지(버전 3.8.0; matplotlib.org)를 이용해 시각화되었습니다.


RESULTS

Patient cohort 

이 다기관 후향적 연구 코호트에는 총 1,070명의 환자로부터 수집된 18,828장의 백색광 내시경 이미지가 포함되었습니다. 이 중 자가면역성 위염(AIG) 환자는 294명, 헬리코박터 파일로리 관련 위축성 위염(HpAG) 환자는 386명, 비위축성 위염(NAG) 환자는 390명이었습니다.

총 1,070명의 환자 중 688명(이 중 AIG 181명, HpAG 252명, NAG 255명)학습 및 검증 데이터셋에 할당되었습니다. 내부 테스트 데이터셋은 센터 1에서 수집된 149명의 환자(AIG 39명, HpAG 55명, NAG 55명)로 구성되었고, 외부 테스트 데이터셋은 센터 2~6에서 수집된 233명의 환자(AIG 74명, HpAG 79명, NAG 80명)로 구성되었습니다.

내시경의 테스트용 데이터셋내부 및 외부 테스트 데이터셋에서 무작위 및 비율에 따라 선택된 총 90명의 환자(AIG 30명, HpAG 30명, NAG 30명)로 구성되었습니다. 기본 특성은 ▶표 1에, 연구 흐름도는 온라인 보조자료의 그림 1s에 제시되어 있습니다.

Fig. 1s Flowchart of patient selection and allocation. In cases where patients underwent multiple EGD examinations, the image datasets were allocated into separate cases if the interval was more than 1 year, while short-term repeated examinations were regarded as a single case for analysis. AI, artificial intelligence; AIG, autoimmune gastritis; EGD, esophagogastroduodenoscopy; HpAG, Helicobacter pylori-associated atrophic gastritis; NAG, nonatrophic gastritis.

환자들의 평균 연령은 AIG 코호트에서 58.1세(SD 10.2), HpAG 코호트에서 59.5세(SD 9.7), NAG 코호트에서 33.3세(SD 10.7)였으며, 여성 비율은 각각 AIG 75.5%, HpAG 41.5%, NAG 63.3%로 나타났습니다.

AI performance in internal and external testing datasets 

이 연구의 주요 결과는 자가면역성 위염(AIG)의 진단에서 인공지능(AI)의 성능과 AIG를 비-AIG(HpAG 및 NAG)와 구별하는 능력이었습니다.

내부 테스트 데이터셋에서 AIG 진단에 대해 AI

  • 민감도 96.9%,

  • 특이도 92.2%,

  • 정확도 93.5%,

  • AUROC(곡선하면적) 0.990을 기록했습니다.

AIG와 HpAG를 구분할 때는

  • 민감도 96.9%,

  • 특이도 96.3%,

  • 정확도 96.5%,

  • AUROC 0.993으로 매우 우수한 성능을 보였습니다.

외부 테스트 데이터셋에서도 AI는 유사한 성능을 보여

  • AIG 진단에서 민감도 90.3%, 특이도 93.1%, 정확도 92.1%, AUROC 0.973을 달성했습니다.

  • AIG와 HpAG를 구분하는 데 있어 민감도 90.3%, 특이도 96.6%, 정확도 94.5%, AUROC 0.970이었습니다.

자세한 테스트 결과는 ▶표 2 ▶그림 2에 제시되어 있습니다.

▶Fig. 2 Receiver operating characteristic (ROC) analyses of the artificial intelligence system performance for diagnosis of autoimmune gastritis (AIG) and differential diagnosis from non-AIG (Helicobacter pylori-associated atrophic gastritis, nonatrophic gastritis). a Internal testing datasets. b External testing datasets. The shaded areas in the ROC curves represent SD from the results. HpAG, Helicobacter pylori-associated atrophic gastritis; NAG, nonatrophic gastritis. 

또한, AI 시스템HpAG 및 NAG 진단 성능에 대한 추가 분석도 수행되었습니다.

  • 내부 테스트 데이터셋에서 AI는 HpAG를 AUROC 0.990, 정확도 93.5%로 진단했습니다.

  • 외부 테스트 데이터셋에서는 AUROC 0.936, 정확도 86.4%로 나타났습니다.

NAG 진단에서는

  • 내부 테스트 데이터셋에서 AUROC 0.986, 정확도 93.4%,

  • 외부 테스트 데이터셋에서는 AUROC 0.965, 정확도 89.1%의 성능을 보였습니다(표 1s, 그림 2s 참조).

Fig. 2s ROC analyses of AI performance for HpAG and NAG diagnosis in internal (A) and external (B) testing datasets. The shaded areas in the ROC curves represent SD from the results. ROC, receiver operating characteristic; SD, standard deviations; HpAG, Helicobacter pylori associated atrophic gastritis; NAG, non-atrophic gastritis. 

Comparison of AI and endoscopist performance 

내시경의 온라인 테스트 데이터셋에서 인공지능(AI)은 AIG(자가면역성 위염)를 진단함에 있어 전문가 내시경의사와 유사한 성능을 보였습니다.

  • 민감도: AI 91.3% (95% 신뢰구간 [CI] 84.8%–94.8%) vs. 전문가 87.3% (95%CI 80.2%–91.7%)

  • 특이도: AI 94.1% (95%CI 90.7%–96.4%) vs. 전문가 97.8% (95%CI 95.3%–99.1%)

  • 정확도: AI 93.1% (95%CI 90.1%–95.1%) vs. 전문가 94.1% (95%CI 91.4%–96.0%)

또한, AI는 비전문가 내시경의사보다 AIG 진단에서 유의하게 높은 성능을 보였습니다.

  • 민감도: 비전문가 70.0% (95%CI 62.0%–77.2%), P = 0.01

  • 정확도: 비전문가 84.3% (95%CI 80.5%–87.5%), P = 0.008

특히 AIG와 HpAG를 구분하는 데 있어서도,

  • AI는 전문가 수준의 성능을 유지하면서

  • 비전문가보다 우수한 성능을 보였습니다.

    • 민감도: AI 91.3% vs. 비전문가 70.0% (P = 0.01)

    • 정확도: AI 95.6% vs. 비전문가 88.4% (P = 0.01)

AI의 지원을 받은 경우, 내시경의사들의 전반적인 성능은 다음과 같이 유의하게 향상되었습니다.

  • 민감도: AI 미지원 시 78.7%AI 지원 시 90.3% (P = 0.008)

  • 정확도: AI 미지원 시 89.2%AI 지원 시 94.9% (P = 0.02)

하위 분석에서 비전문가 내시경의사는 AI의 도움을 통해 다음과 같이 성능 향상을 보였습니다.

  • 민감도: 70.0% (95%CI 62.0%–77.2%) → 88.7% (95%CI 82.5%–93.3%; P = 0.01)

  • 정확도: 84.3% (95%CI 80.5%–87.5%) → 93.4% (95%CI 90.6%–95.5%; P = 0.01)

자세한 비교 결과는 ▶표 3 및 보조자료의 표 2s에 제시되어 있습니다.

Explainability of AI-assisted system

▶그림 3대표적인 히트맵 다섯 개를 보여주며, 이 중 그림 a, b는 AIG(자가면역성 위염) 이미지 데이터셋에서, 그림 c–e는 HpAG(헬리코박터 관련 위축성 위염) 이미지 데이터셋에서 추출되었습니다. 해당 히트맵은 AI 모델이 집중한 영역을 시각적으로 강조한 것으로, 특히 강조된 영역은 내시경 전문의들이 평가한 위축 부위와 일치했습니다. 이러한 결과는 연구의 주요 발견과 부합하며, AI 모델의 설명 가능성을 입증합니다. 실제 임상에서 이 강조 영역들은 위축 부위를 예측하는 데 기여한 영역으로 간주될 수 있으며, 이는 내시경의사가 조직검사 위치를 결정할 때 유용한 임상적 지침으로 작용할 수 있는 잠재력을 보여줍니다.

▶Fig. 3 Representative images generated from heatmap analysis, with relevant color according to the color bar below. The color depth of the heatmap from blue (less focus) to red (more focus) positively contributed to the prediction of atrophy. Figures were taken from: a,b autoimmune gastritis (AIG) image datasets; c–e Helicobacter pylori-associated atrophic gastritis (HpAG) image datasets.


DISCUSSION

AIG(자가면역성 위염)은 CAG(만성 위축성 위염)의 특정 아형으로, 소화기내과 의사들 사이에서 상대적으로 HpAG(헬리코박터 관련 위축성 위염)에 대한 관심이 더 크고, AIG에 대한 진단 기준이 명확히 정립되지 않아 진단이 지연되는 경우가 많습니다. 그러나 AIG는 점진적으로 진행되는 질환으로, 악성 빈혈(pernicious anemia)이나 위 신경내분비종양(gastric neuroendocrine tumor) 발생 위험 증가와 같은 심각한 합병증을 유발할 수 있어 조기 진단의 중요성이 큽니다.

특히 AIG 환자는 비특이적인 증상을 동반하는 경우가 많기 때문에 백색광 내시경(white-light endoscopy)은 AIG 진단의 주요 수단으로 간주됩니다[13]. 그러나 기존의 내시경 검사만으로는 AIG를 진단하는 정확도가 낮은 것으로 보고되어 왔으며[12], 이에 따라 보다 향상된 내시경 진단 보조 기술 개발 필요성이 제기되어 왔습니다.

이 연구에서는 AIG 진단을 돕기 위한 설명 가능한 AI 내시경 시스템을 새롭게 제안하였으며, 다부위(feature) 융합 모델(multi-site feature fusion model)을 기반으로 하여 이 시스템을 개발하고, 후향적 다기관 코호트를 통해 그 성능을 평가하였습니다. 제안된 AI 시스템은 AIG 진단 보조라는 기존의 미충족 수요를 해결하고자 하며, 전문가 수준의 진단 성능을 보일 뿐만 아니라 내시경의사들이 AIG를 보다 정확하게 식별할 수 있도록 도와줍니다. 히트맵 분석 결과를 통해, 이 AI 시스템은 조직검사 부위 결정에도 실질적인 임상적 지침을 제공할 수 있는 유용한 도구임이 입증되었습니다.

본 연구에서는 Rugge et al. [11]이 제시한 포함 기준에 따라, 임상적, 혈청학적, 병리학적으로 엄격히 확진된 AIG 환자들을 포함한 후향적 다기관 AIG 코호트를 구성하였습니다[14, 21]. 서양 및 아시아 국가에서 제한적으로 보고된 인구학적 특성과 일치하게[25–27], 본 연구에서도 AIG는 여성(75.5%)비교적 고령(평균 58.1세 [SD 10.2])에서 우세하게 나타났습니다. AIG의 유병률이 HpAG와 NAG에 비해 낮은 점을 고려하여, 데이터의 불균형을 방지하고 모델의 공정성을 높이기 위해 각 코호트 간 1:1:1의 비율로 균등하게 데이터셋을 구성하였습니다.

딥러닝 기반 AI 시스템은 최근 내시경을 통한 위장관 질환 진단에 널리 활용되고 있습니다. 위염 영역에서의 선행 연구는 주로 일반적인 CAG 진단에 초점을 맞추었으며[28–31], 두 개의 병리학 연구AIG와 HpAG를 감별하거나 CAG의 아형을 조직학 이미지로 분류하는 AI 모델을 개발하였습니다[32, 33]. 그러나 우리가 아는 한, 내시경 과정 중 AIG 진단을 보조하는 AI 시스템은 아직 보고된 바 없습니다.


본 연구에서 개발한 AI 보조 시스템AIG를 정확히 식별하고, AIG와 HpAG 및 NAG를 효과적으로 구분해낼 수 있는 전문가 수준의 성능을 보였습니다. 더불어, AIG, HpAG, NAG의 분류 성능 또한 우수하였으며, 특히 경험이 적은 내시경의사들의 AIG 진단 능력을 보조하는 유용한 도구기능할 수 있음을 확인하였습니다. 

본 연구에서 개발된 새로운 AI 보조 시스템은 시각적 진단(visual diagnosis)을 가능하게 하여, AIG 진단 지연을 줄이고 질환에 대한 인식을 높이는 데 기여할 잠재력을 가지고 있습니다. 최근 연구에 따르면 시각적 진단은 병리학 기반 진단을 예비적으로 효과적으로 예측할 수 있으며, 딥러닝 기술은 이러한 패턴 인식을 위해 입력 특징을 자동으로 추출하는 데 큰 역할을 하고 있습니다. 본 연구에서는 EGD(상부위장관 내시경) 이미지 데이터셋을 입력으로 사용하여, 위장 이미지를 다섯 개 부위로 구분한 후, AI 시스템이 각 부위에서 특징을 자동으로 추출하고 이를 융합하여 AIG, HpAG, 또는 NAG에 대한 내시경적 특징을 종합적으로 표현하였습니다. 이 시각적 특징을 바탕으로 AI는 확률 분포에 따라 진단을 예측하였습니다.

딥러닝 기반 AI 시스템의 주요 이점 중 하나는 인간의 눈과 달리, 주의력 저하나 피로 없이 여러 부위의 이미지를 픽셀 단위로 정밀하게 분석할 수 있다는 점입니다. 이러한 심층 분석은 더 정교한 진단 프로파일을 포착하여 정확도를 향상시키는 데 기여합니다.

특히 본 연구는 AI 보조 시스템이 조직검사(biopsy) 부위 결정을 돕는 유용한 도구로 작용할 수 있음을 보여주었습니다. AIG를 신뢰도 높고 병인학적으로 특이하게 진단하기 위해서는 Updated Sydney System 가이드라인[21]에 따라 전정부(antrum)에서 2개, 위각(angle)에서 1개, 체부(corpus)에서 2개의 조직검체를 채취해야 합니다. 그러나 실제 임상에서는 조직검사 여부가 내시경의사의 경험에 의존하며, 이로 인해 부적절하거나 불충분한 조직검사가 이루어지는 경우가 많아 AIG의 병리학적 확진이 어려운 경우가 많습니다[34, 35].

본 연구의 히트맵 분석 결과, AI 모델이 지속적으로 위축 부위와 일치하는 영역에 초점을 맞춘 것으로 나타났으며, 이는 AI가 여러 부위에서의 위축성 패턴을 바탕으로 논리적으로 진단을 수행하고 있음을 시사합니다. 이러한 결과는 AI 시스템이 내시경의사에게 조직검사 타겟 부위를 정확히 제시함으로써, 불충분한 조직검사로 인한 AIG의 과소진단을 줄이는 데 기여할 수 있음을 보여줍니다[12].

결론적으로, 이 새로운 시스템은 실시간 내시경 검사 중 의심되는 위축 부위각 부위별로 하이라이트함으로써, 무작위 조직검사를 줄이고 조직검사 양성률을 높일 수 있는 보조 도구로 활용될 수 있는 잠재력을 가지고 있습니다.

AI 시스템의 설명 가능성은 딥러닝 기반 모델의 불투명성에 대한 우려로 인해, 임상의들의 수용을 얻기 위해 매우 중요합니다. 이러한 문제를 해결하기 위해, 본 연구에서는 AI 보조 시스템 개발 과정에서 알고리즘 설명 가능성의학적 설명 가능성을 모두 확보하기 위해 사후(post-modeling)사전(ante-modeling) 방법을 채택하였습니다. 우선, 우리가 사용한 사후 모델링 기법인 Grad-CAMAI 모델의 판단 근거를 시각적으로 보여주는 히트맵을 통해 알고리즘의 해석 가능성을 제공합니다. 이러한 시각적 설명은 AI가 어떤 부분에 주목했는지를 보여줌으로써 모델의 결정 과정을 이해하는 데 도움을 줍니다. 또한, 최근에는 모델 개발 초기 단계에서부터 의학적 지식을 통합하는 사전 모델링 방법의 중요성도 강조되고 있습니다. 이에 따라 우리는 모델링 초기부터 다부위 위장 영상에서 추출된 특징을 융합하는 구조를 기반으로 하여, 의학적으로 설명 가능한 시스템을 설계하였습니다. 이러한 방식은 AIG가 위 전반에 걸친 광범위 병변(diffuse lesion)이라는 생물학적 특성과 부합하며, 질환의 종합적 진단 및 감별 진단 능력을 향상시킵니다.

본 연구에는 몇 가지 한계점이 존재합니다. 

첫째, 대규모 다기관 코호트를 사용하였음에도 불구하고, 환자들은 후향적으로 선택되었다는 점입니다. 또한, 기술적인 이유로 AIG가 인위적으로 균형 있게 포함된 데이터셋(1:1:1 비율)을 사용하였는데, 이는 실제 임상 상황에서의 AIG 유병률과 차이가 있습니다. 따라서, 본 AI 시스템의 현실적인 유병률을 반영한 실시간 내시경 절차에 적용 가능성을 평가하기 위해 전향적 연구가 추가로 필요합니다. 그럼에도 불구하고, 본 연구 결과는 AI 시스템이 실시간 분석 및 진단에도 가능성이 있음을 시사합니다.

둘째, 본 연구는 이미지 데이터셋만을 이용하였고, 연속적인 비디오 데이터는 수집 및 분석되지 않았습니다. 이로 인해 실제 내시경 절차에서의 시각 정보에 비해 모델 개발 시 시각 정보가 제한되어, AI 시스템의 진단 성능에 영향을 미쳤을 가능성이 있습니다.

셋째, 대부분의 상급병원에서 백색광 내시경(white-light endoscopy)이 널리 이용되고 있기 때문에, 본 연구에서는 백색광 영상 기반 AIG 탐지에 초점을 맞추었습니다. 그러나 향후에는 색소내시경(chromoendoscopy)이나 영상 향상 기술(narrow-band imaging, NBI) 등을 AI 보조 시스템과 결합하여, AIG의 내시경적 평가를 개선할 수 있는 가능성에 대한 연구도 필요합니다.

요약하자면, 본 연구에서 새롭게 개발된 다부위 특징 융합(multi-site feature fusion) 모델 기반의 내시경 AI 시스템AIG 진단을 보조하는 데 있어 전문의 수준의 성능을 보였습니다. 이 설명 가능하고(Explainable), 시각적이며 일관성 있는 AI 시스템내시경 전문의에게 유용한 보조 도구가 될 수 있으며, 특히 경험이 적은 내시경 의사들에게 AIG 진단과 임상에서의 조직검사 위치 선정에 도움을 줄 수 있어, AIG의 조기 발견을 가능하게 할 수 있습니다.


<Abstract>

Background: Autoimmune gastritis (AIG), distinct from Helicobacter pylori-associated atrophic gastritis (HpAG), is underdiagnosed due to limited awareness. This multicenter study aimed to develop a novel endoscopic artificial intelligence (AI) system for assisting in AIG diagnosis.

Methods: Patients diagnosed with AIG, HpAG, or nonatrophic gastritis (NAG), were retrospectively enrolled from six centers. Endoscopic images with relevant demographic and medical data were collected for development of the AI-assisted system based on a multi-site feature fusion model. The diagnostic performance of the AI model was evaluated in internal and external datasets. Endoscopists' performance with and without AI support was tested and compared using Mann-Whitney U test. Heatmap analysis was performed to interpret AI model outputs.

Results: 18 828 endoscopy images from 1070 patients (294 AIG, 386 HpAG, 390 NAG) were collected. On testing datasets, AI identified AIG with 96.9 % sensitivity, 92.2 % specificity, and area under the receiver operating characteristic curve (AUROC) of 0.990 (internal), and 90.3 % sensitivity, 93.1 % specificity, and AUROC of 0.973 (external). The performance of AI (sensitivity 91.3 %) was comparable to that of experts (87.3 %) and significantly outperformed nonexperts (70.0 %; P = 0.01). With AI support, the overall performance of endoscopists was improved (sensitivity 90.3 % [95 %CI 86.0 %-93.2 %] vs. 78.7 % [95 %CI 73.6 %-83.2 %]; P = 0.008). Heatmap analysis revealed consistent focus of AI on atrophic areas.

Conclusions: This novel AI system demonstrated expert-level performance in identifying AIG and enhanced the diagnostic ability of endoscopists. Its application could be useful in guiding biopsy sampling and improving early detection of AIG.


0 0


대한자가면역성위염연구회

주소 : 경기도 용인시 기흥구 중부대로 579, 508-23호

대표전화 : 070-8080-0453

이메일 : autogastritis@gmail.com 


Copyright (c)대한자가면역성위염연구회. All Rights Reserved.

Design Hosting By 위멘토.


대한자가면역성위염연구회

주소 : 경기도 용인시 기흥구 중부대로 579, 508-23호 (구갈동, 강남대프라자)

대표전화 : 070-8080-0453  이메일 : autogastritis@gmail.com 


Copyright (c)대한자가면역성위염연구회. All Rights Reserved. Design Hosting By 위멘토.