#10 ARIADNE: A Perception-Reasoning Synergy Framework for Trustworthy Coronary Angiography Analysis
Score: 11.2 | Matched keywords: alignment, foundation model, reasoning
Detailed Summary (EN)
Problem definition
- Coronary Artery Disease (CAD) remains a leading cause of morbidity and mortality worldwide[1], requiring diagnostic modalities that provide accurate, reproducible, and efficient assessment.
- Invasive X-ray Coronary Angiography (XCA) serves as the primary tool for CAD diagnosis and guidance of Percutaneous Coronary Interventions (PCI)[2], offering high temporal resolution necessary for visualizing hemodynamic flow[3].
- However, current clinical workflows rely heavily on manual interpretation, a process characterized by significant inter-observer variability and susceptibility to clinician fatigue[4].
- As healthcare institutions universally adopt Picture Archiving and Communication Systems (PACS), a critical gap persists between passive image storage and active, automated clinical interpretation.
Core idea & method
- for Trustworthy Coronary Angiography Analysis Zhan Jin1†, Yu Luo1†, Yizhou Zhang1†, Ziyang Cui1†, Yuqing Wei1, Xianchao Liu1, Xueying Zeng1*, Qing Zhang2* 1School of Mathematical Sciences, Ocean University of China, Qingdao, 266100, Shandong, China.
- 2Department of Cardiology, Qilu Hospital (Qingdao), Cheeloo College of Medicine, Shandong University, No.
- Abstract Conventional pixel-wise loss functions fail to enforce topological constraints in coronary vessel segmentation, producing fragmented vascular trees despite high pixel-level accuracy.
- We present ARIADNE, a two-stage framework coupling preference-aligned perception with RL-based diagnostic reasoning for topologically coherent stenosis detection.
- The perception module employs DPO to fine-tune the Sa2VA vision-language foundation model using Betti number constraints as preference signals, aligning the policy toward geometrically complete vessel structures rather than pixel-wise overlap metrics.
Experimental setup & results
- reveals that general-purpose VLMs consistently produce semantically correct but topologically fragmented segmentations—correctly classifying pixels as vessel while failing to maintain the connected tree structure essential for hemodynamic modeling.
- This failure stems from their optimization objective: VLMs maximize pixel-level overlap (Dice, IoU[14]) between predicted and ground-truth masks, a criterion that remains agnostic to whether the resulting mask forms a continuous vascular network or a collection of disconnected segments.
- In coronary angiography, where vessel diameters approach image resolution limits and contrast variability is substantial, the absence of explicit topological constraints results in high-confidence predictions of isolated vessel fragments that are clinically unusable for stenosis quantification or flow analysis.
Limitations & risks
- Traditional loss functions, including Cross-Entropy and Dice Loss[9], optimize pixel-level accuracy independently without explicitly penalizing topological errors[10].
- Consequently, these models frequently produce fragmented vessel trees where distal branches appear disconnected, particularly due to signal loss in thin vessels during downsampling operations[11].
- In coronary hemodynamics analysis, topological connectivity is essential; a segmentation with high Dice score remains insufficient for clinical use if discontinuities prevent accurate centerline extraction and subsequent geometric analysis.
- The recent emergence of foundation-scale Vision-Language Models (VLMs) has introduced a complementary approach to medical image segmentation.
Read-like-fullpaper digest
This paper addresses Coronary Artery Disease (CAD) remains a leading cause of morbidity and mortality worldwide[1], requiring diagnostic modalities that provide accurate, reproducible, and efficient assessment. The core method is for Trustworthy Coronary Angiography Analysis Zhan Jin1†, Yu Luo1†, Yizhou Zhang1†, Ziyang Cui1†, Yuqing Wei1, Xianchao Liu1, Xueying Zeng1*, Qing Zhang2* 1School of Mathematical Sciences, Ocean University of China, Qingdao, 266100, Shandong, China. Key empirical findings include reveals that general-purpose VLMs consistently produce semantically correct but topologically fragmented segmentations—correctly classifying pixels as vessel while failing to maintain the connected tree structure essential for hemodynamic modeling.
상세 요약 (KO)
문제 정의
- 관상동맥질환(CAD)은 전 세계적으로 이환율과 사망률의 주요 원인으로 남아 있으며[1] 정확하고 재현 가능하며 효율적인 평가를 제공하는 진단 방식이 필요합니다.
- 침습적 X선 관상동맥 조영술(XCA)은 경피적 관상동맥 중재술(PCI)[2]의 CAD 진단 및 안내를 위한 기본 도구 역할을 하며, 혈역학적 흐름을 시각화하는 데 필요한 높은 시간 해상도를 제공합니다[3].
- 그러나 현재의 임상 워크플로우는 관찰자 간 상당한 변동성과 임상의 피로에 대한 민감성을 특징으로 하는 프로세스인 수동 해석에 크게 의존합니다[4].
- 의료 기관이 PACS(사진 보관 및 통신 시스템)를 보편적으로 채택함에 따라 수동적 이미지 저장과 능동적이고 자동화된 임상 해석 사이에는 심각한 격차가 지속됩니다.
핵심 아이디어/방법
- 신뢰할 수 있는 관상동맥 조영술 분석을 위해 Zhan Jin1†, Yu Luo1†, Yizhou Zhang1†, Ziyang Cui1†, Yuqing Wei1, Xianchao Liu1, Xueying Zeng1*, Qing Zhang2* 1School of Mathematical Sciences, Ocean University of China, Qingdao, 266100, Shandong, China.
- 2산둥대학교 치루의과대학 치루병원(칭다오) 심장내과
- Abstract 기존의 픽셀별 손실 함수는 관상동맥 분할에서 위상적 제약을 적용하지 못하여 높은 픽셀 수준 정확도에도 불구하고 조각난 혈관 나무를 생성합니다.
- 우리는 위상학적으로 일관된 협착증 검출을 위해 선호도 얼라인먼트 인식과 RL 기반 진단 추론을 결합한 2단계 프레임워크인 ARIADNE을 제시합니다.
- 인식 모듈은 DPO를 사용하여 Betti 수 제약 조건을 기본 신호로 사용하여 Sa2VA 비전 언어 기반 모델을 미세 조정하고 픽셀 단위 중첩 측정 항목이 아닌 기하학적으로 완전한 혈관 구조에 대한 정책을 조정합니다.
실험 설정/결과
- 범용 VLM은 의미상으로는 정확하지만 위상적으로는 조각난 분할을 일관되게 생성하여 픽셀을 혈관으로 올바르게 분류하는 동시에 혈역학 모델링에 필수적인 연결된 트리 구조를 유지하지 못하는 것으로 나타났습니다.
- 이러한 실패는 최적화 목표에서 비롯됩니다. VLM은 예측 마스크와 실제 마스크 간의 픽셀 수준 중첩(Dice, IoU[14])을 최대화합니다. 이 기준은 결과 마스크가 연속적인 혈관 네트워크를 형성하는지 또는 연결이 끊긴 세그먼트의 집합을 형성하는지에 대해 불가지론으로 남아 있습니다.
- 혈관 직경이 이미지 해상도 한계에 접근하고 대비 가변성이 상당한 관상동맥 조영술에서 명시적인 위상적 제약이 없으면 협착증 정량화 또는 흐름 분석에 임상적으로 사용할 수 없는 격리된 혈관 조각에 대한 높은 신뢰도의 예측이 가능합니다.
한계/리스크
- Cross-Entropy 및 Dice Loss[9]를 포함한 기존 손실 함수는 토폴로지 오류[10]를 명시적으로 처벌하지 않고 독립적으로 픽셀 수준 정확도를 최적화합니다.
- 결과적으로, 이러한 모델은 특히 다운샘플링 작업 중 얇은 혈관의 신호 손실로 인해 원위 가지가 연결되지 않은 것처럼 보이는 조각난 혈관 트리를 생성하는 경우가 많습니다[11].
- 관상동맥 혈역학 분석에서는 위상학적 연결이 필수적입니다. 불연속성이 정확한 중심선 추출 및 후속 기하학적 분석을 방해하는 경우 주사위 점수가 높은 분할은 임상 사용에 불충분합니다.
- 최근 기초 규모의 VLM(Vision-Language Model)이 등장하면서 의료 영상 분할에 대한 보완적인 접근 방식이 도입되었습니다.
전체 논문 읽은 느낌 요약
이 논문에서는 관상동맥질환(CAD)이 전 세계적으로 질병률과 사망률의 주요 원인으로 남아 있기 때문에[1] 정확하고 재현 가능하며 효율적인 평가를 제공하는 진단 방식이 필요하다는 점을 다룹니다. 핵심 방법은 신뢰할 수 있는 관상동맥 조영술 분석을 위한 것입니다. Zhan Jin1†, Yu Luo1†, Yizhou Zhang1†, Ziyang Cui1†, Yuqing Wei1, Xianchao Liu1, Xueying Zeng1*, Qing Zhang2* 1School of Mathematical Sciences, Ocean University of China, Qingdao, 266100, Shandong, China. 주요 경험적 연구 결과에는 범용 VLM이 의미상으로는 정확하지만 위상적으로 단편화된 분할을 일관되게 생성하여 혈역학 모델링에 필수적인 연결된 트리 구조를 유지하지 못하는 동시에 픽셀을 혈관으로 올바르게 분류한다는 사실이 밝혀졌습니다.