▲ 이미지 출처: MriMan / Shutterstock.com

의학은 인공지능을 실제 문제에 적용할 때 특히 의료영상 이미지에서 질병을 감지하기 위해 딥러닝 시스템을 사용하는 가장 인기있는 분야 중 하나이다. 초기에는 유망한 결과, 특히 DeepMind의 안과질환 연구가 있었지만 결과가 클리닉으로 이어질지에 대한 회의론이 널리 퍼졌다.

그러나 이제 Lancet Digital Health의 논문 작성자는 2012 1월에서 2019 6월 사이에 의료영상을 통해 질병을 탐지하는 딥러닝 모델의 능력을 건강 전문가의 능력과 비교하여 모든 연구에 대한 첫 번째 체계적인 검토 및 메타 분석을 수행했다.

이 트롤은 이 주제를 다루는 20,500개의 기사를 발견했지만 놀랍게도 1%미만의 주장이 자신의 주장을 확신 할 수 있을 정도로 과학적으로 강력했다고 저자들은 말한다. 그 중 25명만이 보이지 않는 데이터에 대한 딥러닝 모델을 테스트했으며 실제로 14명만이 동일한 테스트 샘플에서 건강 전문가와 성능을 비교했다.

그럼에도 불구하고 연구원들이 가장 엄격한 14개의 연구에서 얻은 데이터를 모았을 때, 딥러닝 시스템은 의료전문가의 86%에 비해 87%의 사례에서 질병을 올바르게 감지한 것으로 나타났다. 또한 특정 질병이 없는 환자를 배제하는 것과 마찬가지로 중요한 통계를 잘 수행하여 인간의 91%와 비교하여 시간의 93%를 올바르게 달성했다.

궁극적으로 검토 결과는 인공지능에 대해 전반적으로 긍정적이지만 기술을 기반으로 구축된 과대 광고 및 의학진단에 적용하려는 대부분의 사람들의 연구 관행을 손상시킨다.

 

영국버밍엄대학교 (University of Birmingham)의 첫 번째 저자 Xiaoxuan Liu는 보도자료에서우리 연구의 주요 교훈은 다른 의료분야와 마찬가지로 인공지능에서도 좋은 연구설계가 중요하다는 것이다. “그것 없이는 결과를 왜곡시키는 편향을 쉽게 도입 할 수 있다. 이러한 편견은 현실 세계로 해석되지 않는 인공지능 툴에 대한 우수한 성능에 대한 과장된 주장으로 이어질 수 있다.”라고 덧붙였다.

 

저자는 또한 더 나은 프레임 연구에서도 비교가 여전히 현실적이지는 않았다고 지적했다. 실제 임상환경에서 수행 된 사람은 거의 없었으며, 의료 전문가가 진단을 내리는 데 도움이 되는 실제 환경에서 이용할 수 있는 임상정보를 제공한 사람은 4명뿐이다.

 

아마도 더 중요한 것은 연구가 의료연구에서 가장 중요한 지표인 환자 결과를 측정하지 않았기 때문이다.

 

런던의 무어필드아이병원 (Moorfields Eye Hospital)의 공동 저자인 Livia Faes인공지능 알고리즘이 환자의 결과를 어떻게 변화시키는지에 대한 증거는 무작위 통제 시험에서 대체 진단 테스트와 비교할 때 필요하다고 보도 자료에서 밝혔다.

 

"지금까지 인공지능 알고리즘에 의한 진단결정이 적시에 치료, 병원 퇴원 시간 또는 생존율과 같이 환자에게 실제로 중요한 결과에 어떤 일이 발생하는지 확인하기 위해 시행되는 그러한 시도는 거의 없다."라고 그녀가 말했다.

 

그러나 한계에도 불구하고 저자들은 신중한 낙관론의 원인이 있다고 말한다. 처음에는 연구 표준이 이미 개선되고 있는 것 같다. 검토의 최소포함 기준을 충족한 대부분의 연구가 작년에 확인되었다.

 

그들의 초기 결과는 딥러닝이 의학진단에서 큰 잠재력을 가지고 있음을 시사하지만, 저자들은 이를 테스트하기 위해 더 표준화되고 엄격한 접근방식이 필요하다고 주장한다. 그렇지 않으면 모호한 연구의 최고 주장에 의해 약속이 훼손된다.

 

입력 : 2019.10.02 08:41    출처 : https://singularityhub.com/2019/09/30/ai-can-diagnose-like-doctors-but-for-continued-progress-research-standards-must-improve/
ⓒ blockchainai.kr 무단 전재 및 재배포 금지
  • 트위터
  • 페이스북
  • 카카오톡보내기
메일 보내기 닫기
보내는 사람
보내는 사람 메일
받는 사람 메일
제목
메세지