▲ 이미지출처: Ian Haydon, 워싱턴 대학교 단백질 디자인 연구소

AI 덕분에 우리는 생명을 해독할 수 있는 놀랍도록 강력한 도구를 얻었다. 지난 주 연이어 발표된 두 개의 논문에서 DeepMind와 워싱턴대학교의 과학자들은 단백질 접힘을 해결하기 위한 딥러닝 기반 방법에 대해 설명했다. 이는 DNA에서 프로그래밍을 실행하는 마지막 단계이자 "한 세대에 한 번 진행되는 발전"이다."

 

단백질은 생명의 미니언즈이다. 그것들은 우리 몸을 형성하고 신진대사에 연료를 공급하며 오늘날 대부분의 의학의 대상이다. 그것들은 DNA에서 번역된 단순한 리본으로 시작하여 복잡한 3차원 구조로 접힌다. 트랜스포머와 유사하게, 많은 단백질 단위는 그 순간 기능적 필요에 따라 구조를 변경하는 거대하고 움직이는 복합체로 더 조립된다.

 

잘못 접힌 단백질은 파괴적이어서 겸상 적혈구 빈혈에서 암과 알츠하이머병에 이르기까지 건강 문제를 일으킬 수 있다. 지난 50년 동안 생물학의 가장 큰 도전 중 하나는 단순한 1차원 리본 모양의 구조가 협곡, 능선, 계곡 및 동굴이 있는 3D 모양으로 변하는 방법을 해독하는 것이었다. 마치 외계인이 노트북에서 그랜드캐년 지도에 있는 수백 개의 위치 좌표를 읽고 눈을 떼거나 어떻게 생겼는지 알지 못한 채 실제 사물의 3D 홀로그램으로 재구성하는 것과 같다.

 

그렇다. 어렵다. 메릴랜드대학의 존 몰트 박사(Dr. John Moult )많은 사람들이 이에 대해 머리를 접었다고 말했다.

 

단순한 학문적 실천이 아니다. 인간 게놈을 해결함으로써 유전자 치료, CAR-T 암의 돌파구, 그리고 악명 높은 CRISPR 유전자편집 도구를 위한 길을 열었다. 단백질 접힘을 해독하는 것은 우리가 연구하거나 조작할 수 없었던 생물학의 완전히 새로운 지평을 밝혀줄 것이다. 코로나19 백신의 빠르고 맹렬한 개발은 백신이 표적으로 하는 스파이크 단백질을 포함하여 바이러스에 대한 여러 단백질 표적을 분석하는 과학자들에 의존했다. 암을 유발하는 많은 단백질은 구조가 정확히 파악하기 어렵기 때문에 지금까지 약물의 범위를 벗어났다.

 

과학자들은 이 새로운 AI 도구를 사용하여 잊혀지지 않는 의학적 미스터리를 풀면서 아직 알려지지 않은 미스터리를 해결할 준비를 할 수 있다. 그것은 우리의 생물학을 더 잘 이해하고, 새로운 의약품을 알리고, 심지어 합성 생물학에 영감을 줄 수 있는 단계를 설정한다.

 

"DeepMind 팀이 달성한 것은 환상적이며 구조 생물학 및 단백질 연구의 미래를 바꿀 것이다."라고 European Bioinformatics Institute의 명예 이사인 Janet Thornton 박사는 말했다.

"내 평생에 이것을 보게 될 것이라 고는 생각하지 못했다." Moult가 덧붙였다. 

 

단백질의 탄생 

인생을 비디오 게임으로 그리라. DNA가 배경 기본 코드라면 단백질은 실행, 즉 여러분이 하는 실제 게임이다. DNA의 모든 버그는 프로그램의 충돌을 유발할 수 있지만 양성일 수도 있고 게임이 평소와 같이 실행되도록 할 수도 있다. 다시 말해, 게이머와 같은 대부분의 현대 의학은 문제가 발생하지 않는 한 최종 게임 플레이로 이어지는 소스 코드보다는 최종 게임 플레이인 단백질에만 관심을 둔다. 당뇨병 약물에서 항우울제 및 잠재적으로 수명을 연장하는 세놀리틱에 이르기까지 이러한 약물은 모두 DNA가 아닌 단백질을 잡아먹는 방식으로 작동한다.

 

이것이 단백질 구조를 해독하는 것이 중요한 이유이다. 자물쇠의 열쇠처럼 약물은 특정 지점에서만 단백질에 도킹할 수 있다. 유사하게, 단백질은 종종 기억을 형성하거나 바이러스에 대한 면역 공격을 유발하는 등 신체 기능을 실행하기 위해 복합체로 함께 결합하여 팀을 구성한다.

 

단백질은 아미노산이라고 하는 빌딩 블록으로 만들어지며, 이는 차례로 DNA에 의해 프로그래밍 된다. Rosetta Stone과 유사하게 우리 세포는 DNA 코드를 조개 껍질과 같은 구조 내부의 단백질 빌딩 블록으로 쉽게 번역할 수 있으며, 이 구조는 1차원 아미노산 문자열을 뱉어 낸다. 그런 다음 이 리본은 단백질이 최종 구조로 접힐 수 있도록 하는 전체 세포 인프라를 통해 섞인다.

 

1970년대에 노벨상 수상자인 크리스천 앤핀선(Dr. Christian Anfinsen)박사는 1차원 서열 자체가 단백질의 3차원 구조를 계산적으로 예측할 수 있다고 주장했다. 문제는 시간과 힘이다. 3D 공간에 수백 개의 문자가 매달려 있는 암호를 해킹하려는 것처럼 잠재적인 솔루션은 천문학적이다. 그러나 이제 패턴을 찾는 데 인간을 능가하는 도구인 머신러닝이 있다.

 

AI 입력 

2020년에 DeepMind는 레거시 격년 대회에 참가하여 전체 분야에 충격을 주었다. CASP(Critical Assessment of Protein Structure Prediction)라고 불리는 이 수십 년간의 테스트는 예측 알고리즘을 판단하기 위한 기준선으로 단백질 구조를 결정하기 위해 전통적인 실험실 방법을 사용한다.

 

베이스라인은 얻기 힘들다. 몇 달 또는 몇 년이 걸릴 수 있는 힘든 실험 기술에 의존한다. 이러한 방법은 종종 단백질을 "동결"하고 X선을 사용하여 내부 구조를 원자 수준까지 매핑한다. 많은 단백질이 자연 구조를 잃지 않고는 이런 식으로 처리할 수 없지만 현재 우리가 가진 최선의 방법이다. 그런 다음 예측을 이 표준과 비교하여 기본 알고리즘을 판단한다.

 

작년에 DeepMind AI로 모두를 놀라게 하여 다른 경쟁자들을 물의에서 압도했다. 당시 그들은 실험 결과와 정확도가 일치하는 "믿을 수 없을 정도로 흥미로운" 방법에 대한 세부 정보를 거의 공개하지 않은 장난꾸러기였다. 그러나 30분간의 프레젠테이션은 워싱턴 대학의 백민경 박사가 자신만의 접근 방식을 개발하도록 영감을 주었다.

 

백 교수는 이번 주 사이언스(Science)에 실린 논문에서 이와 유사한 딥 러닝 전략을 사용했다. RoseTTAFold 도구는 세 가지 수준의 패턴을 동시에 고려한다. 먼저 단백질의 아미노산 빌딩 블록을 살펴보고 단백질 데이터베이스의 다른 모든 서열과 비교한다.

 

다음으로 이 도구는 한 단백질의 아미노산이 동일한 단백질 내에서 다른 아미노산과 어떻게 상호작용하는지 조사한다. 예를 들어 두 개의 멀리 떨어진 빌딩 블록 사이의 거리를 조사한다. 그것은 손과 발을 완전히 펴서 백벤드에서 바라보고 요가 자세로 "접을" 때 그 사지 사이의 거리를 측정하는 것과 같다.

 

마지막으로, 세 번째 트랙은 단백질 빌딩 블록을 구성하는 각 원자의 3D 좌표를 살펴본다. 마치 레고 블록의 스터드를 매핑하는 것과 같은 방식으로 최종 3D 구조를 컴파일한다. 그런 다음 네트워크는 이러한 트랙 사이에서 앞뒤로 바운스되어 하나의 출력이 다른 트랙을 업데이트할 수 있다.

 

최종 결과는 실험에서 얻은 구조의 황금 표준과 일치하는 DeepMind의 도구인 AlphaFold2의 결과에 가깝다. RoseTTAFold AlphaFold2만큼 정확하지는 않았지만 훨씬 적은 시간과 에너지가 필요한 것처럼 보였다. 간단한 단백질의 경우 알고리즘은 게임용 컴퓨터를 사용하여 약 10분 만에 구조를 해결할 수 있었다.

 

RoseTTAFold는 또한 단순히 아미노산 서열만 보고 여러 단위로 구성된 단백질의 구조를 예측할 수 있다는 점에서 "단백질 조립" 문제를 해결할 수 있었다. 예를 들어, 그들은 면역 분자의 구조가 표적에 어떻게 고정되는지 예측할 수 있었다. 많은 생물학적 기능은 단백질 간의 이러한 악수에 의존한다. 알고리즘을 사용하여 예측할 수 있게 되면서 이전에는 접근할 수 없었던 생물학적 과정(면역계, 뇌졸중, , 뇌 기능)을 조작할 수 있게 되었다.

 

신체 해킹 

RoseTTAFold 7월에 공개된 이후 수백 번 다운로드 되어 다른 연구원들이 당혹스러운 단백질 서열 질문에 답할 수 있어 잠재적으로 알고리즘을 공동으로 개선하면서 수년간의 작업을 절약할 수 있다.

 

Moult "2년 후 이와 같은 돌파구가 생기면 모두가 이전보다 나아지지는 않았더라도 똑같이 하고 있다."고 말했다.

 

한편, DeepMind는 백 교수에게 영감을 준 AlphaFold2 코드도 공개하고 있다.

 

Nature의 새로운 논문에서 DeepMind 팀은 50년 미스터리에 대한 접근 방식을 설명했다. 핵심은 단백질의 진화와 물리적, 기하학적 제약과 같은 다양한 정보 소스를 통합하여 주어진 단백질을 놀랍도록 높은 정확도로 매핑하는 2단계 시스템을 구축하는 것이었다.

 

CASP 회의에서 처음 발표된 DeepMind의 창립자이자 CEO Dr. Demis Hassabis는 코드를 세계와 공유할 준비가 되어 있다. “우리는 우리의 방법을 공유하고 과학 커뮤니티에 광범위하고 무료로 접근할 수 있도록 약속했다. 오늘 우리는 AlphaFold의 오픈 소스 코드를 공유하고 시스템의 전체 방법론을 게시함으로써 그 약속을 이행하기 위한 첫 걸음을 내디뎠다.”고 그는 썼다. “우리는 이것이 커뮤니티를 위해 어떤 다른 새로운 연구 방법을 가능하게 할 것인지 보게 되어 기쁘다.”

 

두 가지 연구를 통해 우리는 생명의 구성 요소를 예측하고 이에 따라 엔지니어링 또는 변경하는 새로운 세계에 들어서고 있다. 막스 플랑크 발달 생물학 연구소(Max Planck Institute for Developmental Biology)의 진화 생물학자이자 CASP 심사위원인 안드레이 루파스(Andrei Lupas) 박사는 다음과 같이 동의한다. “이것은 의학을 바꿀 것이다. 연구를 바꿀 것이라고 말했다. “생명공학을 바꿀 것이다. 그것은 모든 것을 바꿀 것이다.” 

 

입력 : 2021.07.22 00:00
ⓒ blockchainai.kr 무단 전재 및 재배포 금지
  • 트위터
  • 페이스북
  • 카카오톡보내기
메일 보내기 닫기
보내는 사람
보내는 사람 메일
받는 사람 메일
제목
메세지