인간 게놈 프로젝트 때인간 게놈의 DNA 서열 매핑에 성공했고, 국제 연구 커뮤니티는 인간의 건강과 발달에 영향을 미치는 유전적 지시를 더 잘 이해할 수 있는 기회에 흥분했습니다. DNA는 눈 색깔에서 특정 질병 및 장애에 대한 감수성에 이르기까지 모든 것을 결정하는 유전 정보를 전달합니다.
유전자로 알려진 인체 DNA의 약 20,000 부분에는 세포에서 수많은 필수 기능을 수행하는 단백질의 아미노산 서열에 대한 지침이 들어 있습니다. 그러나 이러한 유전자는 게놈의 2% 미만을 차지합니다. 게놈에 있는 30억 개의 “문자” 중 98%를 차지하는 나머지 염기쌍을 “비암호화”라고 하며 인체에서 유전자가 생성되거나 발현되어야 하는 시기와 위치에 대해 잘 이해되지 않는 지침이 포함되어 있습니다.
Nature Methods는 ” 장거리 상호 작용을 통합하여 시퀀스에서 효과적인 유전자 발현 예측 “( bioRxiv 에서 사전 인쇄로 처음 공유 됨 )을 발표했습니다. 여기에서 우리는 Calico 의 Alphabet 동료와 협력하여 Enformer라는 신경망 아키텍처를 소개합니다. DNA 염기서열로부터 유전자 발현을 예측하는 정확도가 크게 향상되었습니다.
질병의 유전자 조절 및 인과 요인에 대한 추가 연구를 진행하기 위해 우리는 또한 모델과 일반적인 유전 변이에 대한 초기 예측을 여기에서 공개적으로 사용할 수 있도록 했습니다 .
유전자 발현에 대한 이전 작업은 일반적으로 기본 빌딩 블록으로 컨볼루션 신경망을 사용했지만 유전자 발현에 대한 말단 인핸서의 영향을 모델링하는 데 한계가 있어 정확성과 적용이 방해를 받았습니다. 우리의 초기 탐색 은 40,000개 염기쌍의 비교적 긴 DNA 서열에서 조절 활동을 예측할 수 있는 Basenji2에 의존했습니다 .
이 작업과 조절 DNA 요소가 더 먼 거리에서 발현에 영향을 줄 수 있다는 지식에 동기를 부여하여 우리는 긴 서열을 포착하기 위한 근본적인 구조적 변화의 필요성을 보았습니다.
우리는 훨씬 더 큰 DNA 컨텍스트를 통합할 수 있는 자기 주의 메커니즘을 사용하기 위해 자연어 처리에서 흔히 볼 수 있는 Transformers를 기반으로 하는 새로운 모델을 개발했습니다 . 트랜스포머는 긴 텍스트 구절을 보는 데 이상적이기 때문에 우리는 그것들을 광범위하게 확장된 DNA 서열을 “읽도록” 조정했습니다.
이전 방법보다 5배 이상(즉, 200,000 염기쌍) 길이의 거리에서 상호 작용을 고려하기 위해 서열을 효과적으로 처리함으로써, 우리의 아키텍처는 인핸서(enhancer)라는 중요한 조절 요소가 DNA 서열 내에서 더 멀리 떨어진 곳에서 유전자 발현에 미치는 영향을 모델링할 수 있습니다. .
Enformer는 200,000 염기쌍의 입력 DNA에서 유전자 발현을 포함한 기능적 게놈 데이터를 예측하도록 훈련되었습니다. 위의 예는 5,000개 이상의 가능한 게놈 트랙 중 3개를 특징으로 합니다. 주의를 기울여 전체 시퀀스에 대한 정보를 수집하는 변환기 모듈을 사용하여 이전 모델에 비해 훨씬 더 긴 입력 시퀀스를 효과적으로 고려할 수 있습니다.
Enformer가 DNA 시퀀스를 해석하여 보다 정확한 예측에 도달하는 방법을 더 잘 이해하기 위해 기여 점수를 사용하여 입력 시퀀스의 어느 부분이 예측에 가장 영향을 미쳤는지 강조 표시했습니다. 생물학적 직관과 일치하여 우리는 모델이 유전자에서 50,000개 이상의 염기쌍 이상 떨어져 있어도 인핸서에 주의를 기울인다는 것을 관찰했습니다.
어떤 인핸서가 유전학에서 해결되지 않은 주요 문제로 남아 있는 유전자를 조절하는지 예측하기 때문에 Enformer의 기여 점수가 이 작업을 위해 특별히 개발된 기존 방법(실험 데이터를 입력으로 사용)과 비슷한 수준으로 수행하는 것을 보고 기뻤습니다. Enformer는 또한 두 개의 독립적으로 조절되는 DNA 영역을 분리하는 절연체 요소에 대해서도 배웠습니다.
Enformer는 보다 광범위한 수용 필드 덕분에 유전자로부터 20,000 염기쌍 이상 떨어진 거리에서도 인핸서(회색 상자)라고 하는 관련 조절 DNA 영역(파란색으로 표시)에 주의를 기울입니다.
이제 유기체의 DNA 전체를 연구하는 것이 가능하지만 게놈을 이해하려면 복잡한 실험이 필요합니다. 엄청난 실험 노력에도 불구하고 유전자 발현에 대한 DNA 제어의 대다수는 여전히 미스터리로 남아 있습니다. AI를 통해 우리는 게놈에서 패턴을 찾기 위한 새로운 가능성을 탐색하고 서열 변화에 대한 기계론적 가설을 제공할 수 있습니다.
맞춤법 검사기와 유사하게 Enformer는 DNA 서열의 어휘를 부분적으로 이해하므로 변경된 유전자 발현으로 이어질 수 있는 편집을 강조 표시할 수 있습니다.
이 새로운 모델의 주요 응용 프로그램은 유전자 변형이라고도 하는 DNA 문자의 어떤 변화가 유전자의 발현을 변화시킬지 예측하는 것입니다. 이전 모델과 비교하여 Enformer는 중요한 조절 서열을 변경하는 천연 유전 변이체와 합성 변이체의 경우 모두에서 변이가 유전자 발현에 미치는 영향을 훨씬 더 정확하게 예측합니다.
이 속성은 전체 게놈 연관 연구에서 얻은 질병 관련 변이체의 증가하는 수를 해석하는 데 유용합니다. 복잡한 유전 질환과 관련된 변이체는 주로 게놈의 비암호화 영역에 위치하며, 유전자 발현을 변경하여 질병을 일으킬 가능성이 있습니다. 그러나 변이 사이의 고유한 상관 관계로 인해 이러한 질병 관련 변이 중 많은 부분이 원인이 아니라 의사와 상관 관계가 있습니다.
면역 반응 유전자 NLRC5에 위치한 변이 rs11644125는 낮은 수준의 단핵구 및 림프구 백혈구와 관련이 있습니다. 변이체를 둘러싼 모든 위치를 체계적으로 돌연변이시키고 NLRC5 유전자 발현의 결과적인 변화(문자 높이로 표시)를 예측함으로써, 우리는 변이체가 NLRC5의 전반적인 낮은 발현을 유도하고 SP1이라는 전사 인자의 알려진 결합 모티프를 조절한다는 것을 관찰했습니다.
따라서 Enformer 예측은 백혈구 수에 대한 이 변이체의 영향 배후의 생물학적 메커니즘이 교란된 SP1 결합으로 인해 NLRC5 유전자 발현이 더 낮다는 것을 시사합니다.
우리는 인간 게놈에 남아 있는 알려지지 않은 퍼즐을 해결하는 것과는 거리가 멀지만, Enformer는 게놈 서열의 복잡성을 이해하는 데 한 걸음 더 나아간 것입니다. 당신은 그들이 DNA 서열로 인코딩하는 방법과, 사전 유전체학과 질병에 대한 우리의 이해에 새로운 시스템을 구축 할 수있는 좋은 방법입니다.
세포가 일을 처리하는 방법을 근본적 탐구하는 AI를 사용에 관심이 있다면 우린 고용을 . 우리는 또한 유전체학의 핵심에 있는 미해결 질문을 해결하는 데 도움이 되는 컴퓨터 모델을 탐구하고자 하는 다른 연구자 및 조직과의 협력을 확대하기를 기대하고 있습니다.