본문 바로가기

바이오스펙테이터

기사본문

[김태형의 게놈이야기]'인간 게놈지도' 업그레이드

입력 2018-11-27 10:46 수정 2018-11-28 10:01

김태형 테라젠이텍스 이사

존스홉킨스 살츠버그 그룹, 아프리카인 게놈분석 통해 'GRCh38' 한계 입증..'한국인 참조 게놈 지도'도 구축 중

인간 게놈지도를 완성하기 위한 프로젝트가 1990년부터 시작된 이래 2001년 처음 논문이 출판되었고 이후 '인간 참조 게놈지도(human reference genome map)'는 지속적으로 버전이 업그레이드 되고 있다.

이 인간 표준 게놈지도는 인류가 달에 가기 위해 노력한 것과 같이 인간의 유전자의 총합인 게놈지도를 완성하기 위한 노력의 일환으로 영국과 미국이 공동으로 휴먼게놈프로젝트(Human genome project)를 통해 약 30여 년간 정교하게 다듬어 만든 인류 역사상 가장 중요한 빅데이터다. 현재는 GRCh38 버전이 사용되고 있다.

그런데 2018년 11월 존스홉킨스 살츠버그(Salzberg) 그룹은 네이처 제네틱스에 발표한 아프리카인 후손들의 게놈 분석을 통해 인간 게놈 길이 30억중, 10%인 3억개 염기서열(300Mb) 규모의 게놈 서열이 기존의 인간 참조 게놈지도(GRCh38)에 존재하지 않다는 것을 밝혀냈다.

현재 인간 참조 게놈지도는 대부분 개인 또는 소수의 유럽인의 게놈을 대상으로 구축되어 있어 전체 인류의 인구집단을 대표하는 인간 게놈지도로는 부적합하다는 것은 10여년 전부터, 많은 연구자들 사이에서 회자되어 왔다. 한국에서도 2007년 한국인 참조표준게놈사업을 시작한 국가생명정보센터(코빅)의 박종화 박사와 그 동료들도 이를 주장해 한국인 특이적인 게놈표준을 2016년에 코레프(KOREF)란 이름으로 발표한 적도 있다.

이런 수많은 민족별 참조 표준의 중요성을, 이번 연구에서는 약 20개국의 910명에서 유래된 범 아프리카인 게놈(African pan-genome) 분석을 통해 밝혀 낸 것이다.

이 연구를 아프리카인 게놈을 대상으로 한 이유는 다음과 같다. 인류는 수백만년 전에 아프리카에서 어울려 살았다. 그리고 수십만 년 전 그곳을 떠나 주요 유럽과 아시아에 살던 네안데르탈인 및 데니소바인들과 섞이면서 현재의 인구집단인 유럽인과 동양인을 형성해 전 세계로 퍼졌다. 이를 바탕으로 유럽인은 한국인과 약 4만년 떨어져 있고, 아프리카인은 약 5만5000년 정도 떨어져 있다. 그러나, 기본적으로 모두가 아프리카에서 왔다.

그러므로 그때 이동한 사람들의 아주 일부 게놈이 전세계 퍼진 것이며 원래 원시 인류가 가지고 있던 게놈은 분명히 아프리카 후손들에게만 남아있게 된다. 그러므로 이 아프리카 후손 수만~수십만 명의 게놈을 해독해보면 인류의 근본적인 유전자정보의 총합을 거의 다 복원이 가능하리라 봤는데 여기서는 910명 만으로도 어느 정도는 복원해 낸 것이다.

이때의 분석 방법으로는 기존의 GRCh38에 붙여지지 않는 서열 조각들을 모두 모아 어셈블리를 통해 1000bp 이상의 긴 서열들만을 대상으로 분석하였으며 대부분은 1000~5000 bp 정도였고 가장 큰 사이즈는 15만3000 bp도 있었다고 한다.

이러한 게놈 분석을 통해 인간 참조표준 게놈지도(GRCh38)에 비해 약 300Mb인 10% 정도가 아프리카 후손 게놈에서는 더 존재했으며, 315개나 되는 단백질 합성 유전자가 아프리카인 후손들에게는 더 존재했다고 추측할 수 있었다.

더 흥미로운 것은 이번 연구자들이 2016년 최초로 전세계적으로 등록하고 네이처 커뮤티케이션즈에 발표한 한국인 참조 게놈(KOREF1.0)을 분석한 결과 기존의 인간 참조 게놈지도에서는 존재하지 않는 게놈 영역들이 한국인 게놈과 아프리카인 게놈에서는 공통으로 발견되었고 많은 영역이 공유되고 있음을 밝혀낸 것이었다.

현재 전 세계 연구자들은 게놈 연구 또는 진단을 위해 사용하는 기존의 인간 참조 게놈지도를 가장 완벽한 사람의 게놈이라고 인식하고, 17년간 이를 기반으로 사람의 기원과 질병관련 게놈 연구, 진단기술 및 신약개발을 해오고 있다. 이로 인해 인간 참조표준 게놈지도(GRCh38)에 맵핑되지 않는 서열들은 게놈 해독과, 서열분석의 에러나, 박테리아 등 불순물에서 유래되었다는 여러 이유로 정보분석에 활용하지 않고 있다. 사실 이중에는 GRCh38의 불완전함으로 맵핑되지 않는 영역이 있음에도 이를 표준 게놈지도로 사용하게 됨으로써 대부분 서열들이 폐기되고 있는 것이 현실이다.

이번 연구를 통해 또 한번 이러한 방법이 잘못된 것이며 지구상의 70억 인구를 대변할 수 있는 지도로 보기에는 부적합하다는 것을 확인되었다.

최근 게놈 해독 비용이 급격히 낮아져 개인의 게놈 서열을 가질 수 있는 시대에서는 특히 특정 개인이나 인구집단을 반영할 수 있는 수십~수백 개의 다양한 인간 참조 게놈지도가 필요로 해 보인다. 단일의 참조 게놈이 인류의 유전적 다양성을 전혀 반영하지 못하고 있어 이를 보완하기 위한 노력이 앞으로 계속 이루어져 보완될 것으로 보인다.

다행히 이런 방향성을 가지고 국가참조표준센터와, 유니스트 게놈기술센터 등 몇개 그룹에서 한국인 참조 게놈사업을 진행 중에 있으며 '게놈 코리아 울산 프로젝트'를 통해 만 명 이상의 한국인 게놈을 해독하고 분석함으로써 한국인만의 게놈 다양성을 담을 수 있는 '한국인 참조 게놈지도'를 구축하고 있다. 이것은 앞으로, 수 만년이나 떨어진 백인과 흑인의 표준 게놈이 아니라 우리에게 안성맞춤인 한국인 참조 표준에 한국인의 일반인 게놈을 비교해 더 정확한 맞춤 정밀의료 기술 개발이 국내에서도 가능해질 것으로 전망된다.

출처:

https://www.nature.com/articles/s41588-018-0273-y

https://www.nature.com/articles/ncomms13637