기사본문
[김태형의 게놈이야기]인간 유전자 수 카운팅의 역사
입력 2017-07-17 15:08 수정 2017-07-17 23:26
김태형 테라젠이텍스 이사
인간을 구성하는데 필요한 유전자는 몇 개일까?
인간의 유전자 수를 확인(유전자 카운팅)하려는 시도를 한 것은 1964년 독일의 과학자 프리드리히 포겔(Friedrich Vogel)이 최초로 알려져 있다. 포겔은 당시 'A prelimi-nary estimate of the number of human genes'라는 논문을 통해 인간의 반수체 염색체들의 분자 질량을 계산하는 방법으로 인간 게놈이 30억개의 염기로 구성됐음을 거의 정확하게 추정했다.
여기까지 예측은 좋았다. 포겔은 여기에 일반 보통 유전자의 크기로 단순하게 나눠 인간 게놈내 약 670만개의 유전자가 있는 것으로 과하게 추정하는 실수를 범했다.
그리고 2년 후인 1969년. 미국의 과학자 스투아트 카프만(Stuart Kauffman)은 다른 방식으로 유전자 카운팅을 시도했는데 이때도 인간의 복잡한 생물학적 기능을 보았을 때 인간의 게놈에는 최소 200만 개에서 최대 4000만 개 정도의 유전자가 존재할 것으로 예측했다.
그후로도 약 30년 간 인간 게놈의 유전자 수는 최소 수십만개에서 수백만개 정도 될 것이라는 전망이 다수였다. 그러다 인류가 수행한 프로젝트 중 가장 높은 투자수익률(ROI, 178배)을 냈다는 인간 게놈 프로젝트(Human Genome Project)가 막바지에 접어들었을 무렵인 1990년 말 실제에 근접한 유전자 카운팅이 시작됐다. 당시 인간의 21번, 22번 염색체와 MHC 영역의 게놈이 해독되어 사람의 유전자 수가 4만 5000개는 넘지 않을 것으로 예측한 것이다.
2000년 네이처 제네틱스에 동시에 출판된 두 논문에 따르면 리앙(Liang)은 대량의 전사체 분석 기술인 ESTs (Expressed Sequenced Tags) 수백만 개를 활용해 인간의 유전자 수는 최소 약 4만 5000개에서 최대 약 14만개 정도 될 것으로 추정된다고 발표했다. 또 이윙(Ewing)은 ESTs 데이터를 염색체 22번에 맵핑하고 중복되지 않는 mRNA를 고려해 카운팅 한 결과 3만 5000개 정도로 추정했다.
그러다 2001년 2월 세기의 두 라이벌인 크레이그 벤터팀과 인간 게놈 시퀀싱 컨소시엄팀이 완성된 두벌의 인간 게놈 서열을 동시에 발표하면서 더 정확한 유전자 카운팅이 가능해졌다. 당시 크레이그 벤터 그룹은 약 2만 6000개를, 인간 게놈 시퀀싱 컨소시엄은 약 3만개로 발표했다.
그리고 시간이 지나 2004년 인간 게놈의 갭이 많이 메워지고 아노테이션(annotation)이 좀 더 정확한 '최종 인간 게놈 초안'이 발표되면서 최대 약 2만 5000개까지 유전자를 카운팅하게 된다.
그러다 최종적으로 2007년 실제 유전자 수(단백질 코딩 기준)는 2만개를 넘지 않을 것이라는 놀라운 연구 결과가 발표된다.
이렇게 계속 인간의 게놈에 존재하는 유전자 수의 추정치가 줄고 있는 상황으로 레퍼런스 게놈이 업데이트될 때마다 적게는 수십 개에서 많게는 수백 개의 단백질 코딩 유전자가 non-coding 유전자 또는 pseudogene(가짜진)으로 분류되고 있다.
세포수가 1000개 정도밖에 되지 않는 세상에서 가장 심플한 구조를 가진 동물인 꼬마선충(C. elegance)이 가지고 있는 단백질 코딩 유전자 수(2만개)와 인간과 유전자 수가 동일하다는 것이어서 매우 충격적인 결과로 받아들여졌다.
최근에 빌게이츠도 비슷한 충격을 접했는데 작년 말 'THE GENE'의 저자인 싯다르타 무케르지(Siddhartha Mukherjee)와 인터뷰한 이후 인간의 유전자 수 보다 밀, 쌀, 옥수수가 유전자 수가 더 많다는 사실에 너무 놀라 본인의 트위터에 관련 내용을 올려 화제가 되기도 했다.
최종 발표된 휴먼 레퍼런스 게놈 버전인 GRCh38에서는 1만 9950개 단백질 코딩 유전자 수까지 줄어들었다. (참고: 동양인, 백인, 흑인 할 것 없이 모든 인간은 유전자 수가 동일하다.) 우리는 막연하게 인간은 다른 동물이나 식물에 비해서 훨씬 복잡하고 월등하기에 당연히 유전자 수도 훨씬 많을 것이라고 생각해 왔다가 이런 사실을 접하고 충격을 받을 수밖에 없었다.
그런데 그 이유는 무엇일까? 이렇게 복잡하게 생겨 먹은 인간이 왜 마우스와 꼬마선충과 비교해 유전자 수가 비슷하고 옥수수, 쌀, 밀보다 훨씬 적은 유전자 수를 가지고 있을까? 그렇다면 살아 있는 세포를 형성하고 유지하기 위해 필요한 가장 최소 유전자 수는 몇 개일까? 여기서 실마리가 있지 않을까 하는데…
2016년 '크레이그 벤터 연구소(J. Craig Venter Institute)'가 세상에서 가장 작은 게놈을 가진 합성 박테리아(Syn 3.0)를 만들어내 그 결과를 사이언스(Science) 저널에 발표를 했다. 놀라운 것은 이 생명체의 유전자 수는 473개이며 전체 DNA 수는 53만 개 밖에 안 되는 세포를 가지고 있어도 살아가는데 문제가 없다는 것이다.
30억 쌍의 DNA에 2만 개 유전자의 인간에 비해 이 합성 박테리아 생명체는 약 130배 이상 콤팩트하게 구성되어 있다는 것을 말한다. 다르게 말하면 인간 게놈의 대부분의 영역에는 이 합성 박테리아가 가지지 못한 다른 것들로 130배나 잔뜩 채워져 있다는 말이 된다.
실제 인간의 게놈을 구성하는 요소들을 보게 되면 △단백질 코딩 영역 (19,950개의 유전자) 2% △인트론 26% △SINEs 13% (Alu가 10%) △LINEs 20% △LTR 트랜스포존 (HERV) 8% △DNA 트랜스포존 3% △짧은 반복서열 (STR) 3% △Segmental duplication 5% △헤테로크로마틴 8% △유니크 서열 12% 등이다.
인간의 단백질 코딩 유전자는 전체 인간 게놈에 있어 아주 작은 단지 2% 밖에 차지하지 않아 인간의 복잡성은 단지 유전자 수로 결정되지 않으며 다른 나머지 98%를 차지하는 정크(Junk) 영역이라고 했던 부분이 인간을 인간답게 하는 복잡한 기능을 담당하고 있을 것으로 예상해 전 세계 연구자들이 이 분야에 대한 연구를 진행하고 있다. 실제 기존의 정크 영역에서 다양한 유전자 조절인자(regulatory element), 이동성 유전인자(transposable element), 조절 RNA(small RNA) 관련해 많은 새로운 기능들이 밝혀지고 있다.
아직 우리는 게놈의 2% 밖에 안 되는 단백질 코딩 유전자들의 기능도 다 이해 못하고 있을 뿐 만 아니라 98% 해당하는 다른 게놈 영역에 대해서는 전혀 이해하지 못하고 있다. 앞으로 진행해야 할 게놈 연구가 너무나 많지만 우리가 살아 있는 동안에는 인간의 유전자들과 이를 포함한 전체 게놈을 해석해 내지 않을까 하는 큰 기대감을 가지게 된다.
※참고문헌
1. Vogel F., Nature 201:847 (1964).
2. KAUFFMAN, J. Theoret. Biol. 22, 437-467 (1969).
3. The impact of genomics on the U.S economy.
http://web.ornl.gov/sci/techresources/Human_Genome/publicat/2013BattelleReportImpact-of-Genomics-on-the-US-Economy.pdf
4. Liang,F.,. et. al., Nat. Genet. 25, 239-240 (2000).
5. Ewing, B. et. al., Nat. Genet. 25, 232-234 (2000).