본문 바로가기

바이오스펙테이터

기사본문

[김태형의 게놈이야기]'다시 늘어난' 인간 유전자 수

입력 2018-06-26 10:11 수정 2018-06-26 10:11

김태형 테라젠이텍스 이사

스티븐 잘츠베르그 그룹, 2만1306개 추청..사상 최대 규모 전사체 데이터 분석을 통해 새롭게 추정

사실 광범위한 유전자 연구에 비해 복잡한 인간을 구성하는데 필요한 유전자 숫자를 정확히 알게 된지는 얼마 되지 않았다. 그 시초는 1964년 프리에드리치 보겔(Friedrich Vogel)이었다. 사람의 반수체 염색체들의 분자 질량을 계산해 인간 게놈 사이즈를 추정했으며 사람의 생물학적 복잡도를 고려해 약 670만개일 것이라고 예상했다. 그리고 2년 후인 1969년 카우프만(Kauffman)은 최소 200만개에서 최대 4000만개로 유전자 수를 추정했다.

그러다 2000년대로 들어서면서 휴먼 게놈 프로젝트와 전사체 분석기술(ESTs, Expressed Sequenced Tags)과 같은 대규모 유전체 분석이 가능해지면서 유전자 숫자를 비교적 정확하게 추정할 수 있게 됐고, 이후 15년간 계속해서 아주 조금씩 변동이 있었다. 실제 휴먼 게놈 프로젝트가 진행되면서 4만5000개 미만일 것이라는 추정치가 나왔지만 실제 휴먼 게놈 지도가 완성된 2004년에는 추정치보다 현저히 적은 2만5000개 정도라는 발표가 있었다.

이 숫자는 학계 및 연구자들을 매우 놀라게 했다. 이렇게 복잡한 사람을 구성하는데 필요한 유전자 수가 겨우 이 정도란 것에 큰 의문을 가질 수 밖에 없었던 것이다. 그런데 더 놀라운 것은 최근 10년 사이에 단백질 코딩하는 유전자 수는 2만개를 넘어서지 않을 것이라는 보고들이 계속 발표가 되었다는 것이다.

인간 유전자 수를 계속해서 업데이트 하고 있는 주요 3개의 데이터베이스를 살펴보면 NCBI의 RefSeq에는 2만385개(2018년 6월 22일 업데이트), GENCODE에서는 1만9901개(2017년 11월, version 28), CCDS 데이터베이스는 1만9032개(2018년 6월 23일, release 22)로 최종 업데이트가 돼 있어 인간의 유전자 수는 약 2만개 전후로 집계되어 있다.

그러다 지난 5월 29일, 존스홉킨스 전산 생물 통계학으로 유명한 스티븐 잘츠베르그(Steven L. Salzberg) 그룹에서 대규모 GTEx 전사체 데이터(31개 조직, 9795개의 RNA-Seq 샘플 데이터)를 활용해 코딩 유전자 수가 2만1306개이며 비 코딩 유전자 수는 2만1856개라고 업데이트된 연구결과를 bioRxiv에 발표를 하면서 이슈가 되고 있다.

유전자마다 다양한 전사체가 존재한다는 것은 이미 알고 있는 사실이었지만 최대 규모의 전사체 데이터를 통해 가장 정확한 32만3824개의 다양한 전사체가 발견되었으며 사람의 유전자마다 7.5개의 다양한 타입의 전사체가 발현됨을 될 수 있음을 알 수 있게 되었다. 그리고 결과적으로 이 연구를 통해 기존에 2만개도 되지 않았던 단백질 코딩 유전자 수가 1178개나 대폭 증가하였다.

이 연구결과가 정확하다고 생각되는 이유는 수 백명의 사후 54개 신체 부위와 31개 조직타입에서 얻어진 9795개의 RNA-Seq 전사체 데이터셋에서 분석이 이루어졌다는 것이다. 이들 조직에서 유래된 약 9000억개의 전사체 리드를 분석한 결과 3000만개 전사체 조각이 70만 유전체 영역에 다양하게 맵핑되는 것을 확인할 수가 있었으며 이 중 단 약 5%인 4만 영역만이 기능을 하는 유전자 영역이었다는 것을 알게 되었다.

이는 현재까지 유전자 구조를 분석한 데이터 중에 가장 큰 빅데이터 전사체 데이터를 활용했으며 신뢰할만한 데이터 프로세스와 생명정보학 분석 방법을 적용해 이를 밝혀낸 것이므로 알려진 기존보다 약 1200개 유전자가 늘어난 2만1306개 인간 유전자 수 추정치가 가장 정확하다고 볼 수 있을 듯 하다.

참고문헌

1. Mihaela Pertea et al., bioRxiv (2018)

2. Vogel F., Nature 201:847 (1964).

3. KAUFFMAN, J. Theoret. Biol. 22, 437-467 (1969).

4. International Human Genome Sequencing Consortium. Nature 431:931 (2004)

5. https://www.ncbi.nlm.nih.gov/gene

6. https://www.gencodegenes.org/stats/current.html

카카오스토리로 기사 공유하기