기사본문
[김태형의 게놈이야기]급성장하는 '디지털 바이오 뱅크'
입력 2018-02-13 09:50 수정 2018-02-13 09:50
김태형 테라젠이텍스 이사
지난 20년동안 유전체 기술은 비약적으로 발전하여 그 비용은 이전과 비교가 안될 만큼 급격히 감소했다. 오늘날 대용량 마이크로어레이 분석은 약 10만원, 전장유전체 해독은 약 100만원이면 분석이 가능해졌다. 이로 인해 유전체 분석 시장은 연구기관에서 소비자까지 영역이 확장되고 있으며 최근 소비자 의뢰 유전자검사(direct-to-consumer genetic testing, DTC) 서비스가 전 세계적으로 급성장하고 있다.
DTC 서비스는 평균적으로 약 10만원의 비용으로 약 50만개 정도의 SNP를 타이핑하여 유전체 결과를 제공하고 있으며 매일 1만명 이상의 DTC 유전자 테스트 서비스가 진행되고 있다. 최근 2년 사이 4배 이상 급성장했는데 2017년 11월 집계한 자료를 살펴보면 이미 전 세계적으로 1000만명 이상이 DTC 유전자 검사를 받았다.
특히 DTC 검사 서비스를 진행하는 대표적인 회사 23andMe는 250만명, AncestryDNA는 23andMe의 두 배 이상인 600만명의 서비스를 진행했다. 이로 인해 AncestryDNA는 2015년 이후로 가장 많은 유전체 데이터를 확보한 회사가 되었다.
이러한 서비스를 진행하는 대부분의 회사들은 연구자와 개인에게 데이터를 공유하지 않으나 23andme와 MyHeritage의 경우는 질병 표현형 관련 정보를 수집하고 회사와의 공동연구를 조건으로 연구자들에게 데이터를 공유하고 있다. 이러한 유전체 데이터 공유는 연구자들에게 더 많은 연구의 기회를 제공하며 집단협업(crowdsource)을 통해 데이터를 수집하고 공유함으로써 기존의 대규모 코호트 기반의 비용이 많이 들어가는 샘플 관리 프로세스를 우회할 수 있는 좋은 대안이 되어 가고 있다.
이러한 분위기에 힘입어 2018년 1월 26일에 네이처 제네틱스 'Comment' 세션으로 DNA랜드(DNA.Land)라는 새로운 디지털 바이오뱅크의 새로운 프레임웍을 소개하는 논문이 출판되었다.
DNA랜드는 여러 연구기관, 병원들이 컨소시엄을 통해 대규모의 자원을 필요로 하는 기존 바이오뱅크(Biobank) 프로젝트와는 완전히 다른 접근 방식으로써 DTC 유전자 서비스를 받은 개개인들로부터 자발적으로 유전체데이터를 제공받아 이를 기반으로 유전체데이터를 수집하는 디지털 바이오뱅크(Digital Biobank)이다. 현재(2018년 2월 10일 기준) DNA랜드의 인터넷 웹사이트(https://dna.land) 상에는 약 8만 3000 명의 사용자가 자신의 유전체 정보와 표현형 정보를 연구에 기여하기 위해 스스로 공유한 현황을 볼 수 있다.
물론 DNA랜드 이전에도 DTC 유전체 데이터를 집단협업으로 수집하는 OpenSNP.org 사이트가 있어 서비스를 비영리적으로 제공하고 사용자가 DTC 유전체 데이터를 직접 업로드하여 공개적으로 데이터를 공유할 수 있는 기본 시스템을 제공했다. 하지만 참여자와 연구자에게 제공되어야 하는 사생활정보 침해에 대한 관리 및 기관생명윤리위원회(IRB)를 통한 동의서를 요구하는 절차가 전혀 존재하지 않아 문제의 소지가 있었으며 사용자 인터페이스도 편리하지 않아 하루에 1~2명 참여하는 수준에 머물렀다. 이 사이트가 운영되는 약 5년동안 참여자는 5000명에 불과했다.
이와는 달리 DNA랜드는 2015년 10월에 처음 시작해 첫 달에만 8000명이 참여했으며 2016년 4월부터 개선된 조상찾기 레포트 서비스가 시작되면서 매달 2000명의 새로운 유전체 데이터가 모이고 있다. 2017년 7월까지 약 5만명의 유전체 데이터를 모았으며 현재는 약 8만3000명 이상의 사용자들이 참여하고 있다. 이 중 45%는 AncestryDNA의 사용자이며 40%는 23andme 그리고 나머지는 FamilyTreeDNA 고객들인 것으로 예상된다.
DNA랜드는 지속적인 인간유전학 연구를 위해 유전체와 표현형 정보를 수집하는 웹사이트를 개발하고자 할 때 다음의 두가지 의도를 가지고 시작했다고 한다.첫째, DTC 유전자 검사 회사의 서비스를 토대로 유전형과 표현형의 정보를 집단협업을 통해 수집하는 것을 시도한다. 두번째, 참가자 주도의 유전자 연구를 참가자가 직접 관리하는 형태를 시도한다(예를 들면 참여자가 직접 표현형 데이터 공유 정도를 스스로 관리하면서 연구자들에게 정보를 제공할 수 있다).
그리고 기존 IRB를 통해 작성되는 지나치게 길고 난해한 동의서와는 달리 DNA랜드는 사용자와 연구자의 프레임웍 상황에서 꼭 필요한 내용들, 또 공유되는 유전체 데이터로 인해 발생할 수 있는 위험과 이점에 대해서 일반인들이 잘 이해할 수 있도록 쉽고 정확하게 표기된 동의서를 제공하고 있다. 이로 인해 거의 읽지않고 넘어가는 기존 동의서와 달리 DNA랜드에서 제공하는 동의서의 경우 대부분의 참여자들이 주의깊게 읽고 있으며 유방암 설문조사와 관련된 경우 평균 약 17초 정도, 다양한 표현형 관련된 동의서의 경우 평균 약 34초를 머물면서 동의서를 살펴보았다고 한다.
협력사업으로 국립 유방암 연합(National Breast Cancer Coalition, NBCC)에 참여한 사용자에게도 이러한 절차를 통해 다시 그들의 유전체를 공유하고 설문조사를 참여하도록 시도하였고 약 6개월 동안 약 1만명 이상의 참여자들이 설문조사를 마쳐 매우 성공적으로 완료하기도 했다.
참가자들은 자신의 유전 정보(23andMe, AncestryDNA, FamilyTreeDNA 및 MyHeritage에서 서비스 받은 파일)를 업로드하고 자신의 정보를 제공하는 범위를 지정할 수가 있는데 보통 업로드하고 24시간 이후에 DNA족보, 신체적 특징 및 웰니스 관련 등의 예측 결과 리포트를 제공해준다(여기서 만들어진 모든 프로그램의 소스들은 깃허브, https://github.com/TeamErlich/dnaland 를 통해 모두 공유하고 있다). 현재는 복잡한 규제를 피하기 위해 질병관련 표현형 결과는 제공하지 않으며 단지 유방암 가족력과 같은 질병표현형에 대해서만 표현형 정보를 수집하고 있다. 그리고 이렇게 잘 만들어진 동의서도 CC-BY-2.0 라이센스에 따라 모두에게 공유하고 있다.
현재까지 설문지 상의 총 27만 5000문항에 참여자들이 정보를 채웠으며 사용자 중에 1만2000명 정도가 설문지 문항을 완벽하게 채웠다고 한다. 중간에 계정을 삭제한 이탈자는 약 4.9%로 매우 적으며 참여자들의 적극적인 참여도를 확인할 수 있다.
이렇게 적극적으로 사용자들이 참여하게 된 핵심 이유로는 사생활 보호 및 동의서 정책, 사용자 인터페이스 개선을 통한 사용자 배려를 들 수 있으며 차별화된 DNA족보 서비스를 무료로 제공해 사용자들이 자신의 페이스북에 그 리포트들을 공유함으로써 페이스북(11.6%) 및 구글 검색(47.4%)으로 약 60% 정도의 트래픽이 발생하면서 성장하게 되었다.
이러한 DNA랜드와 기존의 바이오뱅크와 가장 크게 구별되는 점은 이들 디지털 바이오뱅크를 유지하는데 들어가는 비용이 비교도 안 될 만큼 매우 낮고 새로운 타입의 표현형을 수집 가능하다는 것에 있다.
DNA랜드 서버는 단 2명이 아마존 웹 서비스(AWS)를 이용해 운영하고 있으며 약 8만명의 사용자가 사용하는 이 서버 유지비용은 한달에 약 500만원으로 샘플 마다 약 2000원 정도 비용이 들어간다. 기존의 대규모 코호트 사업을 통해 구축된 바이오뱅크(deCODE Genetics, DiscovEHR, UK Biobank, Million Veteran Program, eMERGE, BioVU 등)에서 1인당 유전정보 및 표현형 정보를 수집하는데 투입되는 비용에 비하면 1/1000도 안되는 비용으로 보인다.
그리고 디지털 바이오뱅크는 인터넷을 통해 표현형 설문지를 실시간으로 작성하고 참여하도록 하고 특히 소셜네트워크 및 웹을 이용하는 사용자들의 다양한 디지털 표현형 정보를 수집할 수 있다는 장점이 있다. 예를들면 페이스북에서 '좋아요'를 누르는 패턴 및 특정 사이트에 접속했을 때의 심장 박동을 측정하는 등의 디지털 표현형을 수집할 수 있으며 게다가 다양한 소셜미디어 서비스에서 제공하는 API를 활용함으로써 실시간으로 참여자들의 종단 변화(longitudinal change)를 수집하고 관리할 수 있다.
궁극적으로는 이러한 시도를 통해 유전정보, DNA족보, 다양한 질병 표현형, 그리고 디지털 표현형 데이터까지 통합된 정보를 수집함으로써 기존의 대규모 코호트를 기반으로 한 바이오뱅크와는 또 다른 보완적인 시스템이 될 것으로 보인다.
마지막으로 이러한 DTC 유전자 검사가 급속히 성장하고 특히 DNA랜드와 같은 디지털 바이오뱅크가 발전할 수 있게 된 가장 큰 이유는 미국내 DTC 유전자 검사에 관한 규제의 완화일 것 이다. 개인이 회사에 의뢰해 자신의 유전정보를 획득하는 데 있어 제약이 없는 환경이 조성되었고 이를 통해 이런 건설적이고 다양한 시도가 가능해진것으로 보인다. 이런 점에 비추어볼 때 미국 보다 상대적으로 엄격한 국내 DTC 유전자 검사 규제로 인해 유전체 산업이 발전 못하는 부분에 있어 개선이 필요해 보인다.
출처
- DNA.Land, https://dna.land
- Nature Genetics 50, 160–165(2018), https://www.nature.com/articles/s41588-017-0021-8
- https://github.com/ TeamErlich/dnaland
- https://dna.land/nbcc/7HamcFxD
- http://thednageek.com/myheritage-has-nearly-700000-in-their-database/