GWAS로 배우는 유전통계학 - 6. 맺음말
2012-04-18
Genome-wide association analysis
Next Generation Sequencer
6. 맺음말
게놈정보는 유전계승법칙에 따라 다음 세대에 전달되는 안정된 형태의 데이터이기 때문에 통계적으로 유리하다고 말할 수 있습니다. 특히 게놈정보 중 다형성의 하나인 SNP에 주목해 모든 염색체상의 SNP좌위의 유전자형을 총체적으로 관측하여 형질과의 관련성을 검토하는 GWAS에 대해 앞선 8개의 글에서 소개하였습니다.
하지만 이번에 소개한 방법은 게놈 연구의 일부에 지나지 않습니다. GWAS는 형질과의 관련성을 총체적으로 분석하는 방법이지만 변이는 모두 공통이라는 전제(Common disease-common variant)를 필요로 하죠. 따라서 개인별로 변이가 서로 다른 형질의 원인을 GWAS로 찾아내는 것은 어렵습니다. 예를 들어 혈연관계가 있는 집단을 연구대상으로 삼을 때에는 연쇄분석(linkage analysis)을 하는 것이 일반적입니다. 연쇄분석도 총체적으로 유전적 리스크를 탐색하는 방법이긴 하지만 공통으로 가지고 있는 변이가 아닌 개인별로 서로 다른 변이도 검출할 수 있기 때문에 GWAS와는 구별되게 됩니다. 또한, 최근에는 차세대 시퀀싱(Next Generation Sequencer, NGS)라 부르는 생물의 전 염기배열 혹은 전 엑솜(exom) 영역의 염기배열을 관측하는 장치가 등장하여 생물의 모든 게놈정보를 지금까지와는 비교되지 않을 정도의 속도와 비용으로 얻을 수 있게 되었습니다. NGS 데이터의 분석방법에 대해서는 이후 기회가 있을 때 소개하도록 하겠습니다.
GWAS는 원인 유전자좌 영역의 추출 및 위치를 탐색하는 것이 목적이므로 그 결과에 대한 의학적, 생물학적 기능에 대한 해석이 불가능하다면 분석결과를 신약개발, 개인의료 등에 응용하기 어렵게 됩니다.
게다가 GWAS에서는 형질과 관련성이 있는 진짜 SNP를 탐색하는 것이 아니라 매우 가까운 위치에 있는 SNP를 탐지하게 되는 경우도 많다고 앞서 설명했습니다. 이 때문에 진짜 관련 유전자 좌를 찾아내기 위해 GWAS로 얻어낸 후보 SNP좌위의 근처에 있는 유전자 좌를 더 자세히 조사해 보아야할 필요가 있습니다. 이때 각 배우자(정자 및 난자)의 염기배열(haplotype)을 추정하여 형질과의 관계성을 조사하는 방법도 많이 사용됩니다.
또한, 사람뿐 아니라 농작물이나 가축의 게놈연구도 활발히 이루어지고 있으며 벼, 소 등의 몇몇 종에 대해서는 GWAS 데이터를 얻기 위한 DAN chip도 시판되고 있습니다. 그러나 농작물 및 가축의 게놈연구는 그리 쉽지가 않은데 이들 개체는 무작위 교배가 아닌 경우가 많기 때문입니다. 예를 들어 식용 소의 대부분은 인공수정을 하므로 같은 정자로부터 태어나는 송아지가 다수 존재하게 되고 농작물은 접목 등을 통해 클론을 손쉽게 만들 수 있습니다. 이 때문에 HWE 법칙이 성립하지 않을 때가 많아서 데이터의 품질평가가 불가능하여 분석결과의 해석이 어렵게 됩니다. 그리고 농작물은 사람과 달리 2배체(diploid) 염색체가 아닌 경우도 많으므로 사람의 데이터를 분석하기 위해 개발된 소프트웨어 등을 그대로 이용할 수 없다는 단점도 있습니다.
마지막으로 게놈데이터 분석을 위해서 유닉스(특히 리눅스) 환경은 이제 필수라고 해도 과언이 아닙니다. GWAS만 해도 파일 사이즈가 보통 수 GB ~ 수십GB의 데이터를 핸들링하게 되는데 스팩이 좋은 PC라고 해도 GUI 환경에서 이를 다루기는 무리가 있습니다.
분석에 이용하는 소프트웨어도 대부분 CUI 환경을 기반으로 하고 있고 윈도즈용은 아예 없을 때도 많습니다. 게다가 요즘 NGS 데이터 분석이 점점 주류가 되고 있는데 이런 데이터를 분석하기 위해서는 고성능 병렬 계산기와 대용량의 저장공간이 필요합니다. 즉, 요즘 유행하는 빅데이터 분석을 위한 도구가 필요하죠. 이를 윈도즈 환경에서 구축하기란 불가능하지 않을까요?
이것으로 GWAS로 배우는 유전통계학 연재를 마치도록 하겠습니다.
부족한 글 보아 주셔서 감사합니다. ^^;