2012/04/18
6. 맺음말
게놈정보는 유전계승법칙에 따라 다음 세대에 전달되는 안정된 형태의 데이터이기 때문에 통계적으로 유리하다고 말할 수 있습니다. 특히 게놈정보 중 다형성의 하나인 SNP에 주목해 모든 염색체상의 SNP좌위의 유전자형을 총체적으로 관측하여 형질과의 관련성을 검토하는 GWAS에 대해 앞선 8개의 글에서 소개하였습니다.
하지만 이번에 소개한 방법은 게놈 연구의 일부에 지나지 않습니다. GWAS는 형질과의 관련성을 총체적으로 분석하는 방법이지만 변이는 모두 공통이라는 전제(Common disease-common variant)를 필요로 하죠. 따라서 개인별로 변이가 서로 다른 형질의 원인을 GWAS로 찾아내는 것은 어렵습니다. 예를 들어 혈연관계가 있는 집단을 연구대상으로 삼을 때에는 연쇄분석(linkage analysis)을 하는 것이 일반적입니다. 연쇄분석도 총체적으로 유전적 리스크를 탐색하는 방법이긴 하지만 공통으로 가지고 있는 변이가 아닌 개인별로 서로 다른 변이도 검출할 수 있기 때문에 GWAS와는 구별되게 됩니다. 또한, 최근에는 차세대 시퀀싱(Next Generation Sequencer, NGS)라 부르는 생물의 전 염기배열 혹은 전 엑솜(exom) 영역의 염기배열을 관측하는 장치가 등장하여 생물의 모든 게놈정보를 지금까지와는 비교되지 않을 정도의 속도와 비용으로 얻을 수 있게 되었습니다. NGS 데이터의 분석방법에 대해서는 이후 기회가 있을 때 소개하도록 하겠습니다.
계속 읽기 »
2012/04/12
5. 분석결과의 시각화
GWAS로부터의 검정결과는 분석에 사용하는 DNA chip에 따라 차이가 있지만 보통 50만~150만의 p-값이 계산되므로 그 결과를 하나하나 확인하는 것은 사실상 불가능합니다. 따라서 먼저 시각적으로 분석결과를 확인하고 관련성이 있다고 판단된 SNP좌위의 정보를 확인하는 것이 일반적입니다. 분석결과의 시각화방법으로는 qq-plot(quantile-quantile plot)과 Manhattan plot이 많이 사용됩니다.
Quantile-Quantile plot
만약 분석에 사용된 모든 SNP에 대해 형질과의 관련성에 대해 검정을 할 때 관련성이 없다는 귀무가설이 바르다고 하면 모든 p-값은 0과 1 사이의 균일분포(uniform distribution)를 따르게 될 것입니다. 만약 관련성이 있다는 대립가설이 바르다고 한다면 그때의 p-값은 균일분포로 부터 벗어나게 됩니다.
계속 읽기 »
2012/04/11
4. 다중비교(multiple comparison) 문제
GWAS에서는 보통 50만~250만 SNP를 이용해 관련분석을 하게 되므로 반드시 다중비교의 문제가 발생합니다. 하나의 SNP를 이용한 검정의 유의수준을 \(\alpha\)라고 한다면 한 번의 검정에서 \(\alpha \times 100 \)%의 확률로 잘못된 결론을 내리게 됩니다. 만약 50만 SNP좌위를 이용해 검정을 했을 때 단 한 번이라도 잘못된 결론을 내리게 될 확률, 즉 거짓 양성(false positive)은
\[
1-(1-\alpha)^{500K} \approx 1
\]
이 되어 100% 오류를 포함하게 되는 거죠. 이러한 문제를 개선하기 위해 매우 다양한 방법이 고안, 발표되고 있습니다. 이번 포스팅에서는 가장 간단한 방법인 Bonferroni의 보정방법과 FDR(false discovery rate)를 이용한 방법에 대해 알아보도록 하겠습니다.
계속 읽기 »