<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Wsyang.com</title>
	<atom:link href="http://wsyang.com/feed/" rel="self" type="application/rss+xml" />
	<link>http://wsyang.com</link>
	<description>Mac, Statistics and Common Life in Japan</description>
	<lastBuildDate>Fri, 27 Apr 2012 08:32:08 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>소비자물가지수 지표 변경 전후 비교</title>
		<link>http://wsyang.com/2012/04/how-to-lie-with-statistics/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=how-to-lie-with-statistics</link>
		<comments>http://wsyang.com/2012/04/how-to-lie-with-statistics/#comments</comments>
		<pubDate>Tue, 24 Apr 2012 11:50:53 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[생활속의 통계]]></category>
		<category><![CDATA[McNemar 검정]]></category>
		<category><![CDATA[소비자물가지수]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2786</guid>
		<description><![CDATA[1년 전에 역대 정권별 소비자물가 상승률 추이라는 글을 올린 적이 있습니다. 이후 2011년 11월에 소비자물가지수 지표가 변경된 것은 많은 분이 아시리라 생각합니다. 통계청의 보도 자료를 보면 변경 이전에는 2005년의 물가를 100으로 보았을 때의 상대 값이었는데 변경 이후에는 2010년의 물가를 100으로 놓았을 때의 상대적인 값을 물가지수로 사용하게 됩니다. 그 외에도 조사대상 품목 수가 489개에서 481개로 변경 [...]<p class="extra"><a href="http://jarederickson.com/freebies/" title="Jared Erickson" >A minimal wordpress theme by Jared Erickson</a></p>]]></description>
			<content:encoded><![CDATA[<p>1년 전에 <a href="http://bit.ly/JmvWEo">역대 정권별 소비자물가 상승률 추이</a>라는 글을 올린 적이 있습니다. 이후 2011년 11월에 소비자물가지수 지표가 변경된 것은 많은 분이 아시리라 생각합니다. 통계청의 <a href="http://kostat.go.kr/portal/korea/kor_nw/2/1/index.board?bmode=read&amp;aSeq=252456">보도 자료</a>를 보면 변경 이전에는 2005년의 물가를 100으로 보았을 때의 상대 값이었는데 변경 이후에는 2010년의 물가를 100으로 놓았을 때의 상대적인 값을 물가지수로 사용하게 됩니다. 그 외에도</p>
<ul>
<li>조사대상 품목 수가 489개에서 481개로 변경</li>
<li>소비행태의 변화에 따른 품목 추가: 스마트폰 이용료, 떡볶이, 외식용 막걸리, 캠핑용품 등 43개 종목 추가</li>
<li>탈락 및 변경 품목: 금반지, 한복, 정수기, 캠코더, 전자사전 등 21개 종목 탈락</li>
<li>2010년 가계동향조사의 소비지출액 구성비에 따른 가중치의 재조정 </li>
<li>경제협력개발기구(OECD) 방식을 도입해 품목별 가중치에 적용 </li>
</ul>
<p>등을 주요 내용으로 삼고 있습니다.<br />
<span id="more-2786"></span><br />
새 지수를 적용한 결과 이전 방식대로 계산할 때 4.4%이던 2011년 물가상승률이 4.0%로 떨어지게 됩니다. 작년 글에서도 언급했듯이 정부의 물가상승 억제선은 보통 4%가 됩니다. 이를 기준으로 성적을 매기게 되겠죠. 이번 변경 덕분에 참 이상하리만치 우연일지도 모르겠습니다만 작년 물가상승률은 더도 덜도 아닌 딱 4%로 역사에 남게 되었습니다. 이에 대해 언론에서도 통계청이 새 지수 적용을 11월로 앞당겨 적용해 ‘물가 꼼수’를 부리려는 것 아니냐는 의혹을 제기하기도 했습니다. </p>
<ol><a href="http://www.seoul.co.kr/news/newsView.php?id=20111130005005">[물가통계 조사방식 개편] 새 지수 앞당겨 적용 ‘꼼수’ 논란</a> &#8211; 서울신문 </ol>
<p>그럼 소비자물가지수 지표 변경 전과 이후의 물가지수를 좀 더 자세하게 비교해 보면 어떻게 될까요? </p>
<p>지표 변경 발표 후 <a href="http://kosis.kr/">국가 통계 포털</a> 및 <a href="http://www.index.go.kr/egams/stts/jsp/potal/stts/PO_STTS_IdxMain.jsp?idx_cd=1060&#038;bbs=INDX_001&#038;clas_div=A">e-나라지표</a>의 소비자물가지수는 2010년을 기준으로 한 값으로 변환되었습니다. 그런데 다행(?)히도 제가 작년에 글을 쓰면서 사용했던 2005년 기준을 적용한 물가지수 데이터가 남아있어서 두 값을 한 번 비교해 보았습니다. 다만 아직 변환작업이 모두 안 끝난 것인지 아니면 변환 후에도 지수의 변동이 없었는지 확인할 수 없지만 2005년 이전과 2007~2009년의 소비자 물가지수(전년 같은 달 대비)의 값들은 변화가 없더군요. </p>
<p><a href="http://wsyang.com/wp-content/uploads/2012/04/new_old.png" rel="lightbox"><img src="http://wsyang.com/wp-content/uploads/2012/04/new_old-500x375.png" alt="" title="new_old" width="500" height="375" class="aligncenter size-medium wp-image-2824" /></a></p>
<p>위 그래프는 2003년 3월부터 2012년 3월까지 소비자물가지수(전년 같은 달 대비)의 추이를 그려본 그래프입니다. 변경 전의 지수를 실선으로 변경 후의 지수를 표현했습니다. 그래프에서도 확인할 수 있듯이 지표변경 후 지수가 높아진 때도 낮아진 때도 있습니다. 그런데 MB 정권에 들어서는 지표변경 후 소비자물가지수가 낮아진 달이 더 많아진 듯이 보입니다. </p>
<p>좀 더 디테일하게 살펴보죠. 다음 표는 지표변경 후 소비자물가지수가 상승한 달과 하락한 달을 세어본 것입니다. 단, 괄호 안의 %는 두 대통령의 전체 재임 기간 중 소비자물가지수에 변화가 있었던 개월 수의 비율을 의미합니다.  </p>
<p><a href="http://wsyang.com/wp-content/uploads/2012/04/table11.png" rel="lightbox"><img src="http://wsyang.com/wp-content/uploads/2012/04/table11.png" alt="" title="table1" width="294" height="77" class="aligncenter size-full wp-image-2830" /></a></p>
<p>위 표에서 보는 바와 같이 지표변경 후 MB 정부에서 지수가 상승한 개월 수는 참여정부의 개월 수보다 그 비율이 낮고 반대로 하락한 개월 수는 참여정부보다 MB정부의 개월 수가 10% 이상 많음을 알 수 있습니다. MB정부 전체의 1/4이나 하락했네요. 두 대통령의 재임 기간 중 월별 소비자물가지수의 평균 변화를 보면 참여정부는 2.94에서 2.93으로 MB 정부는 3.65에서 3.56으로 변경되어 평균값으로 보아도 MB정부의 하락폭이 더 크다는 걸 알 수 있습니다. </p>
<p>또한, 소비자물가지수 상승률 4%를 기준으로 했을 때 현 정부의 4% 이상인 월 수와 미만인 월 수의 변화를 세어보면 다음 표와 같습니다.<br />
<a href="http://wsyang.com/wp-content/uploads/2012/04/table21.png" rel="lightbox"><img src="http://wsyang.com/wp-content/uploads/2012/04/table21.png" alt="" title="table2" width="409" height="113" class="aligncenter size-full wp-image-2829" /></a></p>
<p>이렇게 전후 관계가 있는 데이터에 대한 통계 검정방법으로 McNemar의 검정법이 있습니다. 위 데이터를 이용해 검정을 해보면 유의확률(p-value) 0.0143으로 유의수준 5%에서 지표변경 전과 변경 후에 4% 이상인 월 수와 미만인 월 수의 변화에는 통계적으로 유의한 차이가 있음을 확인할 수 있었습니다. 약간 과장해서 말하자면 소비자물가지수 상승률 4%를 기준으로 보았을 때 지표변경 전의 지수와 변경 후의 지수는 성격이 다르다고 할 수 있겠죠.  </p>
<p>물론 개편으로 인한 소비자물가 하락 효과는 1991년 -0.3%, 1996년 -0.1%, 2001년 -0.3%, 2006년 -0.2% 등으로 이전의 개편에서도 있었다고 통계청의 보도자료는 밝히고 있습니다만 이번 개편은 유독 MB 정권 하에서의 물가지수가 혜택을 받고 있다는 느낌을 지울 수가 없습니다. </p>
<p>게다가 2012년 3월의 소비자물가지수 상승률이 2.6%로 발표된 데 대해 실제로는 3.2%라는 민간 연구기관의 발표가 있었고, 이는 통계청의 공식 트윗 계정에서도 인정했습니다. </p>
<blockquote class="twitter-tweet tw-align-center" lang="ko"><p>통계청이 발표한 3월 소비자 물가 상승이 2.6%가 아니라 3.2%라는 민간연구기관의 보고서 내용은 사실, 통계청(<a href="http://t.co/K9ehOlrU" title="http://bit.ly/HteoL0">bit.ly/HteoL0</a>)과 기획재정부(<a href="http://t.co/i0Xogrju" title="http://bit.ly/HqvFiB">bit.ly/HqvFiB</a>)에서 이미 설명했던 내용입니다.</p>
<p>&mdash; 통계청(StatisticsKorea) (@KOSTATIN) <a href="https://twitter.com/KOSTATIN/status/189229469595205633" data-datetime="2012-04-09T05:53:15+00:00">4월 9, 2012</a></p></blockquote>
<p><script src="//platform.twitter.com/widgets.js" charset="utf-8"></script></p>
<p>현실을 제대로 반영 못 하는 통계지표. 이런 지표를 이용해 목표달성 했다고 자화자찬하는 정부와 보수언론을 보면 그냥 찌질하게 보이는 건 저뿐일까요?</p>
<p>이상 McNemar 검정의 예제를 생각하다가 우발적으로 생각나 적어본 글이었습니다.  </p>
<h3  class="related_post_title">이글과 관련된 글</h3><ul class="related_post"><li>2011/05/06 -- <a href="http://wsyang.com/2011/05/%ec%a0%95%ea%b6%8c%eb%b3%84-%ec%86%8c%eb%b9%84%ec%9e%90%eb%ac%bc%ea%b0%80-%ec%83%81%ec%8a%b9%eb%a5%a0-%ec%b6%94%ec%9d%b4/" title="역대 정권별 소비자물가 상승률 추이">역대 정권별 소비자물가 상승률 추이</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2012/04/how-to-lie-with-statistics/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>GWAS로 배우는 유전통계학 &#8211; 6. 맺음말</title>
		<link>http://wsyang.com/2012/04/gwas-concluding-remarks/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=gwas-concluding-remarks</link>
		<comments>http://wsyang.com/2012/04/gwas-concluding-remarks/#comments</comments>
		<pubDate>Wed, 18 Apr 2012 12:54:12 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[유전통계학]]></category>
		<category><![CDATA[Genome-wide association analysis]]></category>
		<category><![CDATA[Next Generation Sequencer]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2771</guid>
		<description><![CDATA[6. 맺음말 게놈정보는 유전계승법칙에 따라 다음 세대에 전달되는 안정된 형태의 데이터이기 때문에 통계적으로 유리하다고 말할 수 있습니다. 특히 게놈정보 중 다형성의 하나인 SNP에 주목해 모든 염색체상의 SNP좌위의 유전자형을 총체적으로 관측하여 형질과의 관련성을 검토하는 GWAS에 대해 앞선 8개의 글에서 소개하였습니다. 하지만 이번에 소개한 방법은 게놈 연구의 일부에 지나지 않습니다. GWAS는 형질과의 관련성을 총체적으로 분석하는 방법이지만 변이는 [...]<p class="extra"><a href="http://jarederickson.com/freebies/" title="Jared Erickson" >A minimal wordpress theme by Jared Erickson</a></p>]]></description>
			<content:encoded><![CDATA[<h3> 6. 맺음말 </h3>
<p>게놈정보는 유전계승법칙에 따라 다음 세대에 전달되는 안정된 형태의 데이터이기 때문에 통계적으로 유리하다고 말할 수 있습니다. 특히 게놈정보 중 다형성의 하나인 SNP에 주목해 모든 염색체상의 SNP좌위의 유전자형을 총체적으로 관측하여 형질과의 관련성을 검토하는 GWAS에 대해 앞선 8개의 글에서 소개하였습니다. </p>
<p>하지만 이번에 소개한 방법은 게놈 연구의 일부에 지나지 않습니다. GWAS는 형질과의 관련성을 총체적으로 분석하는 방법이지만 변이는 모두 공통이라는 전제(Common disease-common variant)를 필요로 하죠. 따라서 개인별로 변이가 서로 다른 형질의 원인을 GWAS로 찾아내는 것은 어렵습니다. 예를 들어 혈연관계가 있는 집단을 연구대상으로 삼을 때에는 연쇄분석(linkage analysis)을 하는 것이 일반적입니다. 연쇄분석도 총체적으로 유전적 리스크를 탐색하는 방법이긴 하지만 공통으로 가지고 있는 변이가 아닌 개인별로 서로 다른 변이도 검출할 수 있기 때문에 GWAS와는 구별되게 됩니다. 또한, 최근에는 차세대 시퀀싱(Next Generation Sequencer, NGS)라 부르는 생물의 전 염기배열 혹은 전 엑솜(exom) 영역의 염기배열을 관측하는 장치가 등장하여 생물의 모든 게놈정보를 지금까지와는 비교되지 않을 정도의 속도와 비용으로 얻을 수 있게 되었습니다.  NGS 데이터의 분석방법에 대해서는 이후 기회가 있을 때 소개하도록 하겠습니다.<br />
<span id="more-2771"></span><br />
GWAS는 원인 유전자좌 영역의 추출 및 위치를 탐색하는 것이 목적이므로 그 결과에 대한 의학적, 생물학적 기능에 대한 해석이 불가능하다면 분석결과를 신약개발, 개인의료 등에 응용하기 어렵게 됩니다. </p>
<p><a href="http://wsyang.com/wp-content/uploads/2012/04/picture1.jpg"><img src="http://wsyang.com/wp-content/uploads/2012/04/picture1.jpg" alt="" title="picture1" width="512" height="341" class="aligncenter size-full wp-image-2780" /></a></p>
<p>게다가 GWAS에서는 형질과 관련성이 있는 진짜 SNP를 탐색하는 것이 아니라 매우 가까운 위치에 있는 SNP를 탐지하게 되는 경우도 많다고 앞서 설명했습니다.  이 때문에 진짜 관련 유전자 좌를 찾아내기 위해 GWAS로 얻어낸 후보 SNP좌위의 근처에 있는 유전자 좌를 더 자세히 조사해 보아야할 필요가 있습니다. 이때 각 배우자(정자 및 난자)의 염기배열(haplotype)을 추정하여 형질과의 관계성을 조사하는 방법도 많이 사용됩니다. </p>
<p>또한, 사람뿐 아니라 농작물이나 가축의 게놈연구도 활발히 이루어지고 있으며 벼, 소 등의 몇몇 종에 대해서는 GWAS 데이터를 얻기 위한 DAN chip도 시판되고 있습니다. 그러나 농작물 및 가축의 게놈연구는 그리 쉽지가 않은데 이들 개체는 무작위 교배가 아닌 경우가 많기 때문입니다. 예를 들어 식용 소의 대부분은 인공수정을 하므로 같은 정자로부터 태어나는 송아지가 다수 존재하게 되고 농작물은 접목 등을 통해 클론을 손쉽게 만들 수 있습니다. 이 때문에 HWE 법칙이 성립하지 않을 때가 많아서 데이터의 품질평가가 불가능하여 분석결과의 해석이 어렵게 됩니다. 그리고 농작물은 사람과 달리 2배체(diploid) 염색체가 아닌 경우도 많으므로 사람의 데이터를 분석하기 위해 개발된 소프트웨어 등을 그대로 이용할 수 없다는 단점도 있습니다. </p>
<p>마지막으로 게놈데이터 분석을 위해서 유닉스(특히 리눅스) 환경은 이제 필수라고 해도 과언이 아닙니다. GWAS만 해도 파일 사이즈가 보통 수 GB ~ 수십GB의 데이터를 핸들링하게 되는데 스팩이 좋은 PC라고 해도 GUI 환경에서 이를 다루기는 무리가 있습니다. </p>
<p><a href="http://wsyang.com/wp-content/uploads/2012/04/picture2.jpg"><img src="http://wsyang.com/wp-content/uploads/2012/04/picture2.jpg" alt="" title="picture2" width="512" height="340" class="aligncenter size-full wp-image-2781" /></a></p>
<p>분석에 이용하는 소프트웨어도 대부분 CUI 환경을 기반으로 하고 있고 윈도즈용은 아예 없을 때도 많습니다. 게다가 요즘 NGS 데이터 분석이 점점 주류가 되고 있는데 이런 데이터를 분석하기 위해서는 고성능 병렬 계산기와 대용량의 저장공간이 필요합니다. 즉, 요즘 유행하는 빅데이터 분석을 위한 도구가 필요하죠. 이를 윈도즈 환경에서 구축하기란 불가능하지 않을까요?</p>
<p>이것으로 GWAS로 배우는 유전통계학 연재를 마치도록 하겠습니다.<br />
부족한 글 보아 주셔서 감사합니다. ^^; </p>
<h3  class="related_post_title">이글과 관련된 글</h3><ul class="related_post"><li>2012/04/12 -- <a href="http://wsyang.com/2012/04/visualization/" title="GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화">GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화</a></li><li>2012/04/11 -- <a href="http://wsyang.com/2012/04/multiple-comparison/" title="GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제">GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제</a></li><li>2012/04/07 -- <a href="http://wsyang.com/2012/04/genom-wide-association-study-2/" title="GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석">GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석</a></li><li>2012/04/05 -- <a href="http://wsyang.com/2012/04/genome-wide-association-study-1/" title="GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구">GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구</a></li><li>2012/04/03 -- <a href="http://wsyang.com/2012/04/quality-check-in-gwas/" title="GWAS로 배우는 유전통계학 &#8211; 2.3 게놈 데이터의 품질평가">GWAS로 배우는 유전통계학 &#8211; 2.3 게놈 데이터의 품질평가</a></li><li>2012/03/31 -- <a href="http://wsyang.com/2012/03/gwas2-hw/" title="GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙">GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙</a></li><li>2012/03/30 -- <a href="http://wsyang.com/2012/03/gwas1/" title="GWAS로 배우는 유전통계학 &#8211; 1. 시작하며">GWAS로 배우는 유전통계학 &#8211; 1. 시작하며</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2012/04/gwas-concluding-remarks/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화</title>
		<link>http://wsyang.com/2012/04/visualization/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=visualization</link>
		<comments>http://wsyang.com/2012/04/visualization/#comments</comments>
		<pubDate>Thu, 12 Apr 2012 12:49:28 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[유전통계학]]></category>
		<category><![CDATA[Genome-wide association analysis]]></category>
		<category><![CDATA[Manhattan plot]]></category>
		<category><![CDATA[qq-plot]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2711</guid>
		<description><![CDATA[5. 분석결과의 시각화 GWAS로부터의 검정결과는 분석에 사용하는 DNA chip에 따라 차이가 있지만 보통 50만~150만의 p-값이 계산되므로 그 결과를 하나하나 확인하는 것은 사실상 불가능합니다. 따라서 먼저 시각적으로 분석결과를 확인하고 관련성이 있다고 판단된 SNP좌위의 정보를 확인하는 것이 일반적입니다. 분석결과의 시각화방법으로는 qq-plot(quantile-quantile plot)과 Manhattan plot이 많이 사용됩니다. Quantile-Quantile plot 만약 분석에 사용된 모든 SNP에 대해 형질과의 관련성에 대해 [...]<p class="extra"><a href="http://jarederickson.com/freebies/" title="Jared Erickson" >A minimal wordpress theme by Jared Erickson</a></p>]]></description>
			<content:encoded><![CDATA[<h3> 5. 분석결과의 시각화 </h3>
<p>GWAS로부터의 검정결과는 분석에 사용하는 DNA chip에 따라 차이가 있지만 보통 50만~150만의 p-값이 계산되므로 그 결과를 하나하나 확인하는 것은 사실상 불가능합니다. 따라서 먼저 시각적으로 분석결과를 확인하고 관련성이 있다고 판단된 SNP좌위의 정보를 확인하는 것이 일반적입니다. 분석결과의 시각화방법으로는 qq-plot(quantile-quantile plot)과 Manhattan plot이 많이 사용됩니다. </p>
<h3> Quantile-Quantile plot </h3>
<p>만약 분석에 사용된 모든 SNP에 대해 형질과의 관련성에 대해 검정을 할 때 관련성이 없다는 귀무가설이 바르다고 하면 모든 p-값은 0과 1 사이의 균일분포(uniform distribution)를 따르게 될 것입니다. 만약 관련성이 있다는 대립가설이 바르다고 한다면 그때의 p-값은 균일분포로 부터 벗어나게 됩니다.<br />
<span id="more-2711"></span><br />
<div id="attachment_2712" class="wp-caption aligncenter" style="width: 490px"><a href="http://wsyang.com/wp-content/uploads/2012/04/fig1.resized.resized.png"><img src="http://wsyang.com/wp-content/uploads/2012/04/fig1.resized.resized.png" alt="" title="fig1.resized.resized" width="480" height="249" class="size-full wp-image-2712" /></a><p class="wp-caption-text">관련성이 있는 SNP가 있다면 그때의 p-값은 이론값보다 작아짐</p></div></p>
<p>이 사실을 이용하여 이론적인 분포(균일분포)에서의 p-값과 실제 계산된 p-값을 그래프로 작성한 것이 qq-plot입니다. 즉, 관련성 검정의 대상이 되는 SNP 수를 n, 검정결과 i-번째로 작은 p-값을 \(p_{(i)}\)라고 하면<br />
\[<br />
\left(<br />
-log_{10}\frac{i}{n},-log_{10}p_{(i)} \right) ,~i=1,\cdot,n<br />
\]<br />
을 그래프로 그리게 됩니다. </p>
<p>p-값이 작은 부분에서는 형질과 SNP사이에 관련성이 있다는 대립가설에 따른다고 예상되므로 아래 그림과 같이 붉은 원 안의 p-값에 대응하는 SNP가 관련성을 시사하는 SNP가 됩니다. </p>
<p><a href="http://wsyang.com/wp-content/uploads/2012/04/qqplot2.png"><img src="http://wsyang.com/wp-content/uploads/2012/04/qqplot2.png" alt="" title="qqplot2" width="402" height="522" class="aligncenter size-full wp-image-2725" /></a></p>
<h3> Manhattan plot </h3>
<p>Manhattan plot은 관련분석결과 p-값을 염색체번호, 물리적 거리순으로 늘어놓은 플롯을 말합니다.<br />
여기서 주의해야 할 점은 연쇄불평형(linkage disequilibrium)관계에 있는 SNP 사이의 관련분석 결과는 p-값이 비슷하게 됨에 주목하여 형질과 SNP와의 관련성에 대해 평가해야 합니다. 다시 말해 GWAS에 사용되는 DNA chip은 SNP의 밀도가 높으므로 비슷한 위치에 있는 SNP 사이에는 연쇄불평형 관계가 존재합니다. 이런 때에는 검정의 p-값이 비슷하여지므로 아래 그림과 같이 형질과 관련성이 있는 유전자 영역에 있는 SNP들의 p-값은 고층빌딩과 같이 불쑥 솟아오른 모양이 됩니다. <a class="simple-footnote" title="그래프의 모양이 맨해튼의 마천루와 비슷하다 하여 Manhattan plot이란 이름이 붙게 되었죠." id="return-note-2711-1" href="#note-2711-1"><sup>1</sup></a> </p>
<p><a href="http://wsyang.com/wp-content/uploads/2012/04/Manhattan.png"><img src="http://wsyang.com/wp-content/uploads/2012/04/Manhattan.png" alt="" title="Manhattan plot" width="480" height="320" class="aligncenter size-full wp-image-2727" /></a></p>
<h3>참고문헌</h3>
<ol>
<li> Balding D.J. (2006), Nature reviews Genetics, 7, 10, 781-791.</li>
<li> 鎌谷直之 (2007) 遺伝統計学入門, 岩波書店 (카마타니 나오유키 (2007), 유전통계학 입문, 이와나미서점 ) </li>
</ol>
<div class="simple-footnotes"><p class="notes">Notes:</p><ol><li id="note-2711-1"> 그래프의 모양이 맨해튼의 마천루와 비슷하다 하여 Manhattan plot이란 이름이 붙게 되었죠.  <a href="#return-note-2711-1">&#8617;</a></li></ol></div><h3  class="related_post_title">이글과 관련된 글</h3><ul class="related_post"><li>2012/04/07 -- <a href="http://wsyang.com/2012/04/genom-wide-association-study-2/" title="GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석">GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석</a></li><li>2012/04/05 -- <a href="http://wsyang.com/2012/04/genome-wide-association-study-1/" title="GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구">GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구</a></li><li>2012/03/31 -- <a href="http://wsyang.com/2012/03/gwas2-hw/" title="GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙">GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙</a></li><li>2012/03/30 -- <a href="http://wsyang.com/2012/03/gwas1/" title="GWAS로 배우는 유전통계학 &#8211; 1. 시작하며">GWAS로 배우는 유전통계학 &#8211; 1. 시작하며</a></li><li>2012/04/18 -- <a href="http://wsyang.com/2012/04/gwas-concluding-remarks/" title="GWAS로 배우는 유전통계학 &#8211; 6. 맺음말">GWAS로 배우는 유전통계학 &#8211; 6. 맺음말</a></li><li>2012/04/11 -- <a href="http://wsyang.com/2012/04/multiple-comparison/" title="GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제">GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제</a></li><li>2012/04/03 -- <a href="http://wsyang.com/2012/04/quality-check-in-gwas/" title="GWAS로 배우는 유전통계학 &#8211; 2.3 게놈 데이터의 품질평가">GWAS로 배우는 유전통계학 &#8211; 2.3 게놈 데이터의 품질평가</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2012/04/visualization/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제</title>
		<link>http://wsyang.com/2012/04/multiple-comparison/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=multiple-comparison</link>
		<comments>http://wsyang.com/2012/04/multiple-comparison/#comments</comments>
		<pubDate>Tue, 10 Apr 2012 15:57:59 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[유전통계학]]></category>
		<category><![CDATA[Benjamini-Hochberg]]></category>
		<category><![CDATA[Bonferroni]]></category>
		<category><![CDATA[false discovery rate]]></category>
		<category><![CDATA[Genome-wide association analysis]]></category>
		<category><![CDATA[GWAS]]></category>
		<category><![CDATA[다중비교문제]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2689</guid>
		<description><![CDATA[4. 다중비교(multiple comparison) 문제 GWAS에서는 보통 50만~250만 SNP를 이용해 관련분석을 하게 되므로 반드시 다중비교의 문제가 발생합니다. 하나의 SNP를 이용한 검정의 유의수준을 \(\alpha\)라고 한다면 한 번의 검정에서 \(\alpha \times 100 \)%의 확률로 잘못된 결론을 내리게 됩니다. 만약 50만 SNP좌위를 이용해 검정을 했을 때 단 한 번이라도 잘못된 결론을 내리게 될 확률, 즉 거짓 양성(false positive)은 \[ [...]<p class="extra"><a href="http://jarederickson.com/freebies/" title="Jared Erickson" >A minimal wordpress theme by Jared Erickson</a></p>]]></description>
			<content:encoded><![CDATA[<h3>4. 다중비교(multiple comparison) 문제</h3>
<p>GWAS에서는 보통 50만~250만 SNP를 이용해 관련분석을 하게 되므로 반드시 다중비교의 문제가 발생합니다. 하나의 SNP를 이용한 검정의 유의수준을 \(\alpha\)라고 한다면 한 번의 검정에서 \(\alpha \times 100 \)%의 확률로 잘못된 결론을 내리게 됩니다. 만약 50만 SNP좌위를 이용해 검정을 했을 때 단 한 번이라도 잘못된 결론을 내리게 될 확률, 즉 거짓 양성(false positive)은<br />
\[<br />
1-(1-\alpha)^{500K} \approx 1<br />
\]<br />
이 되어 100% 오류를 포함하게 되는 거죠. 이러한 문제를 개선하기 위해 매우 다양한 방법이 고안, 발표되고 있습니다. 이번 포스팅에서는 가장 간단한 방법인 Bonferroni의 보정방법과 FDR(false discovery rate)를 이용한 방법에 대해 알아보도록 하겠습니다.<br />
<span id="more-2689"></span></p>
<h3>Bonferroni 방법</h3>
<p>Bonferroni의 부등식에 기초한 이 방법은 분석 전체의 유의수준을 모든 검정의 수로 나누어 이것을 1회의 검정에서의 유의수준으로 삼는 방법을 말합니다. 즉, 분석에 사용되는 SNP좌위 수를 \(k\)라고 하면 1회의 검정에서 사용하는 유의수준 \(\alpha^&#8217;\)은<br />
\[<br />
\alpha^' = \frac{\alpha}{k}<br />
\]<br />
이 되고 산출된 \(\alpha^&#8217;\)보다 작은 유의확률(p-value)이 관측된 SNP좌위에 대해 유의성을 인정하는 방법입니다. 예를 들어 100만 SNP좌위의 DNA chip을 이용하여 GWAS를 수행할 때 1회의 검정에 이용되는 유의수준은 \(5 \times 10^{-8} \)이 되게 됩니다.</p>
<p>이 방법은 계산이 간단하다는 장점이 있지만 모든 SNP가 독립이라는 다시 말해 연쇄 평형(linkage equilibrium)이라는 가정하에서 이루어지므로 1회의 검정에서 사용하는 유의수준이 너무나 작아져 검정력이 떨어지게 된다는 단점이 있습니다. 즉, 실제로 형질과 SNP 사이에 관련성이 있어도 관련이 없다고 판단하는 오류를 범할 확률이 커지게 됩니다.</p>
<h3>FDR을 이용한 방법</h3>
<p>Bonferroni 방법의 문제점을 개선하기 위해 여러 가지 대안이 있는데 그중에서 형질과 관련성이 있다고 판단된 SNP 중에서 잘못된 판단의 비율을 일정 비율 이하로 억제하는 FDR을 이용한 접근법이 있습니다.</p>
<p>n개의 SNP좌위를 이용해 실험-대조군 연구를 한다고 할 때 관련분석의 결과 유의성이 있는 SNP의 수를 R이라 하겠습니다. 모든 SNP가 형질과 관련이 없다(귀무가설)고 하면 R의 분포는 귀무가설 하에서<br />
\[<br />
R \sim B(n,\alpha)<br />
\]<br />
의 이항분포를 따르게 됩니다. 여기서 R개의 SNP 중에 진짜로 관련성이 있는 SNP 수를 S, 관련성이 없음에도 불구하고 관련이 있다고 판단된 SNP의 수를 V라고 해보죠. 또한, n개의 SNP중에서 진짜로 관련성이 있는 SNP의 비율을 \( \pi \)라고 한다면 관련이 없음에도 관련이 있다고 잘못 판단될 비율은 \( (1-\pi)\alpha \)가 되고, V의 기댓값은 \( n(1-\pi)\alpha \)가 됩니다. 이를 표로 그려보면 다음과 같이 됩니다.<br />
<a href="http://wsyang.com/wp-content/uploads/2012/04/FDR.png"><img class="aligncenter size-full wp-image-2696" title="FDR" src="http://wsyang.com/wp-content/uploads/2012/04/FDR.png" alt="" width="400" height="100" /></a></p>
<p>FDR이라는 것은 위 표의 V/R의 기댓값을 말하게 됩니다. 따라서<br />
\[<br />
Q = \frac{n \alpha (1-\pi) }{R}<br />
\]<br />
이라 하면 이 값(Q-value)을 일정 값 이하로 제어하는 것이 이 방법의 목적입니다. 그러나 \( \pi \)의 값은 미지의 값(신의 영역이란 건 이럴 때 쓰는 거죠!!)이기 때문에 \(Q \leq n \alpha/R \)의 관계를 이용하여 Q-값을 컨트롤 하게 됩니다.</p>
<p>개인적으로는 FDR을 컨트롤하는 방법 중에 Benjamini-Hochberg법(BH법)을 즐겨 사용합니다. 이 방법은 각 검정으로부터의 유의확률을 크기순으로 늘어놓고 j번째로 작은 유의확률 \( p_{(j)} \)보다 작은 p 값을 가진 SNP는 관련성이 있다고 판단 할 때, 분석 전체의 유의수준을 \( \alpha \)라고 하면<br />
\[<br />
\frac{n(1-\pi)p_{(j)}}{j} \leq \frac{n p_{(j)}}{j}<br />
\]<br />
이므로<br />
\[<br />
\frac{n p_{(j)}}{j} \leq \alpha<br />
\]<br />
\[p_{(j)} \leq \alpha \times \frac{j}{n}<br />
\]<br />
의 관계를 이용해 p 값이 큰 것으로부터 평가하여 최초로 부등식이 성립되게 될 때, 이보다 작은 p 값을 가지는 SNP는 모두 유의성(관련성)이 있다고 판단하는 방법입니다.</p>
<p>이번 포스팅에서는 다중비교 문제에 대해 비교적 계산이 간단한 두 가지 보정방법에 대해 알아보았습니다만 가장 정확하다고 할 보정방법은 permutation test를 이용한 방법이라 할 수 있겠습니다. 그러나 현실적으로는 사용하기 불가능할 정도로 계산량이 많아서 이를 해결하기 위한 방법 또한 활발히 연구가 진행되고 있습니다.<br />
요즘 제가 즐겨 쓰는 방법은 SLIDE(a Sliding-window approach for Locally Inter-correlated markers with asymptotic Distribution Errors corrected)라는 방법이 있는데 자세한 사항은 <a href="http://slide.cs.ucla.edu/">이곳</a>을 참조하시길 바랍니다. 저자가 한국분이신 것 같네요.</p>
<h3>참고문헌</h3>
<ol>
<li>Benjamini Y, and Hochberg Y. (1995) J. Roy. Stat. Soc. B., 57, 289-300</li>
<li>鎌谷直之 (2007) 遺伝統計学入門, 岩波書店 (카마타니 나오유키 (2007), 유전통계학 입문, 이와나미서점 )</li>
</ol>
<h3  class="related_post_title">이글과 관련된 글</h3><ul class="related_post"><li>2012/03/31 -- <a href="http://wsyang.com/2012/03/gwas2-hw/" title="GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙">GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙</a></li><li>2012/03/30 -- <a href="http://wsyang.com/2012/03/gwas1/" title="GWAS로 배우는 유전통계학 &#8211; 1. 시작하며">GWAS로 배우는 유전통계학 &#8211; 1. 시작하며</a></li><li>2012/04/18 -- <a href="http://wsyang.com/2012/04/gwas-concluding-remarks/" title="GWAS로 배우는 유전통계학 &#8211; 6. 맺음말">GWAS로 배우는 유전통계학 &#8211; 6. 맺음말</a></li><li>2012/04/12 -- <a href="http://wsyang.com/2012/04/visualization/" title="GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화">GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화</a></li><li>2012/04/07 -- <a href="http://wsyang.com/2012/04/genom-wide-association-study-2/" title="GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석">GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석</a></li><li>2012/04/05 -- <a href="http://wsyang.com/2012/04/genome-wide-association-study-1/" title="GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구">GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구</a></li><li>2012/04/03 -- <a href="http://wsyang.com/2012/04/quality-check-in-gwas/" title="GWAS로 배우는 유전통계학 &#8211; 2.3 게놈 데이터의 품질평가">GWAS로 배우는 유전통계학 &#8211; 2.3 게놈 데이터의 품질평가</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2012/04/multiple-comparison/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석</title>
		<link>http://wsyang.com/2012/04/genom-wide-association-study-2/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=genom-wide-association-study-2</link>
		<comments>http://wsyang.com/2012/04/genom-wide-association-study-2/#comments</comments>
		<pubDate>Sat, 07 Apr 2012 14:29:01 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[유전통계학]]></category>
		<category><![CDATA[Genome-wide association analysis]]></category>
		<category><![CDATA[양적 형질]]></category>
		<category><![CDATA[질적 형질]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2647</guid>
		<description><![CDATA[3.2 질적 형질에 대한 관련분석 질적 형질에 대한 관련분석을 분할표를 이용한 Pearson의 카이제곱 검정이나 Fisher의 정확 검정법을 주로 이용합니다. 어떤 SNP 좌위에 대해 가장 기본적인 관측 데이터는 질적 형질의 표현형에 따른 유전자형의 도수겠죠. 많은 경우 질적 형질은 두 개의 카테고리를 가지므로 개체의 표현형을 D(disease)와 N(non-disease)라 하고 SNP의 allele를 A, a라고 한다면 표 1과 같은 분할표를 [...]<p class="extra"><a href="http://jarederickson.com/freebies/" title="Jared Erickson" >A minimal wordpress theme by Jared Erickson</a></p>]]></description>
			<content:encoded><![CDATA[<h3> 3.2 질적 형질에 대한 관련분석 </h3>
<p>질적 형질에 대한 관련분석을 분할표를 이용한 Pearson의 카이제곱 검정이나 Fisher의 정확 검정법을 주로 이용합니다. 어떤 SNP 좌위에 대해 가장 기본적인 관측 데이터는 질적 형질의 표현형에 따른 유전자형의 도수겠죠. 많은 경우 질적 형질은 두 개의 카테고리를 가지므로 개체의 표현형을 D(disease)와 N(non-disease)라 하고 SNP의 allele를 A, a라고 한다면 표 1과 같은 분할표를 작성할 수 있습니다. </p>
<p><div id="attachment_2623" class="wp-caption aligncenter" style="width: 360px"><a href="http://wsyang.com/wp-content/uploads/2012/04/table2.png"><img src="http://wsyang.com/wp-content/uploads/2012/04/table2.png" alt="" title="table2" width="350" height="79" class="size-full wp-image-2623" /></a><p class="wp-caption-text">&lt;표 1&gt; 유전자형에 따른 돗수의 분할표</p></div><br />
<span id="more-2647"></span><br />
이 2&#215;3 분할표에 대해 표현형과 관측 도수 간에 어떠한 관련성이 있는지를 카이제곱 검정 혹은 정확 검정법을 이용해 평가하게 됩니다. 즉, 검정의 귀무가설 &#8220;표현형과 유전자형에 따른 도수와는 관련성이 없다&#8221;, 대립가설 &#8220;표현형과 유전자형에 따른 도수와는 관련성이 있다&#8221;에 대한 검정을 하게 됩니다. 만약 검정결과 유의확률(p-value)이 연구 전체의 유의수준(보통 5%)보다 작다면 귀무가설을 기각하게 되고 결과적으로 표현형과 유전자형에는 관련성이 있다고 평가하게 됩니다. </p>
<p>여기서 유전계승양식의 지식을 이용하면 보다 유전학에 따른 분석을 할 수 있게 됩니다. 예를 들어 allele A에 대해 우성양식을 가정한다면 표 1은 표 2와 같이 재구성할 수 있습니다. </p>
<div id="attachment_2626" class="wp-caption aligncenter" style="width: 260px"><a href="http://wsyang.com/wp-content/uploads/2012/04/table3.png"><img src="http://wsyang.com/wp-content/uploads/2012/04/table3.png" alt="" title="table3" width="250" height="78" class="size-full wp-image-2626" /></a><p class="wp-caption-text">&lt;표 2&gt; allele A에 대한 우성양식의 분할표</p></div>
<p>만약 allele A에 대해 열성양식을 가정한다면 표 3과 같은 분할표를 만들 수 있습니다. </p>
<div id="attachment_2627" class="wp-caption aligncenter" style="width: 260px"><a href="http://wsyang.com/wp-content/uploads/2012/04/table4.png"><img src="http://wsyang.com/wp-content/uploads/2012/04/table4.png" alt="" title="table4" width="250" height="76" class="size-full wp-image-2627" /></a><p class="wp-caption-text">&lt;표 3&gt; allele A에 대한 열성양식의 분할표 </p></div>
<p>또한 allele의 도수를 두 군에 대해 비교하는 방법도 가능합니다(표 4).</p>
<div id="attachment_2628" class="wp-caption aligncenter" style="width: 260px"><a href="http://wsyang.com/wp-content/uploads/2012/04/table5.png"><img src="http://wsyang.com/wp-content/uploads/2012/04/table5.png" alt="" title="table5" width="250" height="78" class="size-full wp-image-2628" /></a><p class="wp-caption-text">&lt;표 4&gt; 표현형과 allele 돗수의 분할표</p></div>
<p>하지만 병에 걸리는 것은 allele가 아니고 개개인이 되므로 allele 빈도를 이용한 관련분석은 개체를 기초로 하는 분석이 아님에 주의해야 합니다. Allele 빈도를 이용한 관련분석은 검정에 사용되는 표본크기가 유전자형을 이용한 관련분석의 2배가 되므로 검정력(power of test)이 높아지게 됩니다. </p>
<p>우성, 열성, 유전자형, allele 빈도 이외에도 주목하는 allele의 수와 관측 유전자형 돗수사이의 경향성을 이용하여 관련성을 평가하는 방법도 있습니다. 즉, 개체가 보유하고 있는 관심 allele의 수가 질병의 리스크를 높이는가(혹은 낮추는가)에 주목하고 Armitage 검정을 이용하여 경향성의 유무를 평가는 방법입니다. </p>
<p><a href="http://wsyang.com/wp-content/uploads/2012/04/inheritance.jpg"><img src="http://wsyang.com/wp-content/uploads/2012/04/inheritance.jpg" alt="" title="inheritance" width="500" height="343" class="aligncenter size-full wp-image-2634" /></a></p>
<p>만약 분석 대상이 되는 표현형의 유전계승양식이 알려져지지 않았다면 GWAS에서는 위에서 설명한 5가지 양식 각각에 대한 관련성 평가를 하게 됩니다. </p>
<h3> 3.3 양적 형질에 대한 관련분석 </h3>
<p>질적 형질에 대한 관련분석에서는 유전계승양식을 가정하고 각 유전자형 빈도의 차이에 대해 검토하게 됩니다. 또한, 개체의 배경정보(환경정보)가 형질에 미치는 영향을 고려하기 위해 로지스틱 회귀모형 등의 통계모형을 도입해 유전적 요인의 탐색을 하기도 합니다. 실제로 분석 목적에 따라 나이, 성별, 체중, 키 등의 배경정보를 선택합니다. </p>
<p>양적 형질에 대해서도 마찬가지로 형질을 반응변수(목적변수)로 하고 배경정보와 게놈 정보를 설명변수로 하는 회귀모형을 이용한 관련분석을 하는 것이 일반적입니다. </p>
<div id="attachment_2672" class="wp-caption aligncenter" style="width: 460px"><a href="http://wsyang.com/wp-content/uploads/2012/04/trand.png"><img src="http://wsyang.com/wp-content/uploads/2012/04/trand.png" alt="" title="trand" width="450" height="325" class="size-full wp-image-2672" /></a><p class="wp-caption-text">from Balding (2006), Nat. Rev. Genet </p></div>
<p>예를 들어, 개체의 배경정보를 나이(age), 성별(gender)이라고 하면 양적 형질에 대한 선형모형은<br />
\[<br />
y= \beta_0 + \beta_1 Age + \beta_2 Gender + \beta_3 SNP + \epsilon<br />
\]<br />
과 같이 표현할 수 있습니다. 여기서 실제로 사용하는 SNP의 값은 유전계승양식에 따라 숫자로 코딩한 값을 입력합니다. 그리고, SNP에 대한 회귀계수에 주목하여 최소제곱법에 의해 추정된 \(\beta_3\) 값에 대한 평가를 합니다. 회귀계수에 대한 검정은 &#8220;추정된 회귀계수가 0 인가? (귀무가설)&#8221;, &#8220;0 이 아닌가? (대립가설)&#8221;에 대한 평가가 됩니다. </p>
<p>앞에서 통계모형을 도입해서 분석할 때, 유전자형을 유전계승양식에 따라 숫자로 코딩한 값을 사용한다 했는데 유전자형이 AA, Aa, aa이고 minor allele를 a라 하면</p>
<ul>
<li> <strong>우성</strong>: minor allele에 대해 우성양식을 가정하면 AA, Aa, aa를 각각 0, 1, 1로 변환한 값을 모형에 사용합니다. 이때 추정되는 회귀계수는 하나이며 AA의 형질에 대한 영향을 0으로 가정했을 때 minor allele를 하나라도 보유하고 있는 개체(Aa or aa)의 형질에 대한 영향을 추정합니다. </li>
<li> <strong>열성</strong>: minor allele에 대해 열성양식을 가정하면 AA, Aa, aa를 각각 0, 0, 1로 변환한 값을 모형에 사용합니다. 이때 추정되는 회귀계수는 하나이며 되며 AA 혹은 Aa의 형질에 대한 영향을 0으로 가정했을 때 aa의 형질에 대한 영향을 추정합니다. </li>
<li> <strong>유전자형</strong>: 3 가지의 유전자형 AA, Aa, aa를 각각 (0,0), (1,0), (0,1)로 변환한 값을 입력합니다. 이는 세 유전자형에 대해 자유도가 2가 되므로 2차원 값으로 변환할 필요가 있기 때문입니다. 이런 변환방법을 처리대비라고 하는데 이때는 추정되는 회귀계수가 2개가 됩니다. 다음 식과 같이 첫 번째 계수는 유전자형 Aa에 대한 영향, 두 번째 계수는 aa에 대한 영향을 추정합니다.  </li>
<li> <strong>경향성</strong>: 3 가지의 유전자형 AA, Aa, aa를 minor allele의 갯수 0, 1, 2로 변환한 값을 사용합니다. 추정되는 회귀계수는 1개로 minor allele가 하나 증가함에 따른 영향을 평가하게 됩니다. 즉, aa가 형질에 미치는 영향은 Aa의 2배라고 가정하는 것과 같습니다. </li>
</ul>
<p>제가 여기서 든 예는 통계모형을 이용한 가장 간단한 예의 하나에 불과합니다. 양적 형질에 대한 관련분석은 질적 형질과 달리 통계모형을 만드는 데 사용하는 배경정보에 따라 분석 결과에 차이가 있을 수 있고 배경정보와 유전자형, 배경정보와 배경정보 사이에 상호작용(interaction)이 있을 수 있기 때문에 결과의 해석이 복잡해 질수 있습니다. 양적 형질에 대한 관련분석은 아직 개선해야 할 문제들이 산적해 있기 때문에 활발한 연구가 이루어지고 있습니다. </p>
<p>통계모형을 이용한 분석이 왜 어려운지는 다음 인용으로 대신하도록 하겠습니다. ^^;</p>
<blockquote><p> Essentially, all models are wrong, but some are useful.<br />
- <em>George E. P. Box. Empirical Model-Building and Response Surfaces (1987)</em> </p></blockquote>
<h3> 참고문헌 </h3>
<ol>
<li>Balding D.J. (2006), Nature reviews Genetics, 7, 10, 781-791.</li>
<li>鎌谷直之 (2007) 遺伝統計学入門, 岩波書店 (카마타니 나오유키 (2007), 유전통계학 입문, 이와나미서점 )</li>
</ol>
<h3  class="related_post_title">이글과 관련된 글</h3><ul class="related_post"><li>2012/04/12 -- <a href="http://wsyang.com/2012/04/visualization/" title="GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화">GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화</a></li><li>2012/04/05 -- <a href="http://wsyang.com/2012/04/genome-wide-association-study-1/" title="GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구">GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구</a></li><li>2012/03/31 -- <a href="http://wsyang.com/2012/03/gwas2-hw/" title="GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙">GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙</a></li><li>2012/03/30 -- <a href="http://wsyang.com/2012/03/gwas1/" title="GWAS로 배우는 유전통계학 &#8211; 1. 시작하며">GWAS로 배우는 유전통계학 &#8211; 1. 시작하며</a></li><li>2012/04/18 -- <a href="http://wsyang.com/2012/04/gwas-concluding-remarks/" title="GWAS로 배우는 유전통계학 &#8211; 6. 맺음말">GWAS로 배우는 유전통계학 &#8211; 6. 맺음말</a></li><li>2012/04/11 -- <a href="http://wsyang.com/2012/04/multiple-comparison/" title="GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제">GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제</a></li><li>2012/04/03 -- <a href="http://wsyang.com/2012/04/quality-check-in-gwas/" title="GWAS로 배우는 유전통계학 &#8211; 2.3 게놈 데이터의 품질평가">GWAS로 배우는 유전통계학 &#8211; 2.3 게놈 데이터의 품질평가</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2012/04/genom-wide-association-study-2/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구</title>
		<link>http://wsyang.com/2012/04/genome-wide-association-study-1/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=genome-wide-association-study-1</link>
		<comments>http://wsyang.com/2012/04/genome-wide-association-study-1/#comments</comments>
		<pubDate>Thu, 05 Apr 2012 13:35:25 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[유전통계학]]></category>
		<category><![CDATA[case-control study]]></category>
		<category><![CDATA[cohort study]]></category>
		<category><![CDATA[Genome-wide association analysis]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2595</guid>
		<description><![CDATA[3. Genome-wide association study 관련분석은 유전적 변이와 형질과의 관련성을 검출하는 것이 목적입니다. 이때 관측된 SNP좌위가 형질의 표현형(phenotype)에 직접적인 영향을 미친다는 것을 검출할 수 있다면 가장 바람직스러운 결과일 것 입니다(direct association). 그러나 실제로는 관련성을 시사하고 있다고 한다 해도 관측된 SNP좌위가 표현형과 직접 관련이 있다고는 보장할 수 없습니다. 진짜 원인이 되는 유전자 좌와 연쇄불평형(linkage disequilibrium; LD) 상태에 [...]<p class="extra"><a href="http://jarederickson.com/freebies/" title="Jared Erickson" >A minimal wordpress theme by Jared Erickson</a></p>]]></description>
			<content:encoded><![CDATA[<h3> 3. Genome-wide association study </h3>
<p>관련분석은 유전적 변이와 형질과의 관련성을 검출하는 것이 목적입니다. 이때 관측된 SNP좌위가 형질의 표현형(phenotype)에 직접적인 영향을 미친다는 것을 검출할 수 있다면 가장 바람직스러운 결과일 것 입니다(direct association). 그러나 실제로는 관련성을 시사하고 있다고 한다 해도 관측된 SNP좌위가 표현형과 직접 관련이 있다고는 보장할 수 없습니다. 진짜 원인이 되는 유전자 좌와 연쇄불평형(linkage disequilibrium; LD) 상태에 있는 유전자 좌도 표현형과 간접적인 관련이 있을 때가 많기 때문입니다(indirect association).<br />
<span id="more-2595"></span><br />
<div id="attachment_2596" class="wp-caption aligncenter" style="width: 510px"><a href="http://wsyang.com/wp-content/uploads/2012/04/association.png"><img src="http://wsyang.com/wp-content/uploads/2012/04/association-500x201.png" alt="" title="association" width="500" height="201" class="size-medium wp-image-2596" /></a><p class="wp-caption-text">direct &#038; indirect association from Kruglyak (2008), Nat. Rev. Genet</p></div></p>
<p>관련분석의 대상이 되는 형질에는 앞서 언급한 바와 같이 질적 형질과 양적 형질이 있습니다. 따라서 형질의 형태에 따라 분석 방법이 달라집니다. 또한, 수집된 데이터의 연구디자인에 따라 관련성의 지표 및 결과의 해석방법이 달라짐에도 주의해야 합니다. 이번 포스팅에서는 코호트 연구(cohort study)와 실험-대조군 연구(case-control study)에 대해 알아보고 그 후에 질적 형질에 대한 관련분석법, 양적 형질에 대한 관련분석법에 대해 설명하도록 하겠습니다. </p>
<h3> 3.1 코호트 연구와 실험-대조군 연구 </h3>
<p>코호트 연구는 연구의 대상이 되는 집단을 일정 기간에 걸쳐 추적조사를 하는 연구법을 말하여 어떤 인자를 가지고 있는 개체와 가지고 있지 않은 개체가 미래에 어떤 표현형이 되는가에 대해 연구하는 방법을 말합니다. 반면 실험-대조군 연구는 표현형에 따라 실험군과 대조군으로 분류하고 각 군에 대해 특정 인자를 포함하고 있는가를 분석하는 방법입니다. 즉, 모든 사건(event)이 이미 일어난 과거의 일을 분석하게 됩니다. 이 때문에 코호트 연구는 연구의 방향이 전향적(prospective)이고, 실험-대조군 연구는 후향적(retrospective)으로 진행됩니다. </p>
<p>관련성의 척도로써 코호트 연구는 상대위험도(relative risk; RR)를 실험-대조군 연구는 오즈비(odds ratio; OR)를 사용합니다. 관측된 데이터에 대해 관련분석을 할 때 일반적으로 다음과 같은 분할표를 이용합니다. </p>
<div id="attachment_2620" class="wp-caption aligncenter" style="width: 360px"><a href="http://wsyang.com/wp-content/uploads/2012/04/table1.png"><img src="http://wsyang.com/wp-content/uploads/2012/04/table1.png" alt="" title="table1" width="350" height="103" class="size-full wp-image-2620" /></a><p class="wp-caption-text">&lt;표 1&gt; 관련분석에서의 분할표</p></div>
<p>개체의 표현형을 D(disease)와 N(non-disease)라 한다면 Type 1의 개체가 질환에 걸릴 확률과 Type 2의 개체가 질환에 걸릴 확률의 비로 정의되는 상대위험도는<br />
\[<br />
RR=\frac{\frac{a}{a+c}}{\frac{b}{b+d}} = \frac{a(b+d)}{b(a+c)}<br />
\]<br />
로 계산할 수 있습니다. </p>
<p><a href="http://wsyang.com/wp-content/uploads/2012/04/cohort2.png"><img src="http://wsyang.com/wp-content/uploads/2012/04/cohort2.png" alt="" title="cohort2" width="500" height="305" class="aligncenter size-full wp-image-2641" /></a></p>
<p>한편 어떤 사건이 일어나지 않은 확률에 대한 사건이 일어난 확률의 비율로 오즈(odds)를 정의한다면 오즈비는 대조군의 오즈에 대한 실험군의 오즈 비율로 정의됩니다.<br />
\[<br />
OR = \frac{a/b}{c/d} = \frac{ad}{bc}<br />
\]</p>
<p><a href="http://wsyang.com/wp-content/uploads/2012/04/case-control1.png"><img src="http://wsyang.com/wp-content/uploads/2012/04/case-control1.png" alt="" title="case-control" width="500" height="270" class="aligncenter size-full wp-image-2637" /></a></p>
<p>상대위험도가 좀 더 알기 쉬운 개념이기는 하지만 실험-대조군 연구에서는 실험군 혹은 대조군의 표본 수를 연구자가 결정하게 되므로 상대위험도를 구할 수 없습니다. </p>
<p>코호트 연구는 원인이 되는 개체간 유전자 다형성의 차이가 처음부터 고정되고 결과가 되는 표현형을 관측하게 되므로 자연의 인과관계와 일치하게 됩니다. 또한, 추적관찰을 하게 되므로 사건의 발생순서를 알 수 있다는 점, 측정의 바이어스가 작다는 점, 복수의 결과인자를 동시에 관찰할 수 있다는 점, 표현형이 발현하는 비율로 정의되는 발병율(침투율)을 추정할 수 있다는 장점이 있습니다. 그러나 실험-대조군 실험에 비해 비용과 시간이 걸린다는 점, 발병율(침투율)이 낮은 표현형의 연구에는 표본크기가 크지 않으면 통계분석을 하기 어렵다는 점등의 문제가 있습니다. </p>
<h3> 참고문헌 </h3>
<ol>
<li>Balding D.J. (2006), Nature reviews Genetics, 7, 10, 781-791.</li>
<li>이재원, 박미라, 유한나 (2005) 생명과학연구를 위한 통계적 방법. 자유아카데미 </li>
<li>鎌谷直之 (2007) 遺伝統計学入門, 岩波書店 (카마타니 나오유키 (2007), 유전통계학 입문, 이와나미서점 )</li>
</ol>
<h3  class="related_post_title">이글과 관련된 글</h3><ul class="related_post"><li>2012/04/12 -- <a href="http://wsyang.com/2012/04/visualization/" title="GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화">GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화</a></li><li>2012/04/07 -- <a href="http://wsyang.com/2012/04/genom-wide-association-study-2/" title="GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석">GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석</a></li><li>2012/03/31 -- <a href="http://wsyang.com/2012/03/gwas2-hw/" title="GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙">GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙</a></li><li>2012/03/30 -- <a href="http://wsyang.com/2012/03/gwas1/" title="GWAS로 배우는 유전통계학 &#8211; 1. 시작하며">GWAS로 배우는 유전통계학 &#8211; 1. 시작하며</a></li><li>2012/04/18 -- <a href="http://wsyang.com/2012/04/gwas-concluding-remarks/" title="GWAS로 배우는 유전통계학 &#8211; 6. 맺음말">GWAS로 배우는 유전통계학 &#8211; 6. 맺음말</a></li><li>2012/04/11 -- <a href="http://wsyang.com/2012/04/multiple-comparison/" title="GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제">GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제</a></li><li>2012/04/03 -- <a href="http://wsyang.com/2012/04/quality-check-in-gwas/" title="GWAS로 배우는 유전통계학 &#8211; 2.3 게놈 데이터의 품질평가">GWAS로 배우는 유전통계학 &#8211; 2.3 게놈 데이터의 품질평가</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2012/04/genome-wide-association-study-1/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>GWAS로 배우는 유전통계학 &#8211; 2.3 게놈 데이터의 품질평가</title>
		<link>http://wsyang.com/2012/04/quality-check-in-gwas/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=quality-check-in-gwas</link>
		<comments>http://wsyang.com/2012/04/quality-check-in-gwas/#comments</comments>
		<pubDate>Tue, 03 Apr 2012 13:07:41 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[유전통계학]]></category>
		<category><![CDATA[Genome-wide association analysis]]></category>
		<category><![CDATA[Identity by decent]]></category>
		<category><![CDATA[Minor allele frequency]]></category>
		<category><![CDATA[품질평가]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2577</guid>
		<description><![CDATA[2.3 게놈 데이터의 품질평가 게놈 정보는 유전계승형식을 이용한 품질평가가 중요합니다. 이번 포스팅에서는 앞서 소개한 하디-바인베르크 평형, 집단의 구조화 평가 이외의 품질평가 방법을 알아보도록 하겠습니다. Call Rate 하나의 SNP를 다수의 개체에 대해 유전자형을 조사했을 때 어떠한 형태로든 유전자형이 결정된 개체의 비율을 SNP 당 Call Rate(CR)이라 합니다. SNP 당 CR이 낮은 유전자좌는 유전자형의 결정이 곤란하다는 것을 의미합니다. [...]<p class="extra"><a href="http://jarederickson.com/freebies/" title="Jared Erickson" >A minimal wordpress theme by Jared Erickson</a></p>]]></description>
			<content:encoded><![CDATA[<h3> 2.3 게놈 데이터의 품질평가 </h3>
<p>게놈 정보는 유전계승형식을 이용한 품질평가가 중요합니다. 이번 포스팅에서는 앞서 소개한 <a href="http://wp.me/p1u7fk-DW">하디-바인베르크 평형</a>, <a href="http://wp.me/p1u7fk-Ez">집단의 구조화 평가</a> 이외의 품질평가 방법을 알아보도록 하겠습니다. </p>
<h3>  Call Rate </h3>
<p>하나의 SNP를 다수의 개체에 대해 유전자형을 조사했을 때 어떠한 형태로든 유전자형이 결정된 개체의 비율을 SNP 당 Call Rate(CR)이라 합니다. SNP 당 CR이 낮은 유전자좌는 유전자형의 결정이 곤란하다는 것을 의미합니다. 바꿔 말하면 그 SNP좌위의 관측결과에 대한 신뢰성이 낮다는 것을 의미하는 거죠. 일반적으로 SNP 당 CR이 0.95 이상의 SNP좌위를 분석대상으로 삼습니다.<br />
<span id="more-2577"></span><br />
또한, 한 명의 개체에 주목하여 유전자형이 결정된 SNP의 비율인 개체당 CR도 생각하여야 합니다. 개체 당 CR이 0.99 미만의 개체는 원칙적으로 분석대상에서 제외하게 됩니다.<!--more--><br />
<h3> Minor Allele 빈도 </h3>
<p>기본적으로 GWAS는 &#8220;Common disease common variant&#8221; 가설을 전제로 합니다. 즉, 진화의 관점에서 볼 때 유전과 관계하는 흔한 질병의 원인이 되는 변이는 가계가 서로 달라도 유전정보 전체 있어서 비교적 빈도가 높은 변이일 것이라는 가설입니다. 이 가설에 따라 집단에서 어느 정도 이상 존재하는 SNP좌위 중에서 형질과 관련이 있는 유전자 좌를 탐색하는 것이 GWAS의 목적입니다. 따라서 DNA chip으로부터 관측된 모든 SNP좌위가 분석대상이 되는 것은 아닙니다. 왜냐하면, 광범위하게 발견하는 것이 곤란한 아주 드문 변이(rare variant)에 대해서는 GWAS에 의한 탐색이 어렵기 때문입니다. 따라서 하나의 SNP좌위에 2개의 allele가 있다고 했을 때 그 빈도가 작은 minor allele 빈도(minor allele frequency; MAF)가 일정한 한계 값(질병 연구에서는 보통 0.01, PGx 연구에서는 0.001) 보다 큰 SNP좌위를 분석대상으로 삼습니다. </p>
<h3> X 염색체의 이형접합체 빈도를 이용한 성별평가 </h3>
<p>남자는 X 염색체를 하나만 가지고 있기 때문에 X 염색체의 이형 접합체(heterozygote) 빈도는 0이 되어야 합니다. 그런데 실제로는 X 염색체의 말단(telomere)에 가까운 부근에 Y 염색체와 상동 부분인 거짓 상동염색체 영역(pseudoautosomal region)에서는 이형접합체가 될 수도 있기 때문에 반드시 0이 되지 알을 때도 있습니다. 품질평가에서는 유전자형으로부터 성별의 추정하고 실제 기록과의 일치성을 조사합니다. 경험적으로 남성 X 염색체의 이형접합체 빈도가 0.2 이상의 값을 가지는 개체는 분석 대상에서 제외합니다. 단, 여성은 이 방법으로 성별평가를 할 수 없음에 주의해야 합니다. </p>
<h3> 집단에 동일 개체가 섞여 있는가에 대한 평가 </h3>
<p>관측 데이터에 동일 개체 혹은 혈연관계가 있는 개체가 포함되어 있는가는 NIBD(number of identity by decent)값을 추정해 보는 것으로 평가할 수 있습니다. IBD는 아래 그림에서 보는 것과 같이 부모로부터 남매에게 하나씩의 allele가 전달되는데 남매를 비교했을 때, 같은 종류의 allele가 몇 개 존재하는가에 대한 지표입니다. </p>
<p><a href="http://wsyang.com/wp-content/uploads/2012/04/forough2.gif"><img src="http://wsyang.com/wp-content/uploads/2012/04/forough2.gif" alt="" title="IBD" width="295" height="127" class="aligncenter size-full wp-image-2579" /></a></p>
<p>왼쪽 그림과 같이 남매 사이에 같은 종류의 allele가 없을 때는 NIBD=0, 가운데 그림은 파란색 allele 1을 남매가 공통으로 가지고 있으므로 NIBD=1, 오른쪽은 남매 모두 아버지로부터 파란색 allele 2를 어머니로부터 노란색 allele 3을 공통으로 물려받았으므로 NIBD=2가 됩니다. 일반적으로 부모와 자식 간의 BIBD=1, 일란성 쌍둥이의 NIBD=2, 혈연관계가 전혀 없을 때는 NIBD=0이 됩니다. </p>
<p>게놈 데이터의 품질평가에서는 모든 두 개체의 조합에 대해서 추정한 NIBD 값이 1.6 이상(최대값을 1로 했을 때 0.8 이상)의  값을 가지면 동일 개체라고 판단하고 어느 한 쪽의 개체를 분석 대상에서 제외하게 됩니다. 단, IBD를 추정할 때 적절한 SNP를 선택하기 위해 (1) SNP의 CR, (2) SNP의 MAF, (3) HWE 법칙에의 적합도 검정 유의확률(p-value)에 대해 한계 값을 설정해 조건을 만족한 SNP의 유전자형을 NIBD 추정에 이용합니다. </p>
<p>지금까지 3회에 걸쳐 게놈 데이터의 품질평가 방법에 대해 알아보았습니다. 실제로 이 과정이 전체 분석 시간의 절반 이상을 차지합니다. 특히, 주성분분석을 이용한 집단 구조화 평가, NIBD의 추정은 계산에 많은 시간이 걸립니다. 어떠한 분석이라도 이용하는 데이터에 오류가 있다면 분석 결과에도 오류가 포함될 가능성이 높으므로 데이터에 대한 올바른 품질평가는 분석 전체의 성패를 좌우하는 매우 중요한 과정입니다. </p>
<p>다음 포스팅에서는 실제 GWAS를 수행 하기위한 연구방법과 검정방법에 대해 알아보도록 하겠습니다.</p>
<h3> 참고문헌 </h3>
<ol>
<li> Balding D.J. (2006), Nature reviews Genetics, 7, 10, 781-791.</li>
<li> Kruglyak L. (2008), Nature reviews Genetics, 9, 4, 314-318.</li>
<li> 鎌谷直之 (2007) 遺伝統計学入門, 岩波書店 (카마타니 나오유키 (2007), 유전통계학 입문, 이와나미서점 ) </li>
</ol>
<h3  class="related_post_title">이글과 관련된 글</h3><ul class="related_post"><li>2012/04/18 -- <a href="http://wsyang.com/2012/04/gwas-concluding-remarks/" title="GWAS로 배우는 유전통계학 &#8211; 6. 맺음말">GWAS로 배우는 유전통계학 &#8211; 6. 맺음말</a></li><li>2012/04/12 -- <a href="http://wsyang.com/2012/04/visualization/" title="GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화">GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화</a></li><li>2012/04/11 -- <a href="http://wsyang.com/2012/04/multiple-comparison/" title="GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제">GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제</a></li><li>2012/04/07 -- <a href="http://wsyang.com/2012/04/genom-wide-association-study-2/" title="GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석">GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석</a></li><li>2012/04/05 -- <a href="http://wsyang.com/2012/04/genome-wide-association-study-1/" title="GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구">GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구</a></li><li>2012/03/31 -- <a href="http://wsyang.com/2012/03/gwas2-hw/" title="GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙">GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙</a></li><li>2012/03/30 -- <a href="http://wsyang.com/2012/03/gwas1/" title="GWAS로 배우는 유전통계학 &#8211; 1. 시작하며">GWAS로 배우는 유전통계학 &#8211; 1. 시작하며</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2012/04/quality-check-in-gwas/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>GWAS로 배우는 유전통계학 &#8211; 2.2 집단의 구조화 문제</title>
		<link>http://wsyang.com/2012/04/gwas-2-2-population-structure/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=gwas-2-2-population-structure</link>
		<comments>http://wsyang.com/2012/04/gwas-2-2-population-structure/#comments</comments>
		<pubDate>Sun, 01 Apr 2012 13:28:06 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[유전통계학]]></category>
		<category><![CDATA[EIGENSTRAT]]></category>
		<category><![CDATA[Genomic control]]></category>
		<category><![CDATA[GWAS]]></category>
		<category><![CDATA[집단의 구조화]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2515</guid>
		<description><![CDATA[많은 데이터분석에서 문제가 되는 것은 분석 대상 집단의 균질성입니다. 이질적인 집단의 혼재는 데이터분석 결과를 해석하는 데 있어 곤란을 불러일으킬 뿐만 아니라 잘못된 결론을 유도하게 할 수도 있습니다. 그러나 그룹 정보가 없는 데이터의 균질화는 어려우므로 관측항목에 이질성의 원인이 포함되어 있다 가정하고 군집분석 등의 분류모형을 이용해 추정하는 것이 일반적인 방법입니다. 게놈데이터 분석에서 분석 대상 집단의 이질성 대부분은 [...]<p class="extra"><a href="http://jarederickson.com/freebies/" title="Jared Erickson" >A minimal wordpress theme by Jared Erickson</a></p>]]></description>
			<content:encoded><![CDATA[<p>많은 데이터분석에서 문제가 되는 것은 분석 대상 집단의 균질성입니다. 이질적인 집단의 혼재는 데이터분석 결과를 해석하는 데 있어 곤란을 불러일으킬 뿐만 아니라 잘못된 결론을 유도하게 할 수도 있습니다. 그러나 그룹 정보가 없는 데이터의 균질화는 어려우므로 관측항목에 이질성의 원인이 포함되어 있다 가정하고 군집분석 등의 분류모형을 이용해 추정하는 것이 일반적인 방법입니다. </p>
<p>게놈데이터 분석에서 분석 대상 집단의 이질성 대부분은 인종 차이가 그 원인입니다. 게놈연구에서는 이것을 집단의 구조화(population structure)라 합니다. 이번 포스팅에서는 GWAS에서 집단구조화가 분석결과에 미치는 영향, 구조화의 탐색방법, 그리고 그 해결방법에 대해서 알아보도록 하겠습니다.<br />
<span id="more-2515"></span></p>
<h2> 2.2 집단의 구조화 문제 </h2>
<p>지금은 국제결혼이 그리 드문 일이 아니지만, 지금까지 인류는 같은 인종끼리 결혼을 하고 자손을 남기는 것이 보통이었습니다. 그 때문에 유전학적으로 보자면 인종 내에서의 allele 빈도는 평형상태에 있었다고 볼 수 있습니다(<a href="http://wp.me/p1u7fk-DW">하디-베인베크르 평형상태; HWE 상태</a>). 그러나 인종에 따라서 그 평형상태는 서로 다른 경우가 대부분이겠죠. 예를 들어 어떤 SNP에 존재하는 2개의 allele A, a에 대해 allele A의 빈도를 백인은 0.2, 흑인은 0.8이라 해보겠습니다. 만약 각각의 인종에 대해 HWE 상태에 있다고 가정하면 각 인종의 유전자형 빈도의 기댓값은 표 1, 표 2가 될 것입니다. </p>
<div id="attachment_2522" class="wp-caption aligncenter" style="width: 360px"><a href="http://wsyang.com/wp-content/uploads/2012/03/table1.png"><img src="http://wsyang.com/wp-content/uploads/2012/03/table1.png" alt="" title="table3" width="350" height="65" class="size-full wp-image-2522" /></a><p class="wp-caption-text">&lt;표 1&gt; 백인의 유전자형 빈도 (allele A의 빈도가 0.2일 경우)</p></div>
<div id="attachment_2521" class="wp-caption aligncenter" style="width: 360px"><a href="http://wsyang.com/wp-content/uploads/2012/03/table2.png"><img src="http://wsyang.com/wp-content/uploads/2012/03/table2.png" alt="" title="table2" width="350" height="51" class="size-full wp-image-2521" /></a><p class="wp-caption-text">&lt;표 2&gt; 흑인의 유전자형 빈도, allele A의 빈도가 0.8일 경우</p></div>
<p>여기서 만일 1:1의 비율로 두 인종이 섞여 있다고 하면 이 혼합집단의 유전자형 빈도의 기댓값은 표 3이 됩니다. 이 경우엔 HWE 상태에서 벗어나게 되고 보통 분석대상에서 제외하게 됩니다. </p>
<div id="attachment_2522" class="wp-caption aligncenter" style="width: 360px"><a href="http://wsyang.com/wp-content/uploads/2012/03/table3.png"><img src="http://wsyang.com/wp-content/uploads/2012/03/table3.png" alt="" title="table3" width="350" height="49" class="size-full wp-image-2522" /></a><p class="wp-caption-text">&lt;표 3&gt; 백인과 흑인이 1:1 비율로 혼합된 집단의 유전자형 빈도</p></div>
<p>복수의 인종이 섞여 평형상태에 이르기까지는 적어도 수 세대의 무작위 교배가 반복되어야만 합니다. 미국, 유럽은 다민족 국가이기 때문에 아직 평형상태에 이를 때까지 교배가 이루어졌다고는 말하기 어려울 것 같습니다. 그래서 미국, 유럽인 대상의 게놈연구에서는 집단 구조화의 문제가 자주 발생합니다. </p>
<p>반면 동양인은 집단구조화가 적다고 여겨지고 있습니다만, 민족 간 차이가 엄연히 존재하는 것도 사실입니다. 제가 일본에서 직장 생활을 하므로 주로 일본인이 분석 대상이 되는데 일본계 혼혈 아시아인이 포함되는 경우가 간혹 있습니다. 이럴 때는 자료수집 단계에서 출생지를 알 수 있는 정보가 있으면 좋겠지만, 겉모습만으로는 구별이 안 되죠. 게다가 요즘 개인정보 보호 및 인종차별 문제 때문에 실제로 물어보기도 어렵습니다. </p>
<div id="attachment_2598" class="wp-caption aligncenter" style="width: 472px"><a href="http://wsyang.com/wp-content/uploads/2012/04/structure.png"><img src="http://wsyang.com/wp-content/uploads/2012/04/structure.png" alt="" title="structure" width="462" height="280" class="size-full wp-image-2598" /></a><p class="wp-caption-text">집단구조화 (from Balding (2006), Nat. Rev. Genet)</p></div>
<h3> Genomic Control </h3>
<p>관측 데이터가 어느 정도 이질성을 포함하고 있는지 알아보는 지표 중에 Genomic control(GC)라는 값이 있습니다. GC 값은 집단구조화의 크기를 나타내는 지표로써 각 SNP에서 계산된 Armitage 검정의 중앙값(median)을 그 기댓값인 자유도 1의 카이제곱 분포 값으로 나눈 값 (lambda)을 이용합니다.<br />
\[<br />
\lambda = \frac{median(\chi^2_{obs})}{\chi^2_1 = 0.455}<br />
\]<br />
만약 이 값이 1보다 크다면 검정결과 얻어진 카이제곱값을 (lambda)로 보정한 통계량을 이용합니다.<br />
\[<br />
\chi^2_{corrected} = \frac{\chi^2_{obs}}{\lambda}<br />
\]</p>
<p>Genomic control은 계산이 간단하다는 장점이 있지만, 모든 SNP에 대해 같은 크기의 보정을 한다는 단점이 있습니다. </p>
<h3> 주성분 분석을 이용한 방법 </h3>
<p>한편 GDAS의 게놈정보가 있다면 어느 정도선까지는 인종을 추측할 수 있습니다. <a href="http://www.hapmap.org">HapMap 프로젝트</a>는 나이지리아의 Yoruba 민족(YRP), 동경의 일본인(JPT), 베이징의 중국인(CHE), 미국 유타에 사는 북서유럽의 자손(ECU) 네 집단에 대해 모든 게놈영역에 걸쳐 SNP 좌위를 결정하는 프로젝트입니다. 프로젝트에 이용된 개체의 유전자형 정보가 모두 공개되어 있는데요. 이 정보를 이용해 인종이 불분명한 개체를 분류할 수 있습니다. 전에는 집단의 구조화 문제에 대해 판별분석, 군집분석 등 여러 방법이 사용되었는데 요즘은 주성분분석을 이용한 방법이 주로 사용됩니다. 다음 그림은 HapMap 프로젝트 의해 공개된 중국인 45명과 일본인 44명의 게놈정보 중 약 13만 SNP의 유전자형 데이터를 이용해 주성분분석을 수행한 결과입니다.</p>
<p><a href="http://wsyang.com/wp-content/uploads/2012/03/figK-2.jpg"><img src="http://wsyang.com/wp-content/uploads/2012/03/figK-2.jpg" alt="" title="figK-2" width="450" height="450" class="aligncenter size-full wp-image-2549" /></a></p>
<p>그림으로부터 알 수 있듯이 게놈정보만을 이용한 주성분분석으로 일본인 집단과 중국인 집단을 명확하게 구분하고 있습니다. 실제로 분석을 수행할 때는 일본인을 대상으로 한 연구에서 관측된 개체의 게놈정보와 HapMap 프로젝트의 일본인, 중국인 데이터를 혼합하여 주성분분석을 하고 만약 HapMap 데이터의 일본인 집단으로부터 벗어나는 개체에 대해서는 분석 대상에서 제외하게 됩니다(우리나라에서는 어떻게 하고 있는지 저도 잘 모르겠네요. 어느 분이라도 정보를 주시면 감사하겠습니다). </p>
<p>하지만 게놈정보를 이용한 주성분분석은 통상 통계분석에서 이용하는 주성분분석과는 다른 부분이 있습니다. 바로 데이터의 작성방법에 그 차이가 있는데, \( {\bf x_{(i)}} = (x_{i1}, \ldots, x_{in})\), \( i=1,2,\ldots,l\)을 개체 1부터 n까지 \( SNP_i \)의 유전자형 데이터라고 하겠습니다. 여기서 \(n\)은 샘플사이즈, \(l\)은 관측 SNP 수라 하고, 유전자형은 두 개의 allele 중 그 빈도가 작은 allele(minor allele)의 수, 즉, minor allele를 a라고 한다면 AA, Aa, aa를 각각 0, 1, 2로 코딩한 값을 사용합니다. 데이터 행렬을 \(X = {\bf x_{(1)}, x_{(2)}, \ldots, x_{(l)} } \)라 한다면 개체를 분류하기 위해서 통상 \(X^T X \)의 고유벡터로부터 주성분 점수를 계산하게 되는데 \(X^T X \)는 \( l \times l\)의 행렬이 됩니다. 게놈연구는 \( l \)이 보통 50만~200만 정도 되므로 계산량이 엄청나게 많아지게 되기 때문에 게놈 데이터를 이용한 주성분분석에서는 \( n \times n\) 차원의 행렬 \(XX^T\)를 데이터 행렬로 이용하고 이 행렬로부터의 고유벡터를 개체식별 지표로 사용합니다(Price et al, 2006). </p>
<p>다음 포스팅에서는 GWAS를 하기 위해 필요한 그 밖의 데이터 품질평가 방법에 대해 알아보겠습니다. </p>
<h3> 참고문헌 </h3>
<ol>
<li> Armitage P. (1955), Biometrics, 11, 375-386. </li>
<li> Devlin B. and Roeder K. (1999). Biometrics, 55, 4, 997-1004. </li>
<li> The International HapMap Consortium (2003). Nature, 426, 789-796. </li>
<li> Price A.L. et al (2006). Nature Genetics, 38, 905-909 </li>
</ol>
<h3  class="related_post_title">이글과 관련된 글</h3><ul class="related_post"><li>2012/03/31 -- <a href="http://wsyang.com/2012/03/gwas2-hw/" title="GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙">GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙</a></li><li>2012/03/30 -- <a href="http://wsyang.com/2012/03/gwas1/" title="GWAS로 배우는 유전통계학 &#8211; 1. 시작하며">GWAS로 배우는 유전통계학 &#8211; 1. 시작하며</a></li><li>2012/04/12 -- <a href="http://wsyang.com/2012/04/visualization/" title="GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화">GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화</a></li><li>2012/04/11 -- <a href="http://wsyang.com/2012/04/multiple-comparison/" title="GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제">GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제</a></li><li>2012/04/07 -- <a href="http://wsyang.com/2012/04/genom-wide-association-study-2/" title="GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석">GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석</a></li><li>2012/04/05 -- <a href="http://wsyang.com/2012/04/genome-wide-association-study-1/" title="GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구">GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구</a></li><li>2011/06/10 -- <a href="http://wsyang.com/2011/06/%ec%9c%a0%ec%a0%84%ed%86%b5%ea%b3%84%ed%95%99%ea%b3%bc-%ec%88%98%eb%a6%ac%ed%86%b5%ea%b3%84%ed%95%99%ec%9d%98-%ec%97%ad%ec%82%ac/" title="유전통계학과 수리통계학의 역사">유전통계학과 수리통계학의 역사</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2012/04/gwas-2-2-population-structure/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙</title>
		<link>http://wsyang.com/2012/03/gwas2-hw/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=gwas2-hw</link>
		<comments>http://wsyang.com/2012/03/gwas2-hw/#comments</comments>
		<pubDate>Sat, 31 Mar 2012 05:51:42 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[유전통계학]]></category>
		<category><![CDATA[Genome-wide association analysis]]></category>
		<category><![CDATA[GWAS]]></category>
		<category><![CDATA[Hardy-Weinberg Equilibrium]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2476</guid>
		<description><![CDATA[게놈정보는 유전계승법칙에 따라 부모로부터 자손에게 한 세대로부터 다음 세대로 안정된 형태로 계승되기 때문에 매우 균질한 특성을 가지고 있습니다. 게다가 게놈연구의 인과관계도 매우 명확하여 반드시 게놈이 원인이 되기 때문에 분석의 방향성도 매우 명확합니다. 이번 포스팅에서는 게놈연구의 통계적 이점에 대해 설명하고 게놈정보를 이용한 분석을 하기 위한 준비 작업에 대해 소개하도록 하겠습니다. 2.1 가계모순과 하디-베인베르크 평형의 법칙 인간은 [...]<p class="extra"><a href="http://jarederickson.com/freebies/" title="Jared Erickson" >A minimal wordpress theme by Jared Erickson</a></p>]]></description>
			<content:encoded><![CDATA[<p>게놈정보는 유전계승법칙에 따라 부모로부터 자손에게 한 세대로부터 다음 세대로 안정된 형태로 계승되기 때문에 매우 균질한 특성을 가지고 있습니다. 게다가 게놈연구의 인과관계도 매우 명확하여 반드시 게놈이 원인이 되기 때문에 분석의 방향성도 매우 명확합니다. 이번 포스팅에서는 게놈연구의 통계적 이점에 대해 설명하고 게놈정보를 이용한 분석을 하기 위한 준비 작업에 대해 소개하도록 하겠습니다. </p>
<h3>2.1 가계모순과 하디-베인베르크 평형의 법칙</h3>
<p>인간은 부모로부터 각각 하나의 allele를 유전계승법칙에 따라 물려받습니다. 따라서 만약 관측한 유전자형 데이터가 유전계승법칙과 맞지 않다면 관측 데이터가 잘못된 경우가 많습니다. 예를 들어 다음 그림과 같은 가계정보와 하나의 SNP좌위의 유전자형이 관측되었다면<br />
<span id="more-2476"></span><br />
<a href="http://wsyang.com/wp-content/uploads/2012/03/fig1.png"><img src="http://wsyang.com/wp-content/uploads/2012/03/fig1.png" alt="" title="fig1" width="200" height="160" class="aligncenter size-full wp-image-2485" /></a></p>
<p>개체 3은 멘델의 분리법칙에 의해 개체 1로부터 allele A를 개체 2로부터 allele A 혹은 T를 물려받게 됩니다. 따라서 유전자형은 AA 혹은 AT가 되어야 합니다. 물론 개체 1이 감수분열(meiosis)할 때 돌연변이(mutation)가 일어날 수도 있습니다. 또, 개체 5는 개체 3과 개체 4로부터 각각 하나의 allele를 물려받게 됩니다만 만약 개체 3의 유전자형이 올바르다 한다면 개체 3의 감수분열에도 돌연변이가 일어났다고 생각할 수밖에 없습니다. 그러나 한 좌위에서 돌연변이가 일어날 확률은 한 번의 감수분열당 약 ( 10^{-7} ) 정도로 알려져 있기 때문에 2개체가 같은 좌위에서 돌연변이를 일으켰다고는 생각하기 어렵습니다. 그러므로 개체 3의 유전자형은 AT를 가지는 것이 타당합니다. 물론 이와 같은 가계모순 체크는 가게도의 정보가 있어야 하기 때문에 GWAS보다는 연쇄분석에서 주로 이루어집니다.</p>
<p>한편 가계정보가 없어도 집단을 이용해서 유전자형을 평가할 수 있습니다. 이를 위해서는 무작위 교배(random mating)집단일 필요가 있는데요. 무작위 교배집단이란 무작위로 선택된 남녀의 배우자(gamate)를 유전계승법칙에 의해 물려받은 개체집단을 말합니다. 예를 들어 보면 어떤 대학의 신입생 집단, 회사의 건강진단을 받은 집단, 임상시험의 자원 봉사자들의 집단 등은 각 개체 간에 혈연관계가 거의 없는 집단이라고 생각할 수 있기 때문에 무작위 교배집단이라 할 수 있습니다. 이러한 집단의 allele 분포는 세대를 거듭해도 그다지 변화가 없으며 이런 상태를 하디-베인베르크 평형(Hardy-Weinberg equilibrium; HWE)상태에 있다고 말합니다.</p>
<p>수학적으로는 매우 간단한 법칙입니다만 집단유전학의 연구에는 매우 공헌이 큰 법칙이기도 합니다. 하나의 SNP에 2개의 allele A와 T가 존재한다 하고 집단의 유전자형 AA, AT, TT의 도수를 각각 \(n_{AA}, n_{AT}, n_{TT} \), 단, \(n=n_{AA} + n_{AT} + n_{TT} \)라 한다면 allele A와 T의 빈도 \(f_A, f_T\)는<br />
\begin{aligned}<br />
f_A &#038;= \frac{2n_{AA}+n_{AT}}{2n}, \\<br />
f_T &#038;= \frac{2n_{TT}+n_{AT}}{2n}<br />
\end{aligned}<br />
로 표현할 수 있습니다. 여기서 세대 t와 세대 t+1의 관계를 살펴보도록 하겠습니다. 세대 t+1의 개체는 세대 t의 집단에서 무작위로 두 사람을 선택해  각각 하나씩의 allele를 물려받게 되지만 이것을 개체가 아닌 세대 t의 allele 집합에서 2개의 allele를 선택하는 것으로 생각할 수도 있습니다. 이 때 세대 t+1의 allele 빈도 \(f_A^{[t+1]}\)는 유전자형 AA에는 두 개, 유전자형 AT에는 한 개가 포함되므로<br />
\begin{aligned}<br />
f_A^{[t+1]}&#038;=\left(f_A^{[t]}\right)^2+\frac12 \cdot 2f_A^{[t]}f_T^{[t]} \\<br />
&#038;= f_A^{[t]}\left\{ f_A^{[t]}+f_T^{[t]} \right\} \\<br />
&#038;= f_A^{[t]}<br />
\end{aligned}<br />
가 성립합니다. 따라서 세대 t도 세대 t+1도 같은 allele 빈도를 가지게 되므로 allele의 분포는 대를 거듭해도 평형상태를 이루게 됨을 확인할 수 있습니다. 즉, HWE 법칙은 대를 거듭하더라도 allele 집합에서 각 allele의 빈도가 변하지 않고 평형상태를 유지한다는 법칙을 말합니다.   </p>
<p>만약 분석대상이 되는 집단에 대해 임의교배를 가정할 수 있다면 관측된 SNP는 HWE 상태에 있다고 생각할 수 있습니다. 만약 실제로 관측된 유전자형 빈도와 이론적으로 구할 수 있는 기대 유전자형 빈도의 차가 크다면 HWE 법칙을 따르지 않는다고 생각하며 다음의 카이제곱 통계량<br />
\[<br />
\frac{\left\{n_{AA}-n f_A^2 \right\}^2}{n f_A^2} +<br />
\frac{\left\{n_{AT}-2n f_A f_T \right\}^2}{2n f_A f_T} +<br />
\frac{\left\{ n_{TT}-n f_T^2 \right\}^2}{n f_T^2} \sim \chi^2(df=1)<br />
\]<br />
을 이용하여 적합도 검정을 할 수 있습니다. </p>
<p>HWE 법칙을 따르지 않는 원인은 다음과 같은 경우를 생각할 수 있습니다<br />
(1) 하나의 가계에서 추출한 집단<br />
(2) 근친혼의 개체를 포함한 집단(inbreeding)<br />
(3) 비슷한 형질의 개체끼리 결혼을 포함한 집단(assortative mating)<br />
(4) 서로 다른 인종이 섞여 있는 집단<br />
(5) 데이터의 오류</p>
<p>(1)~(3)은 무작위 교배를 가정하는 것이 부자연스러운 집단이므로 HWE 법칙을 가정하는 것 자체가 성립되지 않고, (4)는 집단의 구조화 문제라 부르며 이후 포스팅에서 자세히 알아보도록 하겠습니다. 실제로 무작위 교배를 가정할 수 있는 집단에서 HWE 법칙을 따르지 않는 좌위는 데이터에 오류가 있는 경우가 대부분입니다. </p>
<p>첫 번째 글에서 소개한 바와 같이 이러한 데이터의 오류는 무작위로 일어나는 것이 아닙니다. DNA chip을 이용한 관측에서는 관측기기로부터의 빛의 색으로 유전자형을 결정하게 됩니다. 예를 들어 유전자형이 allele A를 포함하고 있다면 빨강으로 allele T를 포함하고 있다면 녹색으로 빛을 발하게 됩니다. 그러므로 유전자형이 AA일 때는 빨강으로 TT일 때는 녹색으로 AT일 때는 그 혼합인 노란색으로 빛을 발하게 됩니다. AA와 TT에 대해서는 다르게 판단하는 경우가 거의 없지만, AT를 AA 혹은 TT로 판단하는 오류에는 경험상 방향성이 있는 경우가 많습니다. 이러한 오류는 HWE 법칙으로 부터 이탈하는지의 여부로 검출할 수 있으며, GWAS에서는 HWE 법칙을 따르지 않는 SNP는 분석대상에서 제외합니다. </p>
<p>이처럼 가계정보가 없으므로 각 개체의 유전자형을 평가하는 것은 어렵지만, 집단단위로 유전계승법칙에의 적합성을 평가할 수 있는 것이 안정된 분석결과를 유도할 수 있는 하나의 요인이기도 합니다. 단, 상동염색체와 성염색체에서의 HWE법칙의 적용방법은 다름에 주의해야 합니다. 성염색체 중 X 염색체는 어머니로부터는 아들, 딸 어느 쪽으로도 전달될 수 있지만, 아버지로부터는 반드시 딸에게만 전달된다는 것을 고려하여 평가할 필요가 있습니다. 이 X 염색체의 allele 전달에 대해서는 Feller의 저서 제5장 중 &#8220;Application to Genetics&#8221;와 &#8220;Sex-Linked characters&#8221;를 참고하기 바랍니다.     </p>
<h3> 참고문헌 </h3>
<ol>
<li>Emigh T.H. (1980). Biometrics, 36, 4, 627-642. </li>
<li>Hardy G.H. (1908). Science, 28, 49-50.</li>
<li>Weinberg W. (1908). Jahres. Wiertt. Ver. Vaterl. Natkd., 64, 369-382.</li>
<li>Feller W. (1968). An Introduction to Probability Theory and Its Applications, Wiley</li>
<li>鎌谷直之 (2007) 遺伝統計学入門, 岩波書店 (카마타니 나오유키 (2007), 유전통계학 입문, 이와나미서점 )</li>
</ol>
<h3  class="related_post_title">이글과 관련된 글</h3><ul class="related_post"><li>2012/03/30 -- <a href="http://wsyang.com/2012/03/gwas1/" title="GWAS로 배우는 유전통계학 &#8211; 1. 시작하며">GWAS로 배우는 유전통계학 &#8211; 1. 시작하며</a></li><li>2012/04/12 -- <a href="http://wsyang.com/2012/04/visualization/" title="GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화">GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화</a></li><li>2012/04/11 -- <a href="http://wsyang.com/2012/04/multiple-comparison/" title="GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제">GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제</a></li><li>2012/04/07 -- <a href="http://wsyang.com/2012/04/genom-wide-association-study-2/" title="GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석">GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석</a></li><li>2012/04/05 -- <a href="http://wsyang.com/2012/04/genome-wide-association-study-1/" title="GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구">GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구</a></li><li>2012/04/01 -- <a href="http://wsyang.com/2012/04/gwas-2-2-population-structure/" title="GWAS로 배우는 유전통계학 &#8211; 2.2 집단의 구조화 문제">GWAS로 배우는 유전통계학 &#8211; 2.2 집단의 구조화 문제</a></li><li>2012/04/18 -- <a href="http://wsyang.com/2012/04/gwas-concluding-remarks/" title="GWAS로 배우는 유전통계학 &#8211; 6. 맺음말">GWAS로 배우는 유전통계학 &#8211; 6. 맺음말</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2012/03/gwas2-hw/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>GWAS로 배우는 유전통계학 &#8211; 1. 시작하며</title>
		<link>http://wsyang.com/2012/03/gwas1/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=gwas1</link>
		<comments>http://wsyang.com/2012/03/gwas1/#comments</comments>
		<pubDate>Fri, 30 Mar 2012 07:34:16 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[유전통계학]]></category>
		<category><![CDATA[Genome-wide association analysis]]></category>
		<category><![CDATA[GWAS]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2441</guid>
		<description><![CDATA[이제 전 게놈 관련분석은 어느 정도 정형화된 분석방법이 아닌가 싶습니다. 예전부터 이 분석방법에 대해 한번 정리해보고 싶었는데, 마침 일본 계산기통계학회에서 종합보고서 형식의 글을 써달라는 제의가 왔기에 회사 동료와 함께 작성한 글을 바탕으로 앞으로 5~6회에 걸쳐 GWAS에 대해 정리해 보고자 합니다. 1. 시작하며 인간의 다양성(variation)에 대한 해명은 근대 통계학연구의 좋은 재료였습니다. 앞선 포스팅(유전통계학과 수리통계학의 역사)에서 자세히 [...]<p class="extra"><a href="http://jarederickson.com/freebies/" title="Jared Erickson" >A minimal wordpress theme by Jared Erickson</a></p>]]></description>
			<content:encoded><![CDATA[<p>이제 전 게놈 관련분석은 어느 정도 정형화된 분석방법이 아닌가 싶습니다. 예전부터 이 분석방법에 대해 한번 정리해보고 싶었는데, 마침 일본 계산기통계학회에서 종합보고서 형식의 글을 써달라는 제의가 왔기에 회사 동료와 함께 작성한 글을 바탕으로 앞으로 5~6회에 걸쳐 GWAS에 대해 정리해 보고자 합니다.</p>
<h3>1. 시작하며</h3>
<p>인간의 다양성(variation)에 대한 해명은 근대 통계학연구의 좋은 재료였습니다. 앞선 <a href="http://wp.me/p1u7fk-Bx">포스팅(유전통계학과 수리통계학의 역사)</a>에서 자세히 살펴본 바와 같이 Galton, K. Pearson, Fisher로 대표되는 통계학자들은 인간의 다양성을 설명하기 위해 회귀분석, 검정, 우도 등 근대통계학의 기초를 세우게 됩니다. 특히 Fisher는 멘델의 법칙에 따라 안정된 상태로 다음 세대로 다양한 정보가 전달되며 그 결과로써 각종 다양성이 발생한다고 생각하였습니다. 이처럼 멘델의 법칙에 따라 다양성이 만들어진다고 생각한 연구그룹을 멘델학파(medelian)라 합니다. 그러나 당시에는 게놈정보의 관측이 어려웠으므로 관측 데이터로부터 다양성의 메커니즘을 평가하는 생물계측학파(biometrician)가 실세를 차지하고 있었습니다.<br />
<span id="more-2441"></span><br />
하지만 1970년대에 들어 Sanger에 의해 획기적인 게놈정보 관측기술이 개발되고 게놈정보의 관측이 가능해져 멘델학파는 연관분석(linkage analysis)이라는 방법으로 유전적 요인이 비교적 강한 질병의 원인 유전자를 찾아내는 데 성공합니다. 또한, 21세기에 들어서 DNA chip이 출현하게 되고 모든 염색체에 존재하는 게놈정보를 싼 가격에 관측할 수 있게 되어, 지금까지 특수한 연구분야였던 게놈연구가 일반적으로 이루어지게 되었습니다.</p>
<p>전 게놈 관련분석(Genome-wide association study; GWAS)은 병질환 및 약물 반응성에 대한 유전적 요인을 총체적으로 탐색하는 연구 방법을 말하며, 일본 이화학연구소의 Ozaki(2002) 그룹에서 최초로 시도된 연구 방법입니다. 이후 게놈정보의 관측기술 및 분석기술의 발전 덕분에 세계 각지에서 많은 수의 연구 결과가 보고되고 있으며, 최근, 특히 올해 들어서 NGS(Next generation sequencing)을 이용한 논문 수가 급격하게 늘고 있기는 하지만 아직 Nature Genetics 등 주요 저널에 실리는 논문의 약 절반가량이 GWAS 연구 결과로 채워지고 있습니다. GWAS의 연구 성과에 대해서는 National Human Genome Research Institute의 <a href="http://www.genome.gov/gwastudies">GWAS catalog</a>에 정리되어 있으니 참고하길 바랍니다.</p>
<p>형질의 다양성이 유전자 다형성에 그 원인이 있다는 전제를 바탕으로 GWAS는 질환의 유무, 약물 복용에 따른 부작용의 유무 등과 같은 질적 형질(Qualitative trait)및 혈액 검사치 등의 양적 형질(Quantitative trait)과 DNA에 존재하는 유전자 다형성(polymorphism)을 그 분석 대상으로 합니다. 다양성의 기초가 되는 유전자 다형성은 인간의 약 30억 염기배열쌍(염기 A, T, G, C의 배열) 중 약 1%정도 존재하며 다형성을 표현하기 위한 다양한 지표가 존재함은 앞선 글(<a href="http://wp.me/p1u7fk-AI">게놈의 다양성과 유전자 다형성</a>)에서 설명한 바와 같습니다.</p>
<p><a href="http://wsyang.com/wp-content/uploads/2012/03/basePairs1.jpg"><img class="aligncenter size-full wp-image-2458" title="basePairs" src="http://wsyang.com/wp-content/uploads/2012/03/basePairs1.jpg" alt="" width="389" height="450" /></a></p>
<p>그중에서도 GWAS는 유전자 다형성의 하나인 단염기치환(Single nucleotide polymorphism; SNP)를 주로 이용합니다. 이 SNP가 존재하는 장소를 SNP좌위(SNP locus)라고 부르며 대개의 경우 하나의 SNP좌위는 두 염기의 조합으로 이루어집니다. 인간은 부모로부터 각각 하나의 염기를 물려받기 때문에 이 두 염기의 조합으로 유전적 요인을 표현할 수 있으며 이를 유전자형(genotype)이라 합니다. 예를 들어 염기 A와 T로 구성된 SNP에서는 개인에 따라 AA, AT, TT 중 하나의 유전자형을 가지게 됩니다. 또한, 염기와 같이 안정된 형태로 다음 세대에 전달되는 대상물을 보다 광범위하게 대립유전자(allele, 이후 allele로 표기)라 합니다. 앞선 예의 염기 A, T가 바로 각각의 allele에 해당하며 유전자형은 2개의 allele의 조합이라 할 수 있습니다. 따라서 유전 좌위(locus, 복수형은 loci)는 allele이 존재하는 장소를 일컫는 용어이기도 합니다.</p>
<p><a href="http://wsyang.com/wp-content/uploads/2012/03/locus.jpg"><img class="aligncenter size-full wp-image-2457" title="locus" src="http://wsyang.com/wp-content/uploads/2012/03/locus.jpg" alt="" width="450" height="303" /></a></p>
<p>대량의 SNP좌위의 유전자형 관측에는 DNA chip을 이용합니다. GWAS는 게놈 전부를 탐색한다는 의미의 Genome-wide라는 표현을 사용하고 있지만 실제로는 인간의 약 30억 염기쌍을 분석하는 것이 아니라 미리 DNA chip에 탑재된 50만~250만 SNP좌위의 유전자형을 관측하게 됩니다. 10년 전만 해도 하나의 SNP를 관측하기 위해 한 사람당 약 1달러 정도의 비용이 들었지만, DNA chip의 등장 덕분에 현재는 SNP당 약 0.05센트 정도의 비용으로 관측할 수 있게 되었습니다. DNA chip의 종류에 따라 관측좌위 수 및 부위가 다르므로 연구의 목적에 따라 선택해야 합니다.</p>
<p>GWAS에서 통계분석의 주목적은 추정과 검정이라 할 수 있습니다. GWAS에서는 주로 병에 걸린 사람과 정상인에 대해 SNP좌위의 유전자형 빈도 차이에 대해 오즈비(odds ratio)를 추정하거나 다량의 SNP좌위에 대해 분할표의 검정을 하게됩니다. 비교 대상이 되는 집단의 환경적 요인에 차이가 있다면 통계모형을 도입하여 SNP좌위 이외에 연령, 성별 등 환경요인을 설명변수로 하는 회귀모형을 이용하기도 합니다. 그 이외에도 생존시간분석, 기계학습모형의 도입 등 다양한 분석이 이루어지고 있습니다.</p>
<p>GWAS를 시작으로 하는 데이터 분석에서 게놈정보를 다룰 때 절대적인 규칙이 있으니 그것이 바로 물리적으로 관측 가능한 법칙인 유전계승법칙(law of inheritance)입니다. 여기서 유전계승법칙이라 함은 <a href="http://wp.me/p1u7fk-tb">멘델의 세 가지 법칙</a>, &#8220;분리의 법칙&#8221;, &#8220;독립의 법칙&#8221;, &#8220;우열의 법칙&#8221;과 독립 법칙의 예외인 연쇄(linkage)의 법칙을 말합니다. 게놈분석에서는 데이터의 관측으로부터 분석에 이르기까지 모든 장면에서 유전계승법칙을 무시할 수 없습니다. 특히 GWAS의 분석대상이 되는 SNP좌위는 그 양이 매우 많으므로 통계학에서의 제1종의 오류(Type 1 error)도 빈번히 일어납니다. 때문에 제1종의 오류를 줄이기 위한 다중비교 문제는 GWAS에서 피할 수 없는 문제 중 하나입니다. 또한, DNA chip의 관측오류도 무작위적으로 일어나는 것이 아니라 일정한 경향성이 있는 것도 알려져 있습니다. 이 때문에 조금이라도 거짓 양성을 줄이기 위해서는 참된 모형인 유전계승법칙에 근거해 분석을 진행하는 것이 자연스럽다 할 수 있겠습니다.</p>
<p>GWAS를 위한 도입설명은 이쯤 하기로 하고 다음 포스팅에서는 실제 분석을 진행하기 전에 필요한 데이터의 품질평가 방법들에 대해 적어 보도록 하겠습니다.</p>
<h3>참고문헌</h3>
<ol>
<li>Balding D.J. (2006), Nature reviews Genetics, 7, 10, 781-791.</li>
<li>Kruglyak L. (2008), Nature reviews Genetics, 9, 4, 314-318.</li>
<li>Ozaki K et al (2002), Nature Genetics, 32, 4, 650-654.</li>
<li>鎌谷直之 (2007) 遺伝統計学入門, 岩波書店 (카마타니 나오유키 (2007), 유전통계학 입문, 이와나미서점 )</li>
</ol>
<h3  class="related_post_title">이글과 관련된 글</h3><ul class="related_post"><li>2012/03/31 -- <a href="http://wsyang.com/2012/03/gwas2-hw/" title="GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙">GWAS로 배우는 유전통계학 &#8211; 2.1 가계모순과 하디-베인베르크 평형 법칙</a></li><li>2012/04/12 -- <a href="http://wsyang.com/2012/04/visualization/" title="GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화">GWAS로 배우는 유전통계학 &#8211; 5 분석결과의 시각화</a></li><li>2012/04/11 -- <a href="http://wsyang.com/2012/04/multiple-comparison/" title="GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제">GWAS로 배우는 유전통계학 &#8211; 4 다중비교 문제</a></li><li>2012/04/07 -- <a href="http://wsyang.com/2012/04/genom-wide-association-study-2/" title="GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석">GWAS로 배우는 유전통계학 &#8211; 3.2 질적, 양적형질에 대한 관련분석</a></li><li>2012/04/05 -- <a href="http://wsyang.com/2012/04/genome-wide-association-study-1/" title="GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구">GWAS로 배우는 유전통계학 &#8211; 3.1 코호트 연구와 실험-대조군 연구</a></li><li>2012/04/01 -- <a href="http://wsyang.com/2012/04/gwas-2-2-population-structure/" title="GWAS로 배우는 유전통계학 &#8211; 2.2 집단의 구조화 문제">GWAS로 배우는 유전통계학 &#8211; 2.2 집단의 구조화 문제</a></li><li>2012/04/18 -- <a href="http://wsyang.com/2012/04/gwas-concluding-remarks/" title="GWAS로 배우는 유전통계학 &#8211; 6. 맺음말">GWAS로 배우는 유전통계학 &#8211; 6. 맺음말</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2012/03/gwas1/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

<!-- www.000webhost.com Analytics Code -->
<script type="text/javascript" src="http://stats.hosting24.com/count.php"></script>
<noscript><a href="http://www.hosting24.com/"><img src="http://stats.hosting24.com/count.php" alt="web hosting" /></a></noscript>
<!-- End Of Analytics Code -->

