<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Wsyang.com</title>
	<atom:link href="http://wsyang.com/feed/" rel="self" type="application/rss+xml" />
	<link>http://wsyang.com</link>
	<description>Mac, Statistics, and Common Life in Japan</description>
	<lastBuildDate>Mon, 29 Aug 2011 14:28:06 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>Visualize This</title>
		<link>http://wsyang.com/2011/08/visualize-this/</link>
		<comments>http://wsyang.com/2011/08/visualize-this/#comments</comments>
		<pubDate>Mon, 29 Aug 2011 14:28:06 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[일상다반사]]></category>
		<category><![CDATA[통계 이야기]]></category>
		<category><![CDATA[Visualize This]]></category>
		<category><![CDATA[데이터 시각화]]></category>
		<category><![CDATA[지름]]></category>
		<category><![CDATA[책]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2382</guid>
		<description><![CDATA[책을 한 권 샀습니다. &#8220;Visualize This&#8220;라고 데이터 시각화에 대한 책입니다. 블로그 flowingdata.com을 운영하는 친구가 펴낸 책인데 예제가 많아서 마음에 듭니다. 일본 아마존에 주문했더니 열흘 만에 도착했네요. 요즘 유행인 데이터 시각화에 저도 동참해 보렵니다. ^^; 이글과 관련된 글2011/05/29 -- OECD에서 평가한 우리나라의 웰빙지수는?]]></description>
			<content:encoded><![CDATA[<p><a href="http://wsyang.com/wp-content/uploads/2011/08/337568_264351606926781_100000558318414_989690_2144818_o.jpg" rel="lightbox"><img class="aligncenter size-medium wp-image-2383" title="Visualize This" src="http://wsyang.com/wp-content/uploads/2011/08/337568_264351606926781_100000558318414_989690_2144818_o-500x334.jpg" alt="" width="500" height="334" /></a></p>
<p>책을 한 권 샀습니다. &#8220;<a href="http://www.amazon.com/Visualize-This-FlowingData-Visualization-Statistics/dp/0470944889/ref=sr_1_1?ie=UTF8&amp;qid=1314627254&amp;sr=8-1">Visualize This</a>&#8220;라고 데이터 시각화에 대한 책입니다. 블로그 <a href="http://www.flowingdata.com">flowingdata.com</a>을 운영하는 친구가 펴낸 책인데 예제가 많아서 마음에 듭니다. 일본 아마존에 주문했더니 열흘 만에 도착했네요.</p>
<p>요즘 유행인 데이터 시각화에 저도 동참해 보렵니다. ^^;</p>
<h2  class="related_post_title">이글과 관련된 글</h2><ul class="related_post"><li>2011/05/29 -- <a href="http://wsyang.com/2011/05/oecd%ec%97%90%ec%84%9c-%ed%8f%89%ea%b0%80%ed%95%9c-%ec%9a%b0%eb%a6%ac%eb%82%98%eb%9d%bc%ec%9d%98-%ec%9b%b0%eb%b9%99%ec%a7%80%ec%88%98%eb%8a%94/" title="OECD에서 평가한 우리나라의 웰빙지수는?">OECD에서 평가한 우리나라의 웰빙지수는?</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2011/08/visualize-this/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>R에서 SAS의 영구파일 sas7bdat 이용하기</title>
		<link>http://wsyang.com/2011/07/r%ec%97%90%ec%84%9c-sas%ec%9d%98-%ec%98%81%ea%b5%ac%ed%8c%8c%ec%9d%bc-sas7bdat-%ec%9d%b4%ec%9a%a9%ed%95%98%ea%b8%b0/</link>
		<comments>http://wsyang.com/2011/07/r%ec%97%90%ec%84%9c-sas%ec%9d%98-%ec%98%81%ea%b5%ac%ed%8c%8c%ec%9d%bc-sas7bdat-%ec%9d%b4%ec%9a%a9%ed%95%98%ea%b8%b0/#comments</comments>
		<pubDate>Wed, 27 Jul 2011 05:43:48 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[R-Tips]]></category>
		<category><![CDATA[SAS]]></category>
		<category><![CDATA[R package]]></category>
		<category><![CDATA[sas7bdat]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2368</guid>
		<description><![CDATA[최근 R package가 통계 분석에 많이 사용된다고는 하지만, 기업에서는 SAS나 SPSS를 더 많이 사용하는 것으로 알고 있습니다. 저도 대학이나 연구기관의 의뢰에는 R를 사용하지만, 기업의 데이터 분석에는 SAS를 이용합니다. 간혹 클라이언트로부터 받은 데이터가 SAS의 영구 파일형식인 sas7bdat일 때가 있습니다. 분석할 때 아무래도 손에 익은 R을 선호하게 되는데 SAS를 사용할 수 있는 환경에 있으면 데이터를 일반 ASCII [...]]]></description>
			<content:encoded><![CDATA[<p>최근 R package가 통계 분석에 많이 사용된다고는 하지만, 기업에서는 SAS나 SPSS를 더 많이 사용하는 것으로 알고 있습니다. 저도 대학이나 연구기관의 의뢰에는 R를 사용하지만, 기업의 데이터 분석에는 SAS를 이용합니다. </p>
<p>간혹 클라이언트로부터 받은 데이터가 SAS의 영구 파일형식인 sas7bdat일 때가 있습니다. 분석할 때 아무래도 손에 익은 R을 선호하게 되는데 SAS를 사용할 수 있는 환경에 있으면 데이터를 일반 ASCII 파일로 변환하여 사용하면 되지만 SAS를 사용할 수 없는 환경에 있을 때도 있습니다. </p>
<p>물론 R에서 SAS 형식의 데이터를 불러오는 함수 read.ssd()가 있긴 하지만, 이도 시스템에 SAS가 설치되어 있어야만 이용할 수 있어서 이래저래 불편했었습니다. 그런데 최근 sas7bdat라는 패키지가 공개되어 간단하게 이 형식의 데이터를 R에 불러올 수 있게 되었습니다.<br />
<span id="more-2368"></span><br />
먼저 sas7bdat 패키지를 R에 인스톨합니다.</p>

<div class="wp_codebox"><table><tr id="p23684"><td class="line_numbers"><pre>1
</pre></td><td class="code" id="p2368code4"><pre class="rsplus" style="font-family:monospace;"><span style="color: #080;">&gt;</span> <span style="color: #0000FF; font-weight: bold;">install.<span style="">packages</span></span><span style="color: #080;">&#40;</span><span style="color: #ff0000;">&quot;sas7bdat&quot;</span><span style="color: #080;">&#41;</span></pre></td></tr></table></div>

<p>예를 들어 SAS에서 제공하는 예제 데이터 &#8220;cars.sas7bdat&#8221;를 R로 불러 오기 위해서는</p>

<div class="wp_codebox"><table><tr id="p23685"><td class="line_numbers"><pre>1
2
</pre></td><td class="code" id="p2368code5"><pre class="rsplus" style="font-family:monospace;"><span style="color: #080;">&gt;</span> <span style="color: #0000FF; font-weight: bold;">library</span><span style="color: #080;">&#40;</span>sas7bdat<span style="color: #080;">&#41;</span>
<span style="color: #080;">&gt;</span> <span style="color: #CC9900; font-weight: bold;">cars</span> <span style="color: #080;">&lt;</span> <span style="color: #080;">-</span> read.<span style="">sas7bdat</span><span style="color: #080;">&#40;</span><span style="color: #ff0000;">&quot;ftp://ftp.sas.com/edu/hec/cars.sas7bdat&quot;</span><span style="color: #080;">&#41;</span></pre></td></tr></table></div>

<p>와 같이 함수 read.sas7bdat()를 이용하면 R의 데이터프레임 형식으로 변환시킬 수 있습니다.  </p>
<p>그 후엔 원하는 분석을 진행하면 되겠지요.
</pre>

<div class="wp_codebox"><table><tr id="p23686"><td class="line_numbers"><pre>1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
</pre></td><td class="code" id="p2368code6"><pre class="rsplus" style="font-family:monospace;"><span style="color: #080;">&gt;</span> <span style="color: #0000FF; font-weight: bold;">summary</span><span style="color: #080;">&#40;</span><span style="color: #CC9900; font-weight: bold;">cars</span><span style="color: #080;">&#41;</span>
            Model      Country        Type        Weight     TurningRadius  
 Acura Integra  <span style="color: #080;">:</span>  <span style="color: #ff0000;">1</span>   Japan<span style="color: #080;">:</span><span style="color: #ff0000;">30</span>   Compact<span style="color: #080;">:</span><span style="color: #ff0000;">22</span>   Min.   <span style="color: #080;">:</span><span style="color: #ff0000;">1695</span>   Min.   <span style="color: #080;">:</span><span style="color: #ff0000;">32.00</span>  
 Acura Legend V6<span style="color: #080;">:</span>  <span style="color: #ff0000;">1</span>   Other<span style="color: #080;">:</span><span style="color: #ff0000;">37</span>   Large  <span style="color: #080;">:</span><span style="color: #ff0000;">17</span>   1st Qu.<span style="color: #080;">:</span><span style="color: #ff0000;">2624</span>   1st Qu.<span style="color: #080;">:</span><span style="color: #ff0000;">36.00</span>  
 Audi <span style="color: #ff0000;">100</span>       <span style="color: #080;">:</span>  <span style="color: #ff0000;">1</span>   USA  <span style="color: #080;">:</span><span style="color: #ff0000;">49</span>   Medium <span style="color: #080;">:</span><span style="color: #ff0000;">30</span>   Median <span style="color: #080;">:</span><span style="color: #ff0000;">2920</span>   Median <span style="color: #080;">:</span><span style="color: #ff0000;">39.00</span>  
 Audi <span style="color: #ff0000;">80</span>        <span style="color: #080;">:</span>  <span style="color: #ff0000;">1</span>              Small  <span style="color: #080;">:</span><span style="color: #ff0000;">22</span>   Mean   <span style="color: #080;">:</span><span style="color: #ff0000;">2958</span>   Mean   <span style="color: #080;">:</span><span style="color: #ff0000;">38.59</span>  
 Audi <span style="color: #ff0000;">90</span>        <span style="color: #080;">:</span>  <span style="color: #ff0000;">1</span>              Sporty <span style="color: #080;">:</span><span style="color: #ff0000;">25</span>   3rd Qu.<span style="color: #080;">:</span><span style="color: #ff0000;">3331</span>   3rd Qu.<span style="color: #080;">:</span><span style="color: #ff0000;">41.00</span>  
 BMW 325i       <span style="color: #080;">:</span>  <span style="color: #ff0000;">1</span>                           Max.   <span style="color: #080;">:</span><span style="color: #ff0000;">4285</span>   Max.   <span style="color: #080;">:</span><span style="color: #ff0000;">47.00</span>  
 <span style="color: #080;">&#40;</span>Other<span style="color: #080;">&#41;</span>        <span style="color: #080;">:</span><span style="color: #ff0000;">110</span>                                                         
  Displacement     Horsepower       GasTank     
 Min.   <span style="color: #080;">:</span> <span style="color: #ff0000;">61.0</span>   Min.   <span style="color: #080;">:</span> <span style="color: #ff0000;">55.0</span>   Min.   <span style="color: #080;">:</span> <span style="color: #ff0000;">9.20</span>  
 1st Qu.<span style="color: #080;">:</span><span style="color: #ff0000;">115.5</span>   1st Qu.<span style="color: #080;">:</span><span style="color: #ff0000;">100.0</span>   1st Qu.<span style="color: #080;">:</span><span style="color: #ff0000;">14.15</span>  
 Median <span style="color: #080;">:</span><span style="color: #ff0000;">143.0</span>   Median <span style="color: #080;">:</span><span style="color: #ff0000;">129.0</span>   Median <span style="color: #080;">:</span><span style="color: #ff0000;">15.90</span>  
 Mean   <span style="color: #080;">:</span><span style="color: #ff0000;">158.3</span>   Mean   <span style="color: #080;">:</span><span style="color: #ff0000;">130.2</span>   Mean   <span style="color: #080;">:</span><span style="color: #ff0000;">16.24</span>  
 3rd Qu.<span style="color: #080;">:</span><span style="color: #ff0000;">181.0</span>   3rd Qu.<span style="color: #080;">:</span><span style="color: #ff0000;">150.0</span>   3rd Qu.<span style="color: #080;">:</span><span style="color: #ff0000;">18.00</span>  
 Max.   <span style="color: #080;">:</span><span style="color: #ff0000;">350.0</span>   Max.   <span style="color: #080;">:</span><span style="color: #ff0000;">278.0</span>   Max.   <span style="color: #080;">:</span><span style="color: #ff0000;">27.00</span>  
&nbsp;
<span style="color: #080;">&gt;</span> <span style="color: #0000FF; font-weight: bold;">with</span><span style="color: #080;">&#40;</span><span style="color: #CC9900; font-weight: bold;">cars</span>, <span style="color: #0000FF; font-weight: bold;">summary</span><span style="color: #080;">&#40;</span>Weight<span style="color: #080;">&#41;</span><span style="color: #080;">&#41;</span>
   Min. 1st Qu.  <span style="">Median</span>    Mean 3rd Qu.    <span style="">Max</span>. 
   <span style="color: #ff0000;">1695</span>    <span style="color: #ff0000;">2624</span>    <span style="color: #ff0000;">2920</span>    <span style="color: #ff0000;">2958</span>    <span style="color: #ff0000;">3331</span>    <span style="color: #ff0000;">4285</span></pre></td></tr></table></div>

<p>아직 대용량 데이터를 대상으로 써보지는 않았지만, SAS가 없어도 직접 sas7bdat 형식의 파일을 R에서 이용할 수 있다는 점에서 유용하게 사용할 수 있을듣 합니다. </p>
<h2  class="related_post_title">이글과 관련된 글</h2><ul class="related_post"><li>2011/06/20 -- <a href="http://wsyang.com/2011/06/r-%ec%95%8c%ec%95%84%eb%91%90%eb%a9%b4-%ed%8e%b8%eb%a6%ac%ed%95%9c-%ed%95%a8%ec%88%98-head%ec%99%80-tail/" title="[R] 알아두면 편리한 함수 head와 tail">[R] 알아두면 편리한 함수 head와 tail</a></li><li>2011/06/07 -- <a href="http://wsyang.com/2011/06/%eb%91%90-%ec%9d%b4%ec%82%b0%ed%98%95-%eb%b3%80%ec%88%98%ec%9d%98-%ec%97%b0%ea%b4%80%ec%84%b1-%ec%b2%99%eb%8f%84-cramers-v/" title="두 이산형 변수의 연관성 척도 Cramér&#8217;s V">두 이산형 변수의 연관성 척도 Cramér&#8217;s V</a></li><li>2011/05/09 -- <a href="http://wsyang.com/2011/05/r%ec%97%90%ec%84%9c-%ec%82%ac%ec%9a%a9%ed%95%98%eb%8a%94-%eb%8d%b0%ec%9d%b4%ed%84%b0%ec%85%8b%ec%9d%98-%ed%98%95%ed%83%9c/" title="R에서 사용하는 데이터 셋의 형태">R에서 사용하는 데이터 셋의 형태</a></li><li>2011/04/28 -- <a href="http://wsyang.com/2011/04/r-%eb%88%88%ec%9c%bc%eb%a1%9c-%ed%99%95%ec%9d%b8%ed%95%98%eb%8a%94-%ec%a4%91%ec%8b%ac%ea%b7%b9%ed%95%9c%ec%a0%95%eb%a6%ac/" title="[R] 눈으로 확인하는 중심극한정리">[R] 눈으로 확인하는 중심극한정리</a></li><li>2011/04/25 -- <a href="http://wsyang.com/2011/04/r-boxplot%ec%9d%98-%ec%83%88%eb%a1%9c%ec%9a%b4-%ed%98%95%ed%83%9c-violin-plot/" title="[R] boxplot의 새로운 형태 violin plot">[R] boxplot의 새로운 형태 violin plot</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2011/07/r%ec%97%90%ec%84%9c-sas%ec%9d%98-%ec%98%81%ea%b5%ac%ed%8c%8c%ec%9d%bc-sas7bdat-%ec%9d%b4%ec%9a%a9%ed%95%98%ea%b8%b0/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[R] 알아두면 편리한 함수 head와 tail</title>
		<link>http://wsyang.com/2011/06/r-%ec%95%8c%ec%95%84%eb%91%90%eb%a9%b4-%ed%8e%b8%eb%a6%ac%ed%95%9c-%ed%95%a8%ec%88%98-head%ec%99%80-tail/</link>
		<comments>http://wsyang.com/2011/06/r-%ec%95%8c%ec%95%84%eb%91%90%eb%a9%b4-%ed%8e%b8%eb%a6%ac%ed%95%9c-%ed%95%a8%ec%88%98-head%ec%99%80-tail/#comments</comments>
		<pubDate>Mon, 20 Jun 2011 08:34:11 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[R-Tips]]></category>
		<category><![CDATA[R 함수]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2353</guid>
		<description><![CDATA[R의 사용자 환경(UI)은 그다지 좋은 편이 못됩니다. R에서 데이터 파일(txt, csv 등)을 불러오면 데이터프레임 형식으로 작업공간에 저장됩니다. 데이터가 제대로 읽혔는지 확인하는 방법은 저장된 데이터프레임의 이름을 콘솔에 입력하면 됩니다만 데이터의 크기가 크면 한 화면에 다 보이지 않을뿐더러, 일정 수가 넘어가게 되면 아예 보여 주지도 않습니다. 또한, 계산 결과가 매우 많을 때도 같은 상황이 발생하게 됩니다. 예를 [...]]]></description>
			<content:encoded><![CDATA[<p>R의 사용자 환경(UI)은 그다지 좋은 편이 못됩니다. R에서 데이터 파일(txt, csv 등)을 불러오면 데이터프레임 형식으로 작업공간에 저장됩니다. 데이터가 제대로 읽혔는지 확인하는 방법은 저장된 데이터프레임의 이름을 콘솔에 입력하면 됩니다만 데이터의 크기가 크면 한 화면에 다 보이지 않을뿐더러, 일정 수가 넘어가게 되면 아예 보여 주지도 않습니다. 또한, 계산 결과가 매우 많을 때도 같은 상황이 발생하게 됩니다.<br />
<span id="more-2353"></span><br />
예를 들어 SNP를 이용한 연관분석(association study)을 하게 되면 검정 통계량, 유의확률, SNP 빈도 등이 포함된 결과 파일을 가지고 작업을 하는데, 적게는 수천, 많게는 수십만 개의 결과를 확인해야 합니다. 그런데 정작 알고 싶은 건 유의확률이 아주 작은 몇 개 혹은 몇십 개의 결과일 때가 많습니다.<br />
이럴 때 편리하게 쓸 수 있는 함수로 head와 tail이 있습니다.</p>
<p>유명한 붓꽃 데이터를 예로 들어 보면</p>

<div class="wp_codebox"><table><tr id="p235312"><td class="line_numbers"><pre>1
2
3
4
5
6
7
8
9
10
11
12
13
</pre></td><td class="code" id="p2353code12"><pre class="text" style="font-family:monospace;">&gt; iris
    Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
1            5.1         3.5          1.4         0.2     setosa
2            4.9         3.0          1.4         0.2     setosa
3            4.7         3.2          1.3         0.2     setosa
4            4.6         3.1          1.5         0.2     setosa
5            5.0         3.6          1.4         0.2     setosa
...
146          6.7         3.0          5.2         2.3  virginica
147          6.3         2.5          5.0         1.9  virginica
148          6.5         3.0          5.2         2.0  virginica
149          6.2         3.4          5.4         2.3  virginica
150          5.9         3.0          5.1         1.8  virginica</pre></td></tr></table></div>

<p>위와 같이 150개의 관측값이 들어 있는 데이터의 앞부분을 확인하고 싶을 때 함수 head를 이용하면 디폴트로 처음 6개의 관측값을 출력합니다.</p>

<div class="wp_codebox"><table><tr id="p235313"><td class="line_numbers"><pre>1
2
3
4
5
6
7
8
</pre></td><td class="code" id="p2353code13"><pre class="text" style="font-family:monospace;">&gt; head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa</pre></td></tr></table></div>

<p>더 많은 관측값을 출력하고 싶으면 head(iris, n=10)와 같이 &#8220;n= 출력하고 싶은 수&#8221;를 지정하면 됩니다.</p>

<div class="wp_codebox"><table><tr id="p235314"><td class="line_numbers"><pre>1
2
3
4
5
6
7
8
9
10
11
12
</pre></td><td class="code" id="p2353code14"><pre class="text" style="font-family:monospace;">&gt; head(iris, n=10)
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1           5.1         3.5          1.4         0.2  setosa
2           4.9         3.0          1.4         0.2  setosa
3           4.7         3.2          1.3         0.2  setosa
4           4.6         3.1          1.5         0.2  setosa
5           5.0         3.6          1.4         0.2  setosa
6           5.4         3.9          1.7         0.4  setosa
7           4.6         3.4          1.4         0.3  setosa
8           5.0         3.4          1.5         0.2  setosa
9           4.4         2.9          1.4         0.2  setosa
10          4.9         3.1          1.5         0.1  setosa</pre></td></tr></table></div>

<p>마지막 6개의 관측값을 출력하고 싶을 때에는 tail 함수를 이용하여</p>

<div class="wp_codebox"><table><tr id="p235315"><td class="line_numbers"><pre>1
2
3
4
5
6
7
8
</pre></td><td class="code" id="p2353code15"><pre class="text" style="font-family:monospace;">&gt; tail(iris)
    Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
145          6.7         3.3          5.7         2.5 virginica
146          6.7         3.0          5.2         2.3 virginica
147          6.3         2.5          5.0         1.9 virginica
148          6.5         3.0          5.2         2.0 virginica
149          6.2         3.4          5.4         2.3 virginica
150          5.9         3.0          5.1         1.8 virginica</pre></td></tr></table></div>

<p>와 같이 사용합니다. head와 마찬가지로 &#8220;n=출력하고 싶은 수&#8221;를 지정하면 더 많은 값을 출력할 수 있습니다.<br />
물론</p>

<div class="wp_codebox"><table><tr id="p235316"><td class="line_numbers"><pre>1
2
</pre></td><td class="code" id="p2353code16"><pre class="rsplus" style="font-family:monospace;"><span style="color: #080;">&gt;</span> <span style="color: #CC9900; font-weight: bold;">iris</span><span style="color: #080;">&#91;</span>,<span style="color: #ff0000;">1</span><span style="color: #080;">:</span><span style="color: #ff0000;">6</span><span style="color: #080;">&#93;</span> 
<span style="color: #080;">&gt;</span> <span style="color: #CC9900; font-weight: bold;">iris</span><span style="color: #080;">&#91;</span>,<span style="color: #ff0000;">145</span><span style="color: #080;">:</span><span style="color: #ff0000;">150</span><span style="color: #080;">&#93;</span></pre></td></tr></table></div>

<p>와 같이 인덱스를 사용하는 방법도 있지만, 관측값의 수가 많을 수록 실제로 사용해보면 head, tail 함수를 이용하는 것이 훨씬 편하더군요.</p>
<h2  class="related_post_title">이글과 관련된 글</h2><ul class="related_post"><li>2011/07/27 -- <a href="http://wsyang.com/2011/07/r%ec%97%90%ec%84%9c-sas%ec%9d%98-%ec%98%81%ea%b5%ac%ed%8c%8c%ec%9d%bc-sas7bdat-%ec%9d%b4%ec%9a%a9%ed%95%98%ea%b8%b0/" title="R에서 SAS의 영구파일 sas7bdat 이용하기">R에서 SAS의 영구파일 sas7bdat 이용하기</a></li><li>2011/06/07 -- <a href="http://wsyang.com/2011/06/%eb%91%90-%ec%9d%b4%ec%82%b0%ed%98%95-%eb%b3%80%ec%88%98%ec%9d%98-%ec%97%b0%ea%b4%80%ec%84%b1-%ec%b2%99%eb%8f%84-cramers-v/" title="두 이산형 변수의 연관성 척도 Cramér&#8217;s V">두 이산형 변수의 연관성 척도 Cramér&#8217;s V</a></li><li>2011/05/09 -- <a href="http://wsyang.com/2011/05/r%ec%97%90%ec%84%9c-%ec%82%ac%ec%9a%a9%ed%95%98%eb%8a%94-%eb%8d%b0%ec%9d%b4%ed%84%b0%ec%85%8b%ec%9d%98-%ed%98%95%ed%83%9c/" title="R에서 사용하는 데이터 셋의 형태">R에서 사용하는 데이터 셋의 형태</a></li><li>2011/04/28 -- <a href="http://wsyang.com/2011/04/r-%eb%88%88%ec%9c%bc%eb%a1%9c-%ed%99%95%ec%9d%b8%ed%95%98%eb%8a%94-%ec%a4%91%ec%8b%ac%ea%b7%b9%ed%95%9c%ec%a0%95%eb%a6%ac/" title="[R] 눈으로 확인하는 중심극한정리">[R] 눈으로 확인하는 중심극한정리</a></li><li>2011/04/25 -- <a href="http://wsyang.com/2011/04/r-boxplot%ec%9d%98-%ec%83%88%eb%a1%9c%ec%9a%b4-%ed%98%95%ed%83%9c-violin-plot/" title="[R] boxplot의 새로운 형태 violin plot">[R] boxplot의 새로운 형태 violin plot</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2011/06/r-%ec%95%8c%ec%95%84%eb%91%90%eb%a9%b4-%ed%8e%b8%eb%a6%ac%ed%95%9c-%ed%95%a8%ec%88%98-head%ec%99%80-tail/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>유전통계학과 수리통계학의 역사</title>
		<link>http://wsyang.com/2011/06/%ec%9c%a0%ec%a0%84%ed%86%b5%ea%b3%84%ed%95%99%ea%b3%bc-%ec%88%98%eb%a6%ac%ed%86%b5%ea%b3%84%ed%95%99%ec%9d%98-%ec%97%ad%ec%82%ac/</link>
		<comments>http://wsyang.com/2011/06/%ec%9c%a0%ec%a0%84%ed%86%b5%ea%b3%84%ed%95%99%ea%b3%bc-%ec%88%98%eb%a6%ac%ed%86%b5%ea%b3%84%ed%95%99%ec%9d%98-%ec%97%ad%ec%82%ac/#comments</comments>
		<pubDate>Fri, 10 Jun 2011 05:49:52 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[유전통계학]]></category>
		<category><![CDATA[통계 이야기]]></category>
		<category><![CDATA[수리통계학]]></category>
		<category><![CDATA[역사]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2327</guid>
		<description><![CDATA[유전학과 통계학은 유사점이 많은 학문입니다. 실제로 19세기 후반, 20세기 초반의 유명한 통계학자인 Francis Galton, Karl Pearson, R.A Fisher 등은 유명한 유전학자이기도 합니다. 이번 포스트에서는 각각의 학문이 어떻게 시작되고, 어떠한 경로로 지금에 이르렀는지 살펴보도록 하겠습니다. 유전학의 성립과 역사 초기의 과학적 생물학은 칼 본 린네(Carl von Linne에) 의해 시작된 분류학이라 할 수 있겠죠. Linne는 다양한 생물이 종(species)이라는 [...]]]></description>
			<content:encoded><![CDATA[<p>유전학과 통계학은 유사점이 많은 학문입니다. 실제로 19세기 후반, 20세기 초반의 유명한 통계학자인 Francis Galton, Karl Pearson, R.A Fisher 등은 유명한 유전학자이기도 합니다. 이번 포스트에서는 각각의 학문이 어떻게 시작되고, 어떠한 경로로 지금에 이르렀는지 살펴보도록 하겠습니다.</p>
<h2>유전학의 성립과 역사</h2>
<p><span id="more-2327"></span><br />
초기의 과학적 생물학은 칼 본 린네(Carl von Linne에) 의해 시작된 분류학이라 할 수 있겠죠. Linne는 다양한 생물이 종(species)이라는 단위로 정리될 수 있다는 것을 제안했습니다. 그러나 이렇게 다양한 종이 어떠한 원리로 생겨났는가에 대한 원리는 명확하지 않아서 과학적인 고찰은 찰스 다윈(Charles Darwin)의 &#8220;종의 기원(Origin of Species)&#8221;의 출판을 기다릴 수 밖에 없었습니다. 다윈은 서로 다른 종 사이의 다양성(variation)의 메커니즘을 해명하는데 진화(evolution)라는 이론을 주장하죠. 그러나 다양성은 서로 다른 종간에 존재할 뿐만 아니라 같은 종 내에도 많은 다양성이 존재합니다. 특히, 인간은 우리의 가장 친밀한 종이며 그 다양성은 최대 관심사의 하나입니다. 서로 다른 종 사이의 다양성 대부분은 질적인 다양성입니다. 그러나 인간의 다양성은 서로 다른 종 사이의 다양성과는 다르게 양적인 해석이 가능합니다. 즉, 같은 종 안에서의 다양성은 때때로 연속적이어서 서로 다른 종 사이에서 볼 수 있는 이산적인 다양성과는 다르다 할 수 있습니다.</p>
<p><a href="http://wsyang.com/wp-content/uploads/2011/06/Galton.resized.png"><img class="alignright size-full wp-image-2329" title="Francis Galton" src="http://wsyang.com/wp-content/uploads/2011/06/Galton.resized.png" alt="" width="186" height="215" /></a></p>
<p>인간의 다양성을 설명하기 위한 과학적 연구를 시작한 것은 <strong>프랜시스 골튼(Francis Galton)</strong>입니다. Galton은 같은 종 안에서의 다양성을 양적으로 분석하기 위해 수학적 방법을 도입하였고 이는 생물학의 연구에 처음으로 수학을 본격적으로 응용한 사례로 주목할 수 있습니다. Glaton에 의해 창시되고 <strong>칼 피어슨(K. Pearson)</strong>에 의해 발전한 같은 종 안의 다양성을 수학적으로 분석하는 과학분야를 생물계측학(biometrics)라 합니다. Galton은 인간의 키 등의 연속적인 변량을 부모와 자식간에 비교하기 위해 회귀(regression), 상관(correlation) 등의 개념을 고안하고, 이어서 피어슨은 적률(moment), 확률밀도함수의 관계, 카이 제곱 검정 등을 만들어 내었습니다. 이들은 현재 통계학으로 이어져서, Galton, Pearson, W.F.R Weldon에 의해 창간된 영국의 통계학 저널 이름이 &#8220;Biometrika&#8221;인 것도 이에 영향을 받았기 때문이죠. Galton은 Darwin과 친척관계였기 때문에 종 사이의 다양성을 설명한 Darwin에 커다란 영향을 받고, 종 안에서의 다양성을 설명하기 위해 생물계측학을 창시하게 됩니다.</p>
<p><a href="http://wsyang.com/wp-content/uploads/2011/06/mendel.resized.png"><img class="alignleft size-full wp-image-2331" title="Gregor Johann Mendel" src="http://wsyang.com/wp-content/uploads/2011/06/mendel.resized.png" alt="" width="231" height="220" /></a></p>
<p>한편, <strong>멘델(Gregor Johann Mendel)</strong>은 유전계승법칙(laws of inheritance)을 1866년에 발표합니다. 이것은 선조로부터 자손에게 정보가 전달된다는 개념으로 유전계승(heredity), 혹은 inheritance에 처음으로 과학적 고찰을 더한 매우 중요한 발견입니다. 하지만, 1900년에 멘델의 유전계승법칙이 프리스(Hugo Marie De Vries),  코렌스(Carl Erich Correns), 첼마크(E. Tschermak) 3명의 생물학자에 의해 재발견 되기 전까지 이 법칙의 중요성을 이해하는 사람은 많지 않았습니다.</p>
<p>&nbsp;</p>
<p><a href="http://wsyang.com/wp-content/uploads/2011/06/round1.resized.png"><img class="aligncenter size-full wp-image-2333" title="round1.resized" src="http://wsyang.com/wp-content/uploads/2011/06/round1.resized.png" alt="" width="380" height="279" /></a></p>
<p><strong>베트슨(W. Bateson)</strong>은 생물계측학의 Weldon의 제자로 다양성의 연구를 하고 있었지만, 멘델의 법칙에 큰 영향을 받아 heredity 뿐만 아니라 다양성의 대부분을 이 법칙에 의해 설명할 수 있다고 생각했습니다. 그러나 Bateson의 주장은 스승인 Weldon을 포함한 생물계측학자들의 맹렬한 비판을 받게 됩니다. 생물계측학파의 학자들은 종 안의 다양성은 연속적이므로 멘델의 법칙이 주장하는 이산형의 이론으로는 많은 다양성을 설명할 수 없다고 반론하였습니다. Bateson은 멘델의 법칙에 의해 이산적인 다양성은 설명할 수 있고, 연속적인 다양성을 설명하는 것이 자신은 불가능했지만, 직감적으로 언젠가는 가능할 것이라 예측합니다.</p>
<p><a href="http://wsyang.com/wp-content/uploads/2011/06/round2.png"></a><a href="http://wsyang.com/wp-content/uploads/2011/06/round2.png"><img class="aligncenter size-full wp-image-2338" title="round2" src="http://wsyang.com/wp-content/uploads/2011/06/round2.png" alt="" width="410" height="153" /></a></p>
<p>생물계측학파와 멘델학파의 논쟁은 장기간에 걸쳐 이루어졌는데요. 이 논쟁의 종지부에 크게 이바지한 인물이 피셔(F.A. Fisher)입니다. Fisher는 1918년에 중요한 논문(<a title="The Correlation Between Relatives on the Supposition of Mendelian Inheritance" href="http://en.wikipedia.org/wiki/The_Correlation_Between_Relatives_on_the_Supposition_of_Mendelian_Inheritance">The correlation between relatives on the supposition of Mendelian inheritance</a>)을 발표하여 생물계측학파가 대상으로 하는 연속적인 형질도 멘델의 법칙이 취급하는 이산적인 형질을 이용하여 설명할 수 있다는 poly gene model을 주장합니다. 즉, 이산적인 형질과 관련 있는 멘델의 법칙에 따르는 다수의 유전자 좌가 하나의 형질에  영향을 미칠 경우 유전자 좌 영향의 합과 환경 영향의 합은 정규분포로 근사시킬 수 있다(중심극한정리)고 주장하는 것이죠. 여기에, 생물계측학파의 연속형질의 이론과 멘델학파의 이산형질의 이론을 융합하였습니다. 또한, 같은 논문에서 Fisher는 분산(variance)이라는 개념을 최초로 도입하여, 분산의 비를 살펴보는 것에 대한 중요성을 주장하였습니다(분산분석). 그러나 앞서 이야기한 바와 같이 생물계측학파의 중심인물인 Pearson은 Fisher의 이론을 마지막까지 받아 들이지않았습니다. Fisher는 또한 변이(mutation)의 개념을 도입하여 진화도 멘델의 법칙에 의해 설명하는 데 성공하게 됩니다.</p>
<p>종 사이의 variation을 설명하는 댜윈의 진화론, 종내의 연속적인 variation을 성명하는 생물계측학, heredity를 설명하는 멘델의 유전계승법칙에 유전학, 돌연변이 등의 개념을 더해 수학적으로 통합한 이론이 근대생물학의 성립을 상징하는 modern synthesis(neo-Darwinism. modern Darwinian synthesis)입니다. 이상과 같이 genetics의 개념 성립에는 생물계측학 뿐만 아니라 Fisher에 의한 heredity와 biometrics의 통합 등 수학의 관여가 매우 크다는 것에 주목할 필요가 있습니다.</p>
<h2>수리통계학과 유전통계학의 관계</h2>
<p>현재 널리 이용되고 있는 수리통계학의 방법은 유전적 데이터에는 단순히 응용할 수없는 것처럼 보이는데요. 현재의 유전통계학과 수리통계학은 서로 다른 사고에 근거를 둔 것처럼 보이는 것이죠. 이는 유전통계학에서는 &#8220;유전계승법칙(laws of inheritance)&#8221;라는 현실세계에서 참이라고 인정되는 법칙을 제1의 판단기준으로 하는 것에 반해, 수리통계학에서는 수학세계에서 참이 되는 모형을 현실세계에 적용하는 방법을 이용하기 때문입니다.</p>
<p>유전계승의 법칙은 구체적인 현실의 대상물(allele, 유전자형, 형질, 표현형 등)에 관한 사상(event; allele의 배우자에 의한 전달, 표현형의 발현 등)에 대해, 참으로 인정되는 확률함수를 정의하는 것에 반해 일반적인 수리통계학에서는 현실의 대상물에 대한 사상에는 참으로 인정되는 확률함수는 정의되지 않는 것이 일반적입니다. 즉, 추상적인 수학적 모형을 현실에 적용해 보는 것이죠(모형 선택). 때로는 현실에 맞지 않는 때도 있지만 현실에 가장 적합한 모형을 적합한 모형으로 생각합니다. 따라서, 유전통계학적 방법은 연혁적인 방법이지만, 수리통계학적 방법은 귀납적인 방법이라 할 수 있습니다. 전자가 현실세계에 참인 확률함수가 이미 존재한다고 하면, 후자는 현실 데이터의 분석으로 부터 참된 확률함수를 발견하려 하기 때문입니다.</p>
<p>현재 이용되고 있는 다수의 유전통계학적 방법은 Fisher에 의해 도입되었습니다. Fisher는 Mendel에 의해 창시되고, Morgan 등에 의해 확장된 유전계승에 관한 법칙을 확률함수의 형태로 표현하고, 유전에 관한 깊은 고찰을 하는데 성공하였습니다. 그러나 Pearson은 이 방법을 맹렬히 반대하고 현실세계에 참된 법칙을 도입해서는 안 된다는 것을 주장하였습니다.</p>
<p style="text-align: center;"><a href="http://wsyang.com/wp-content/uploads/2011/06/round3.resized.png"><img class="aligncenter size-full wp-image-2343" title="round3.resized" src="http://wsyang.com/wp-content/uploads/2011/06/round3.resized.png" alt="" width="446" height="293" /></a></p>
<p>현재의 수리통계학은 Pearson의 뒤를 이은 네이만(Jerzy Neyman)이 Fisher의 우도, 가설검정 등의 이론을 도입하여 수학적으로 제련된 형태로 정리한 것(Neyman-Pearson Lemma)이 기초가 되고 있습니다. Neyman은 전형적인 수학자로서 유전학에는 그다지 관심이 없었던 것 같습니다. 후에 Neyman은 미국으로 이주하여 UC 버클리에서 통계학과를 창설하게 됩니다. 이 때부터 유전학과 통계학은 거리가 멀어진다고 할 수 있습니다.</p>
<p>그러나 유전통계학은 지금도 Fisher의 최초 구상 그대로 남아 있습니다. 즉, 참된 확률함수는 유전계승법칙이며, 참된 모형은 처음부터 결정되어 있다는 것이죠. 따라서, 이에 들어맞지 않는 관측데이터는 잘못된 관측이라 생각하여 버리게 됩니다. 예를 들어, 연쇄분석(linkage analysis)을 하기 위해 연구자가 해야 하는 커다란 작업은 데이터가 유전계승법칙에 따르는가를 확인하고, 만약 따르지 않는다면 데이터를 버리거나 재검사를 하는 작업이 필요합니다. 집단을 이용한 연관분석(association study)을 위해서도 연구자가 해야 하는 작업은 데이터가 하디-바인베르크의 법칙(Hardy-Weinberg&#8217;s law)을 따르는가를 확인하고 따르지 않는 데이터를 버리거나 재검사를 하는 작업을 합니다. 또한, 일반적으로 남녀의 X, Y 염색체상의 유전자 좌에 대해서는 엄밀하게 유전 법칙에 따를 것이 요구되어 따르지 않는 경우는 버리거나 재검사를 하게 됩니다.</p>
<p>즉, 유전통계학적 분석에서는 참된 모형을 이미 알고 있기 때문에 모형에 맞지 않는 데이터는 잘못된 데이터로 간주합니다. 이는 다른 많은 분야에서 관측데이터야말로 중요하고 모형은 단순히 참된값의 추정이라고 생각하는 것과 매우 다릅니다.</p>
<p>유전통계학, 특히 인간의 데이터를 다룰 경우 매우 큰 수의 데이터를 취급하게 됩니다. 예를 들어 \(10^{100}\)를 넘어가는 수의 결과에 관해 정확한 확률을 계산할 필요가 발생하게 되죠. 인간의 유전문제만으로 이렇게 엄청난 수의 결과를 취급할 필요성이 발생하는 이유는 각각의 결과의 차이가 중대하다고 인정되기 때문입니다. 이 차이는 서울에 사는 A씨의 자식의 성별의 차이이기도 하고, 혹은 B씨가 평생 지속되는 병에 걸릴 것인가 아닌가의 차이이기 때문입니다. 경제 문제에서도 결과의 수는 매우 많아서 뉴욕에 있는 A사의 주가폭락이나 B사의 도산문제와 같은 중대한 문제이기도 합니다. 그러나 경제에서는 유전계승법칙과 같은 엄밀하게 성립하는 확률을 가정하는 것은 불가능하죠.</p>
<p>이와 같은 이유로 통상의 통계분석 방법을 유전 데이터 분석에 그대로 이용하기는 어렵습니다. 따라서 정확한 유전 데이터의 분석을 위해서는 분석대상물에 대한 정확한 지식, 정확한 확률함수, 그리고 정교한 통계 분석방법이 필요합니다.</p>
<h2  class="related_post_title">이글과 관련된 글</h2><ul class="related_post"><li>2011/06/01 -- <a href="http://wsyang.com/2011/06/%ec%9c%a0%ec%a0%84%ed%86%b5%ea%b3%84%ed%95%99-%ec%9e%ac%ec%a1%b0%ed%95%a9%eb%b9%84%ec%9c%a8%ea%b3%bc-%ea%b1%b0%eb%a6%ac/" title="[유전통계학] 재조합비율과 거리">[유전통계학] 재조합비율과 거리</a></li><li>2011/05/30 -- <a href="http://wsyang.com/2011/05/%ea%b2%8c%eb%86%88%ec%9d%98-%eb%8b%a4%ec%96%91%ec%84%b1%ea%b3%bc-%ec%9c%a0%ec%a0%84%ec%9e%90-%eb%8b%a4%ed%98%95%ec%84%b1/" title="게놈의 다양성과 유전자 다형성">게놈의 다양성과 유전자 다형성</a></li><li>2011/05/25 -- <a href="http://wsyang.com/2011/05/genetic-linkage-and-recombination-fraction/" title="연쇄(genetic linkage)와 재조합비율(recombination fraction)">연쇄(genetic linkage)와 재조합비율(recombination fraction)</a></li><li>2011/05/03 -- <a href="http://wsyang.com/2011/05/%ed%86%b5%ea%b3%84%eb%a1%9c-%ec%84%a4%eb%aa%85%ed%95%98%eb%8a%94-%eb%a9%98%eb%8d%b8%ec%9d%98-%ec%9c%a0%ec%a0%84-%eb%b2%95%ec%b9%99/" title="[유전통계] 통계로 설명하는 멘델의 유전 법칙">[유전통계] 통계로 설명하는 멘델의 유전 법칙</a></li><li>2011/04/19 -- <a href="http://wsyang.com/2011/04/r%ec%97%90%ec%84%9c-%ea%b0%80%ea%b3%84%eb%8f%84-%ec%9e%91%ec%84%b1%ed%95%98%ea%b8%b0/" title="[R] R에서 가계도 작성하기">[R] R에서 가계도 작성하기</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2011/06/%ec%9c%a0%ec%a0%84%ed%86%b5%ea%b3%84%ed%95%99%ea%b3%bc-%ec%88%98%eb%a6%ac%ed%86%b5%ea%b3%84%ed%95%99%ec%9d%98-%ec%97%ad%ec%82%ac/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>두 이산형 변수의 연관성 척도 Cramér&#8217;s V</title>
		<link>http://wsyang.com/2011/06/%eb%91%90-%ec%9d%b4%ec%82%b0%ed%98%95-%eb%b3%80%ec%88%98%ec%9d%98-%ec%97%b0%ea%b4%80%ec%84%b1-%ec%b2%99%eb%8f%84-cramers-v/</link>
		<comments>http://wsyang.com/2011/06/%eb%91%90-%ec%9d%b4%ec%82%b0%ed%98%95-%eb%b3%80%ec%88%98%ec%9d%98-%ec%97%b0%ea%b4%80%ec%84%b1-%ec%b2%99%eb%8f%84-cramers-v/#comments</comments>
		<pubDate>Tue, 07 Jun 2011 02:21:50 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[R-Tips]]></category>
		<category><![CDATA[통계 이야기]]></category>
		<category><![CDATA[association]]></category>
		<category><![CDATA[Cramer's V]]></category>
		<category><![CDATA[연관성의 척도]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2310</guid>
		<description><![CDATA[두 이산형 변수의 연관성(association)에 대해 알아볼 때 흔히 카이제곱 검정을 이용합니다. 하지만, 엄밀히 말하면 카이제곱 검정은 연관성의 유의한 정도(test for the significance)의 결과일 뿐, 연관성 크기를 나타내는 척도는 아닙니다. 즉, 두 개의 데이터 셋에 대해 각각 연관성 검정을 했을 때 검정결과인 유의확률을 가지고 어느 쪽이 연관성이 크다고는 말할 수 없다는 것이죠. 두 이산형 변수의 연관성의 [...]]]></description>
			<content:encoded><![CDATA[<p>두 이산형 변수의 연관성(association)에 대해 알아볼 때 흔히 카이제곱 검정을 이용합니다. 하지만, 엄밀히 말하면 카이제곱 검정은 연관성의 유의한 정도(test for the significance)의 결과일 뿐, 연관성 크기를 나타내는 척도는 아닙니다. 즉, 두 개의 데이터 셋에 대해 각각 연관성 검정을 했을 때 검정결과인 유의확률을 가지고 어느 쪽이 연관성이 크다고는 말할 수 없다는 것이죠. </p>
<p>두 이산형 변수의 연관성의 크기를 나타내는 척도 중 하나가 Cramér&#8217;s V라는 것이 있습니다. <span id="more-2310"></span><br />
Cramér&#8217;s V의 계산 식은<br />
\[<br />
\phi_c = \sqrt{\frac{\chi^2}{N(k-1)}}<br />
\]<br />
이며, 0에서 1 사이의 값을 가집니다. 단, 위 식에서 \(\chi^2 \)는 카이제곱 검정의 검정 통계량, N은 관측값의 수, k는 두 이산형 변수의 수준(level) 중 작은 값을 의미합니다. </p>
<p>R을 이용해 Cramér&#8217;s V를 구하는 함수를 만들어 보면</p>

<div class="wp_codebox"><table><tr id="p231019"><td class="line_numbers"><pre>1
2
3
4
5
</pre></td><td class="code" id="p2310code19"><pre class="rsplus" style="font-family:monospace;"><span style="color: #080;">&gt;</span> cramer.<span style="">v</span> <span style="color: #080;">&lt;</span> <span style="color: #080;">-</span> <span style="color: #0000FF; font-weight: bold;">function</span><span style="color: #080;">&#40;</span>x,y<span style="color: #080;">&#41;</span> <span style="color: #080;">&#123;</span>
  CV <span style="color: #080;">&lt;-</span> <span style="color: #0000FF; font-weight: bold;">sqrt</span><span style="color: #080;">&#40;</span><span style="color: #0000FF; font-weight: bold;">chisq.<span style="">test</span></span><span style="color: #080;">&#40;</span>x, y, correct<span style="color: #080;">=</span>FALSE<span style="color: #080;">&#41;</span>$statistic <span style="color: #080;">/</span>
    <span style="color: #080;">&#40;</span><span style="color: #0000FF; font-weight: bold;">length</span><span style="color: #080;">&#40;</span>x<span style="color: #080;">&#41;</span> <span style="color: #080;">*</span> <span style="color: #080;">&#40;</span><span style="color: #0000FF; font-weight: bold;">min</span><span style="color: #080;">&#40;</span><span style="color: #0000FF; font-weight: bold;">length</span><span style="color: #080;">&#40;</span><span style="color: #0000FF; font-weight: bold;">unique</span><span style="color: #080;">&#40;</span>x<span style="color: #080;">&#41;</span><span style="color: #080;">&#41;</span>,<span style="color: #0000FF; font-weight: bold;">length</span><span style="color: #080;">&#40;</span><span style="color: #0000FF; font-weight: bold;">unique</span><span style="color: #080;">&#40;</span>y<span style="color: #080;">&#41;</span><span style="color: #080;">&#41;</span><span style="color: #080;">&#41;</span> <span style="color: #080;">-</span> <span style="color: #ff0000;">1</span><span style="color: #080;">&#41;</span><span style="color: #080;">&#41;</span><span style="color: #080;">&#41;</span>
  <span style="color: #0000FF; font-weight: bold;">cat</span><span style="color: #080;">&#40;</span><span style="color: #ff0000;">&quot;Cramér V =&quot;</span> ,CV, <span style="color: #ff0000;">&quot;<span style="color: #000099; font-weight: bold;">\n</span>&quot;</span><span style="color: #080;">&#41;</span>
<span style="color: #080;">&#125;</span></pre></td></tr></table></div>

</pre>

<div class="wp_codebox"><table><tr id="p231020"><td class="line_numbers"><pre>1
2
3
4
5
</pre></td><td class="code" id="p2310code20"><pre class="rsplus" style="font-family:monospace;"><span style="color: #080;">&gt;</span> <span style="color: #0000FF; font-weight: bold;">class</span> <span style="color: #080;">&lt;</span> <span style="color: #080;">-</span> <span style="color: #0000FF; font-weight: bold;">rep</span><span style="color: #080;">&#40;</span><span style="color: #0000FF; font-weight: bold;">c</span><span style="color: #080;">&#40;</span><span style="color: #ff0000;">&quot;case&quot;</span>,<span style="color: #ff0000;">&quot;ctl&quot;</span><span style="color: #080;">&#41;</span>,each<span style="color: #080;">=</span><span style="color: #ff0000;">100</span><span style="color: #080;">&#41;</span>
<span style="color: #080;">&gt;</span> genotype <span style="color: #080;">&lt;</span> <span style="color: #080;">-</span> <span style="color: #0000FF; font-weight: bold;">c</span><span style="color: #080;">&#40;</span><span style="color: #0000FF; font-weight: bold;">rep</span><span style="color: #080;">&#40;</span><span style="color: #0000FF; font-weight: bold;">c</span><span style="color: #080;">&#40;</span><span style="color: #ff0000;">&quot;AA+AT&quot;</span>,<span style="color: #ff0000;">&quot;TT&quot;</span><span style="color: #080;">&#41;</span>,<span style="color: #0000FF; font-weight: bold;">c</span><span style="color: #080;">&#40;</span><span style="color: #ff0000;">70</span>,<span style="color: #ff0000;">30</span><span style="color: #080;">&#41;</span><span style="color: #080;">&#41;</span>,<span style="color: #0000FF; font-weight: bold;">rep</span><span style="color: #080;">&#40;</span><span style="color: #0000FF; font-weight: bold;">c</span><span style="color: #080;">&#40;</span><span style="color: #ff0000;">&quot;AA+AT&quot;</span>,<span style="color: #ff0000;">&quot;TT&quot;</span><span style="color: #080;">&#41;</span>,<span style="color: #0000FF; font-weight: bold;">c</span><span style="color: #080;">&#40;</span><span style="color: #ff0000;">38</span>,<span style="color: #ff0000;">62</span><span style="color: #080;">&#41;</span><span style="color: #080;">&#41;</span><span style="color: #080;">&#41;</span>
<span style="color: #080;">&gt;</span> cramer.<span style="">v</span><span style="color: #080;">&#40;</span><span style="color: #0000FF; font-weight: bold;">class</span>, genotype<span style="color: #080;">&#41;</span>
&nbsp;
Cramér V <span style="color: #080;">=</span> <span style="color: #ff0000;">0.3210289</span></pre></td></tr></table></div>

<h2  class="related_post_title">이글과 관련된 글</h2><ul class="related_post"><li>2011/07/27 -- <a href="http://wsyang.com/2011/07/r%ec%97%90%ec%84%9c-sas%ec%9d%98-%ec%98%81%ea%b5%ac%ed%8c%8c%ec%9d%bc-sas7bdat-%ec%9d%b4%ec%9a%a9%ed%95%98%ea%b8%b0/" title="R에서 SAS의 영구파일 sas7bdat 이용하기">R에서 SAS의 영구파일 sas7bdat 이용하기</a></li><li>2011/06/20 -- <a href="http://wsyang.com/2011/06/r-%ec%95%8c%ec%95%84%eb%91%90%eb%a9%b4-%ed%8e%b8%eb%a6%ac%ed%95%9c-%ed%95%a8%ec%88%98-head%ec%99%80-tail/" title="[R] 알아두면 편리한 함수 head와 tail">[R] 알아두면 편리한 함수 head와 tail</a></li><li>2011/05/09 -- <a href="http://wsyang.com/2011/05/r%ec%97%90%ec%84%9c-%ec%82%ac%ec%9a%a9%ed%95%98%eb%8a%94-%eb%8d%b0%ec%9d%b4%ed%84%b0%ec%85%8b%ec%9d%98-%ed%98%95%ed%83%9c/" title="R에서 사용하는 데이터 셋의 형태">R에서 사용하는 데이터 셋의 형태</a></li><li>2011/04/28 -- <a href="http://wsyang.com/2011/04/r-%eb%88%88%ec%9c%bc%eb%a1%9c-%ed%99%95%ec%9d%b8%ed%95%98%eb%8a%94-%ec%a4%91%ec%8b%ac%ea%b7%b9%ed%95%9c%ec%a0%95%eb%a6%ac/" title="[R] 눈으로 확인하는 중심극한정리">[R] 눈으로 확인하는 중심극한정리</a></li><li>2011/04/25 -- <a href="http://wsyang.com/2011/04/r-boxplot%ec%9d%98-%ec%83%88%eb%a1%9c%ec%9a%b4-%ed%98%95%ed%83%9c-violin-plot/" title="[R] boxplot의 새로운 형태 violin plot">[R] boxplot의 새로운 형태 violin plot</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2011/06/%eb%91%90-%ec%9d%b4%ec%82%b0%ed%98%95-%eb%b3%80%ec%88%98%ec%9d%98-%ec%97%b0%ea%b4%80%ec%84%b1-%ec%b2%99%eb%8f%84-cramers-v/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[유전통계학] 재조합비율과 거리</title>
		<link>http://wsyang.com/2011/06/%ec%9c%a0%ec%a0%84%ed%86%b5%ea%b3%84%ed%95%99-%ec%9e%ac%ec%a1%b0%ed%95%a9%eb%b9%84%ec%9c%a8%ea%b3%bc-%ea%b1%b0%eb%a6%ac/</link>
		<comments>http://wsyang.com/2011/06/%ec%9c%a0%ec%a0%84%ed%86%b5%ea%b3%84%ed%95%99-%ec%9e%ac%ec%a1%b0%ed%95%a9%eb%b9%84%ec%9c%a8%ea%b3%bc-%ea%b1%b0%eb%a6%ac/#comments</comments>
		<pubDate>Wed, 01 Jun 2011 05:44:48 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[유전통계학]]></category>
		<category><![CDATA[통계 이야기]]></category>
		<category><![CDATA[Genetic distance]]></category>
		<category><![CDATA[Holman]]></category>
		<category><![CDATA[map function]]></category>
		<category><![CDATA[physical distance]]></category>
		<category><![CDATA[recombination fraction]]></category>
		<category><![CDATA[물리적 거리]]></category>
		<category><![CDATA[유전적 거리]]></category>
		<category><![CDATA[재조합비율]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2295</guid>
		<description><![CDATA[재조합비율(recombination fraction)은 한 번의 감수분열에서 두 유전자 좌 사이에 재조합이 일어날 확률로 정의됩니다. 확률이므로 0에서 1 사이의 값을 가지는 것이 당연하지만 통상 \(0 \leq \theta \leq 0.5\)의 값을 가집니다. 이는 유전자 좌 사이가 멀리 떨어져 있으면 교차로 인해 재조합이 일어날 확률이 높아지지만 또 한 번 교차가 일어나 재조합이 한 번 더 일어날 확률도 높아지기 때문입니다. [...]]]></description>
			<content:encoded><![CDATA[<p><strong>재조합비율(recombination fraction)</strong>은 한 번의 감수분열에서 두 유전자 좌 사이에 재조합이 일어날 확률로 정의됩니다. 확률이므로 0에서 1 사이의 값을 가지는 것이 당연하지만 통상 \(0 \leq \theta \leq 0.5\)의 값을 가집니다. 이는 유전자 좌 사이가 멀리 떨어져 있으면 교차로 인해 재조합이 일어날 확률이 높아지지만 또 한 번 교차가 일어나 재조합이 한 번 더 일어날 확률도 높아지기 때문입니다.</p>
<p>드물게 \(\theta \gt 0.5 \)일 때가 있는데, 이는 첫 번째 재조합이 일어났을 때, 두 번째 재조합이 억제되는 간섭(interference)이라는 현상 때문입니다.<br />
<span id="more-2295"></span><br />
재조합비율은 염색체위의 두 유전자 좌의 거리가 멀수록 큰 값을 가지기 때문에 거리의 개념과 비슷하지만, 확률이기 때문에 1 이상의 값을 가지지 못하므로 일반적인 거리의 개념과는 차이가 있습니다. 예를 들어, 다음 그림과 같이 L1, L2, L3 3개의 유전자 좌가 같은 염색체 위에 있고 L1, L2 사이의 재조합 비율을 \( \theta_1 \), L2, L3 사이의 재조합비율을 \( \theta_2 \)라 한다면, L1과 L3 사이의 재조합 비율 \(\theta\)은 \( \theta_1 + \theta_2 \)가 되지 않습니다. 즉, 확률이기 때문에 단순 덧셈이 아닌 L1과 L2 혹은 L2와 L3의 어느 한 쪽에서만 재조합이 일어나야만 하므로<br />
\[\theta = \theta_1(1-\theta_2) + \theta_2(1-\theta_1) \]<br />
가 됩니다.<br />
<a href="http://wsyang.com/wp-content/uploads/2011/06/fig1.resized.png"><img class="aligncenter size-full wp-image-2299" title="fig1.resized" src="http://wsyang.com/wp-content/uploads/2011/06/fig1.resized.png" alt="" width="373" height="238" /></a><br />
재조합 비율은 확률이기 때문에 두 유전자 좌 사이의 거리를 나타낼 척도가 필요합니다. 일반적으로 <strong>유전적 거리(genetic map distance)</strong>와 <strong>물리적 거리(physical map distance)</strong>를 많이 사용합니다. 유전적 거리는 두 유전자 좌사이에 일어날 교차의 횟수의 기댓값으로 정의합니다. 단위는 M(morgan)으로 표시합니다. 즉, 1M은 한 번의 감수분열에서 한 번의 교차가 일어날 것으로 기대되는 거리를 말하며 덧셈이 가능합니다. 두 유전자 좌의 거리가 떨어져 있으면 교차의 수도 비례적으로 늘어나므로 이론적으로 유전적 거리는 0에서 무한대의 값을 가집니다.</p>
<p>또한, 두 유전자 좌 사이의 염기 수를 물리적 거리라고 하며 단위는 bp(base pair)입니다. 유전적 거리와 물리적 거리는 그 순서 이외에는 특별한 관련이 없으며, 유전통계학에서는 그다지 중요시하지 않는 척도입니다.</p>
<p>사람의 모든 상동염색체의 유전적 거리는 남성이 약 28M, 여성이 약 43M, 평균 36M으로 알려져 있습니다. 즉, 여성의 감수분열이 남성보다 재조합이 많습니다. 사람의 물리적 거리는 약 30억bp(\( 3 \times 10^9)\)이므로 1M는 약 \( 10^8 \), 1cM(centimorgan)은 \( 10^6 \)이 되어 1Mbp(mega base pair)에 상당하게 됩니다.</p>
<p>두 유전자 좌 사이의 유전적 거리 \( x \)와 재조합비율 \(\theta \)의 관계를 표현한 함수를 지도함수(map function)라 합니다. 유전자 좌 사이에서 일어나는 교차의 수가 포아송 분포를 따른다고 가정하면 <strong>Haldane의 지도함수</strong>는<br />
\[ x = -\frac{1}{2} \log (1-2\theta)\]<br />
가 되고, 그 역은<br />
\[ \theta = -\frac{1}{2}(1-e^{-2x}) \]<br />
가 됩니다. 재조합비율과 유전적 거리의 관계를 Haldane의 지도함수를 이용해 그래프로 나타내면 다음과 같습니다.</p>
<p><a href="http://wsyang.com/wp-content/uploads/2011/06/fig2.resized.png"><img class="aligncenter size-full wp-image-2300" title="fig2.resized" src="http://wsyang.com/wp-content/uploads/2011/06/fig2.resized.png" alt="" width="484" height="484" /></a></p>
<h2  class="related_post_title">이글과 관련된 글</h2><ul class="related_post"><li>2011/05/25 -- <a href="http://wsyang.com/2011/05/genetic-linkage-and-recombination-fraction/" title="연쇄(genetic linkage)와 재조합비율(recombination fraction)">연쇄(genetic linkage)와 재조합비율(recombination fraction)</a></li><li>2011/06/10 -- <a href="http://wsyang.com/2011/06/%ec%9c%a0%ec%a0%84%ed%86%b5%ea%b3%84%ed%95%99%ea%b3%bc-%ec%88%98%eb%a6%ac%ed%86%b5%ea%b3%84%ed%95%99%ec%9d%98-%ec%97%ad%ec%82%ac/" title="유전통계학과 수리통계학의 역사">유전통계학과 수리통계학의 역사</a></li><li>2011/05/30 -- <a href="http://wsyang.com/2011/05/%ea%b2%8c%eb%86%88%ec%9d%98-%eb%8b%a4%ec%96%91%ec%84%b1%ea%b3%bc-%ec%9c%a0%ec%a0%84%ec%9e%90-%eb%8b%a4%ed%98%95%ec%84%b1/" title="게놈의 다양성과 유전자 다형성">게놈의 다양성과 유전자 다형성</a></li><li>2011/05/03 -- <a href="http://wsyang.com/2011/05/%ed%86%b5%ea%b3%84%eb%a1%9c-%ec%84%a4%eb%aa%85%ed%95%98%eb%8a%94-%eb%a9%98%eb%8d%b8%ec%9d%98-%ec%9c%a0%ec%a0%84-%eb%b2%95%ec%b9%99/" title="[유전통계] 통계로 설명하는 멘델의 유전 법칙">[유전통계] 통계로 설명하는 멘델의 유전 법칙</a></li><li>2011/04/19 -- <a href="http://wsyang.com/2011/04/r%ec%97%90%ec%84%9c-%ea%b0%80%ea%b3%84%eb%8f%84-%ec%9e%91%ec%84%b1%ed%95%98%ea%b8%b0/" title="[R] R에서 가계도 작성하기">[R] R에서 가계도 작성하기</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2011/06/%ec%9c%a0%ec%a0%84%ed%86%b5%ea%b3%84%ed%95%99-%ec%9e%ac%ec%a1%b0%ed%95%a9%eb%b9%84%ec%9c%a8%ea%b3%bc-%ea%b1%b0%eb%a6%ac/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>게놈의 다양성과 유전자 다형성</title>
		<link>http://wsyang.com/2011/05/%ea%b2%8c%eb%86%88%ec%9d%98-%eb%8b%a4%ec%96%91%ec%84%b1%ea%b3%bc-%ec%9c%a0%ec%a0%84%ec%9e%90-%eb%8b%a4%ed%98%95%ec%84%b1/</link>
		<comments>http://wsyang.com/2011/05/%ea%b2%8c%eb%86%88%ec%9d%98-%eb%8b%a4%ec%96%91%ec%84%b1%ea%b3%bc-%ec%9c%a0%ec%a0%84%ec%9e%90-%eb%8b%a4%ed%98%95%ec%84%b1/#comments</comments>
		<pubDate>Mon, 30 May 2011 13:08:46 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[유전통계학]]></category>
		<category><![CDATA[polymorphism]]></category>
		<category><![CDATA[SNP]]></category>
		<category><![CDATA[STRP]]></category>
		<category><![CDATA[variation]]></category>
		<category><![CDATA[VNTR]]></category>
		<category><![CDATA[게놈의 다양성]]></category>
		<category><![CDATA[유전자 다형성]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2276</guid>
		<description><![CDATA[정자, 난자와 같이 부모로부터 자식에게 유전정보를 전달하는 매체를 배우자(gamate)라 합니다. 배우자의 염기서열은 곧 게놈의 서열이 되며 배우자에 따라 서로 다른 부분이 존재합니다. 각 개체는 아버지 유래와 어머니 유래 2종류의 서열이 존재하고 이 서열 사이에도 차이가 존재합니다. 집단 내 게놈 서열의 차이를 게놈의 다양성(genomic variation)이라 합니다.  게놈의 다양성에도 여러 종류가 있습니다. 게놈의 다양성에 의해 상동염색체 위의 [...]]]></description>
			<content:encoded><![CDATA[<p>정자, 난자와 같이 부모로부터 자식에게 유전정보를 전달하는 매체를 배우자(gamate)라 합니다. 배우자의 염기서열은 곧 게놈의 서열이 되며 배우자에 따라 서로 다른 부분이 존재합니다. 각 개체는 아버지 유래와 어머니 유래 2종류의 서열이 존재하고 이 서열 사이에도 차이가 존재합니다. 집단 내 게놈 서열의 차이를 <strong>게놈의 다양성(genomic variation)</strong>이라 합니다. <span id="more-2276"></span></p>
<p><a href="http://wsyang.com/wp-content/uploads/2011/05/variation.jpg"><img class="aligncenter size-full wp-image-2277" title="variation" src="http://wsyang.com/wp-content/uploads/2011/05/variation.jpg" alt="" width="545" height="228" /></a></p>
<p>게놈의 다양성에도 여러 종류가 있습니다. 게놈의 다양성에 의해 상동염색체 위의 같은 유전자 좌가 개인 사이 혹은 배우자 사이에 차이가 있을 때 이를<strong> 유전자 다형성(genetic polymorphism)</strong>이라 합니다. 단, 다형성은 게놈 레벨의 차이뿐만 아니라 게놈의 차이에 따른 단백질의 차이 등에도 적용되는 용어입니다.</p>
<p>유전자 다형성에서 그 수가 가장 많은 것은 <strong>SNP(single-nucleotide polymorphism)</strong>입니다. SNP는 A, T, C, G로 이루어진 염기서열 중 하나의 염기에 개인차이가 있는 것을 말하며, 현재까지 약 천만 이상의 SNP가 발견되었습니다.</p>
<p style="text-align: center;"><a href="http://wsyang.com/wp-content/uploads/2011/05/SNP.jpg"><img class="aligncenter size-medium wp-image-2280" title="SNP" src="http://wsyang.com/wp-content/uploads/2011/05/SNP-500x223.jpg" alt="" width="405" height="181" /></a><a href="http://wsyang.com/wp-content/uploads/2011/05/STRP.resized.jpg"></a></p>
<p>SNP 다음으로 많은 다형성이 <strong>STRP(short tandem repeat polymorphism)</strong>이며, 2~5 정도의 염기서열 반복 수의 차이에 따른 다형성입니다. 아래 그림과 같이 위쪽 서열은 4번, 아래쪽은 7번의 AT 반복에 의한 다형성입니다. STRP가 있으면 서열의 길이는 달라집니다.</p>
<p style="text-align: center;"><a href="http://wsyang.com/wp-content/uploads/2011/05/STRP.resized.jpg"><img class="aligncenter size-medium wp-image-2281" title="STRP and VNTR" src="http://wsyang.com/wp-content/uploads/2011/05/STRP.resized-500x249.jpg" alt="" width="400" height="199" /></a></p>
<p><strong>VNTR(variable number of tandem repeat)</strong>는 STRP보다 긴 염기서열 반복 수의 차이에 따른 다형성이며, 이 밖에도 비교적 짧은 염기서열의 <strong>주입/손실(insertion/deletion)</strong>에 의한 다형성도 있습니다.</p>
<p style="text-align: center;"><a href="http://wsyang.com/wp-content/uploads/2011/05/deletion.resized.jpg"><img class="aligncenter size-medium wp-image-2279" title="deletion.resized" src="http://wsyang.com/wp-content/uploads/2011/05/deletion.resized-500x198.jpg" alt="" width="400" height="158" /></a></p>
<p>최근 <strong>CNV(copy number variation)</strong>이라는 다형성이 주목을 받고 있는데요. CNV는 VNTR보다도 긴 단편의 반복으로 일반적으로 유전자 단위의 반복을 말하는 경우가 많습니다.</p>
<p>&nbsp;</p>
<h2  class="related_post_title">이글과 관련된 글</h2><ul class="related_post"><li>2011/06/10 -- <a href="http://wsyang.com/2011/06/%ec%9c%a0%ec%a0%84%ed%86%b5%ea%b3%84%ed%95%99%ea%b3%bc-%ec%88%98%eb%a6%ac%ed%86%b5%ea%b3%84%ed%95%99%ec%9d%98-%ec%97%ad%ec%82%ac/" title="유전통계학과 수리통계학의 역사">유전통계학과 수리통계학의 역사</a></li><li>2011/06/01 -- <a href="http://wsyang.com/2011/06/%ec%9c%a0%ec%a0%84%ed%86%b5%ea%b3%84%ed%95%99-%ec%9e%ac%ec%a1%b0%ed%95%a9%eb%b9%84%ec%9c%a8%ea%b3%bc-%ea%b1%b0%eb%a6%ac/" title="[유전통계학] 재조합비율과 거리">[유전통계학] 재조합비율과 거리</a></li><li>2011/05/25 -- <a href="http://wsyang.com/2011/05/genetic-linkage-and-recombination-fraction/" title="연쇄(genetic linkage)와 재조합비율(recombination fraction)">연쇄(genetic linkage)와 재조합비율(recombination fraction)</a></li><li>2011/05/03 -- <a href="http://wsyang.com/2011/05/%ed%86%b5%ea%b3%84%eb%a1%9c-%ec%84%a4%eb%aa%85%ed%95%98%eb%8a%94-%eb%a9%98%eb%8d%b8%ec%9d%98-%ec%9c%a0%ec%a0%84-%eb%b2%95%ec%b9%99/" title="[유전통계] 통계로 설명하는 멘델의 유전 법칙">[유전통계] 통계로 설명하는 멘델의 유전 법칙</a></li><li>2011/04/19 -- <a href="http://wsyang.com/2011/04/r%ec%97%90%ec%84%9c-%ea%b0%80%ea%b3%84%eb%8f%84-%ec%9e%91%ec%84%b1%ed%95%98%ea%b8%b0/" title="[R] R에서 가계도 작성하기">[R] R에서 가계도 작성하기</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2011/05/%ea%b2%8c%eb%86%88%ec%9d%98-%eb%8b%a4%ec%96%91%ec%84%b1%ea%b3%bc-%ec%9c%a0%ec%a0%84%ec%9e%90-%eb%8b%a4%ed%98%95%ec%84%b1/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>OECD에서 평가한 우리나라의 웰빙지수는?</title>
		<link>http://wsyang.com/2011/05/oecd%ec%97%90%ec%84%9c-%ed%8f%89%ea%b0%80%ed%95%9c-%ec%9a%b0%eb%a6%ac%eb%82%98%eb%9d%bc%ec%9d%98-%ec%9b%b0%eb%b9%99%ec%a7%80%ec%88%98%eb%8a%94/</link>
		<comments>http://wsyang.com/2011/05/oecd%ec%97%90%ec%84%9c-%ed%8f%89%ea%b0%80%ed%95%9c-%ec%9a%b0%eb%a6%ac%eb%82%98%eb%9d%bc%ec%9d%98-%ec%9b%b0%eb%b9%99%ec%a7%80%ec%88%98%eb%8a%94/#comments</comments>
		<pubDate>Sun, 29 May 2011 14:52:15 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[생활속의 통계]]></category>
		<category><![CDATA[통계 이야기]]></category>
		<category><![CDATA[data visualization]]></category>
		<category><![CDATA[OECD]]></category>
		<category><![CDATA[Your Better Life Index]]></category>
		<category><![CDATA[데이터 시각화]]></category>
		<category><![CDATA[웰빙]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2243</guid>
		<description><![CDATA[5월 26일 자 동아일보에 한국인 36%만 삶에 만족한다는 기사가 실렸습니다. 경제협력개발기구(OECD)가 발표한 &#8216;Your Better Life Index&#8216;를 인용한 기사인데요. 복지(welfare) 보다는 웰빙(well-being)의 정도를 측정한 보고서가 아닐까 싶습니다. 안 그래도 이 사이트는 평점 결과를 멋지게 시각화해 놓아서 관심 있게 보았던 차에 기사가 났네요. 개인적으로 등수놀이는 관심이 없으니 이번 포스팅에서는 OECD의 우리나라에 대한 평가를 중심으로 적어 보도록 하겠습니다. [...]]]></description>
			<content:encoded><![CDATA[<p>5월 26일 자 동아일보에 <a href="http://media.daum.net/society/view.html?cateid=1067&amp;newsid=20110526033119400&amp;p=donga">한국인 36%만 삶에 만족</a>한다는 기사가 실렸습니다. 경제협력개발기구(OECD)가 발표한 &#8216;<a href="http://www.oecdbetterlifeindex.org/">Your Better Life Index</a>&#8216;를 인용한 기사인데요. 복지(welfare) 보다는 웰빙(well-being)의 정도를 측정한 보고서가 아닐까 싶습니다. 안 그래도 이 사이트는 평점 결과를 멋지게 시각화해 놓아서 관심 있게 보았던 차에 기사가 났네요.<br />
<span id="more-2243"></span></p>
<p><iframe width="560" height="349" src="http://www.youtube.com/embed/OOIK9YxQ2sY" frameborder="0" allowfullscreen></iframe></p>
<p>개인적으로 등수놀이는 관심이 없으니 이번 포스팅에서는 OECD의 우리나라에 대한 평가를 중심으로 적어 보도록 하겠습니다.</p>
<p>이 보고서는 2008년부터 34개 회원국의 각종 통계 자료들을 모아 나라별 웰빙지수를 주거, 소득, 일자리, 공동체, 교육, 환경, 국정관리, 건강, 삶의 만족도, 안전성, 일과 삶의 균형의 총 11개 분야로 측정하고 있습니다. 각 분야에는 세부 측정항목이 있으며 이를 종합한 것이 Better Life Index입니다. 보고서에서는 각 항목에 대해 0~10점의 점수를 부여하여 평가하고 있습니다. 예를 들어 주거에 대한 평가가 완벽하다면 10점, 형편없다면 0점 이런 식이죠. 따라서 각 항목의 기대평균은 5점이라 할 수 있습니다.</p>
<p>OECD에서 평가한 각 분야에 대한 우리나라 점수를 보면</p>
<p><img style="display: block; margin-left: auto; margin-right: auto; border: 0px initial initial;" title="wellbeing.png" src="http://wsyang.com/wp-content/uploads/2011/05/wellbeing.png" border="0" alt="Wellbeing" width="480" height="326" /></p>
<p>위 그래프에서 볼 수 있듯이 주거, 소득, 건강, 삶의 만족, 공동체 분야는 OECD가 상정한 평균을 넘지 못하고 있습니다. 나머지 분야는 평균이상의 점수를 받았고 특히, 교육과 안전 분야에서는 고득점을 받았습니다.</p>
<p>그러면, 각 분야의 몇몇 세부 측정항목에 대한 우리나라의 현황을 보도록 하죠.</p>
<h2>주거(Housing)</h2>
<p><a href="http://wsyang.com/wp-content/uploads/2011/05/housing.png"><img class="aligncenter size-full wp-image-2255" title="housing" src="http://wsyang.com/wp-content/uploads/2011/05/housing.png" alt="" width="512" height="60" /></a></p>
<h2>소득(Income)</h2>
<p><a href="http://wsyang.com/wp-content/uploads/2011/05/Income.png"><img class="aligncenter size-full wp-image-2256" title="Income" src="http://wsyang.com/wp-content/uploads/2011/05/Income.png" alt="" width="512" height="60" /></a></p>
<h2>일자리(Job)</h2>
<p><a href="http://wsyang.com/wp-content/uploads/2011/05/Jobs.png"><img class="aligncenter size-full wp-image-2257" title="Jobs" src="http://wsyang.com/wp-content/uploads/2011/05/Jobs.png" alt="" width="512" height="60" /></a></p>
<h2>공동체(Community)</h2>
<h2><a href="http://wsyang.com/wp-content/uploads/2011/05/Community.png"><img class="aligncenter size-full wp-image-2261" title="Community" src="http://wsyang.com/wp-content/uploads/2011/05/Community.png" alt="" width="512" height="60" /></a></h2>
<h2>교육(Education)</h2>
<h2><a href="http://wsyang.com/wp-content/uploads/2011/05/Education.png"><img class="aligncenter size-full wp-image-2262" title="Education" src="http://wsyang.com/wp-content/uploads/2011/05/Education.png" alt="" width="512" height="60" /></a></h2>
<h2>환경(Environment)</h2>
<h2><a href="http://wsyang.com/wp-content/uploads/2011/05/Environment.png"><img class="aligncenter size-full wp-image-2263" title="Environment" src="http://wsyang.com/wp-content/uploads/2011/05/Environment.png" alt="" width="512" height="43" /></a></h2>
<h2>국정관리(Governance)</h2>
<h2><a href="http://wsyang.com/wp-content/uploads/2011/05/Governer.png"><img class="aligncenter size-full wp-image-2264" title="Governer" src="http://wsyang.com/wp-content/uploads/2011/05/Governer.png" alt="" width="512" height="60" /></a></h2>
<h2>건강(Health)</h2>
<h2><a href="http://wsyang.com/wp-content/uploads/2011/05/Health.png"><img class="aligncenter size-full wp-image-2265" title="Health" src="http://wsyang.com/wp-content/uploads/2011/05/Health.png" alt="" width="512" height="60" /></a></h2>
<h2>삶의 만족도(Life Satisfaction)</h2>
<h2><a href="http://wsyang.com/wp-content/uploads/2011/05/Life.png"><img class="aligncenter size-full wp-image-2266" title="Life" src="http://wsyang.com/wp-content/uploads/2011/05/Life.png" alt="" width="512" height="76" /></a></h2>
<h2>안전성(Safety)</h2>
<h2><a href="http://wsyang.com/wp-content/uploads/2011/05/safe.png"><img class="aligncenter size-full wp-image-2267" title="safe" src="http://wsyang.com/wp-content/uploads/2011/05/safe.png" alt="" width="512" height="62" /></a></h2>
<h2>일과 삶의 균형(Work-Life Balance)</h2>
<p><a href="http://wsyang.com/wp-content/uploads/2011/05/balance.png"><img class="aligncenter size-full wp-image-2260" title="balance" src="http://wsyang.com/wp-content/uploads/2011/05/balance.png" alt="" width="512" height="78" /></a></p>
<p>많은 항목에서 아직 우리나라는 OECD의 평균에 못 미치는 것을 알 수 있습니다. 특히나 연간 근무시간은 OECD 전체 회원국 중에서도 가장 길다는 것은 여러분도 잘 아시리라 생각합니다. 그런데 여가 시간이 평균보다 길다는 것이 참 아이러니하네요.</p>
<p>동아일보에 실린 기사에서 아쉬운 점은 인용된 삶의 만족도는 전체 11개 분야 중 하나입니다. 저만 그런지 몰라도 종합 점수가 전체 24위를 했다는 기사인 듯한 느낌이 드네요. 종합점수는 그보다 아래인 34개 회원국 중 26위입니다만&#8230; 그리고 삶의 만족도에서 스웨덴이 제외되었다고 기사에는 나와 있는데, 현재는 34개국에 대한 모든 정보가 공개되어 있습니다. 지면에 실린 기사는 수정하기 어렵더라도 온라인 기사의 수정은 어렵지 않게 할 수 있을 거라 생각합니다. 사실을 전하는 것이 신문 기사이니만큼 오류가 있으면 나중에라도 수정하는 것이 언론의 올바른 자세가 아닐까 싶습니다.</p>
<h2  class="related_post_title">이글과 관련된 글</h2><ul class="related_post"><li>2011/08/29 -- <a href="http://wsyang.com/2011/08/visualize-this/" title="Visualize This">Visualize This</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2011/05/oecd%ec%97%90%ec%84%9c-%ed%8f%89%ea%b0%80%ed%95%9c-%ec%9a%b0%eb%a6%ac%eb%82%98%eb%9d%bc%ec%9d%98-%ec%9b%b0%eb%b9%99%ec%a7%80%ec%88%98%eb%8a%94/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>연쇄(genetic linkage)와 재조합비율(recombination fraction)</title>
		<link>http://wsyang.com/2011/05/genetic-linkage-and-recombination-fraction/</link>
		<comments>http://wsyang.com/2011/05/genetic-linkage-and-recombination-fraction/#comments</comments>
		<pubDate>Tue, 24 May 2011 15:23:21 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[유전통계학]]></category>
		<category><![CDATA[통계 이야기]]></category>
		<category><![CDATA[genetic linkage]]></category>
		<category><![CDATA[recombination fraction]]></category>
		<category><![CDATA[교차]]></category>
		<category><![CDATA[멘델의 유전법칙]]></category>
		<category><![CDATA[연쇄 법칙]]></category>
		<category><![CDATA[재조합]]></category>
		<category><![CDATA[재조합비율]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2184</guid>
		<description><![CDATA[멘델의 독립법칙은 두 유전자 좌(genetic locus)의 allele 전달에 관한 법칙입니다만, 독립의 법칙은 두 유전자 좌가 서로 다른 염색체 위에 있을 때만 성립합니다. 두 유전자 좌가 같은 염색체 위에 존재할 때에는 독립의 법칙이 성립하지 않을 때도 있습니다. 두 유전자 좌 간에 독립 법칙이 성립하지 않을 때 두 유전자 좌는 연쇄상태(genetic linkage)에 있다고 합니다. 다시 말하면, 연쇄(genetic [...]]]></description>
			<content:encoded><![CDATA[<p>멘델의 독립법칙은 두 유전자 좌(genetic locus)의 allele 전달에 관한 법칙입니다만, 독립의 법칙은 두 유전자 좌가 서로 다른 염색체 위에 있을 때만 성립합니다. 두 유전자 좌가 같은 염색체 위에 존재할 때에는 독립의 법칙이 성립하지 않을 때도 있습니다. 두 유전자 좌 간에 독립 법칙이 성립하지 않을 때 두 유전자 좌는 연쇄상태(genetic linkage)에 있다고 합니다. 다시 말하면, 연쇄(genetic linkage) 법칙은 멘델의 유전 법칙 중 독립 법칙의 예외에 해당합니다.</p>
<p>&nbsp;</p>
<p>통계학과 유전학의 용어를 이용하여 연쇄의 법칙을 풀어쓰면,</p>
<blockquote><p>두 유전자 좌가 같은 염색체 위의 근방에 위치하는 경우 한쪽 유전자 좌의 allele이 다음 세대에 전달될 때 또 다른 유전자 좌의 allele은 확률 1/2이 아닌, 두 유전자 좌 사이의 재조합비율(recombination fraction)에 의해 결정되는 확률로 다음 세대에 전달된다.</p></blockquote>
<p>여기서 잠깐 교차(crossing over)와 재조합(genetic recombination)에 대해서 알아보도록 하겠습니다. 교차란 생식세포의 감수분열 과정에서 일어나는 염색체의 접합에 의해 일어나는 현상으로 접합한 염색체 일부가 서로 뒤바뀌는 것을 말하고, 재조합은 세포분열이 끝난 후의 두 유전자 좌를 측정했을 때의 상태에 대한 개념입니다.<br />
<span id="more-2184"></span><br />
<div id="attachment_2195" class="wp-caption aligncenter" style="width: 410px"><a href="http://wsyang.com/wp-content/uploads/2011/05/Morgan_crossover_2.jpg"><img class="size-medium wp-image-2195 " title="Morgan_crossover_2" src="http://wsyang.com/wp-content/uploads/2011/05/Morgan_crossover_2-500x382.jpg" alt="" width="400" height="306" /></a><p class="wp-caption-text">Thomas Hunt Morgan&#39;s &#39;&#39;A Critique of the Theory of Evolution&#39;&#39; (1916)</p></div></p>
<p>염색체 연쇄의 연구에 커다란 공헌을 한  Thomas Hunt Morgan의 논문에 실린 그림을 예로 설명해 보죠. 세포의 감수분열 전의 염색체 상태는 가장 위의 그림이 되고, 감수분열 과정에서 두 번의 교차가 일어났다고 했을 때 염색체의 상태는 가장 아래쪽의 그림이 됩니다. 만약 감수분열 후 유전자 좌 W와 유전자 좌 M을 측정했다고 하면 두 유전자 좌 사이에는 재조합이 있다고 말합니다. 이에 반해 유전자 좌 W와 유전자 좌 Br을 측정했을 때는 재조합이 없다고 말합니다. 즉, 두 유전자 좌 사이에 교차가 홀수 회 일어나면 재조합이 있다고 이야기하고, 교차가 짝수 회 일어났을 때는 재조합이 없다고 이야기합니다. 일반적으로 유전통계학에서 분석의 대상이 되는 것은 교차가 아닌 재조합입니다.</p>
<p>재조합비율은 1회의 감수분열에서 두 유전자 좌 사이에 재조합이 일어날 확률 혹은 다수의 감수분열에서 두 유전자 좌 사이에 재조합이 일어난 감수분열의 비율로 정의됩니다. 통상 재조합비율은 \( \theta \)로 표기하며, \( 0 \leq \theta \leq 0.5 \)의 값을 가집니다. 또한, \( \theta = 0.5\)일 때 독립의 법칙이 성립합니다.</p>
<p><a href="http://wsyang.com/wp-content/uploads/2011/05/recombination_fraction.resized.png"><img class="aligncenter size-medium wp-image-2204" title="recombination_fraction.resized" src="http://wsyang.com/wp-content/uploads/2011/05/recombination_fraction.resized-500x310.png" alt="" width="500" height="310" /></a></p>
<p>다시 연사의 법칙으로 돌아가서, 한 개체의 제1 유전자 좌의 유전자형을 Aa, 제2 유전자 좌의 유전자형을 Bb라 할 때, 두 유전자 좌 사이가 연쇄상태에 있다면, allele A와 allele B가 각각 다음 세대에 전달될 확률은<br />
\begin{aligned}<br />
P(AB) &amp;\neq P(A)P(B)=\frac{1}{4} \\<br />
P(A|B) &amp; \neq P(A)<br />
\end{aligned}<br />
가 됩니다. 물론 연쇄상태에 있지 않다면 위 식은 독립의 법칙 때의 식과 같게 되어<br />
\begin{aligned}<br />
P(AB) &amp;=  P(A)P(B)=\frac{1}{4} \\<br />
P(A|B) &amp;= P(A)<br />
\end{aligned}<br />
가 성립하게 됩니다.</p>
<p><a href="http://wsyang.com/wp-content/uploads/2011/05/linkage.png"><img class="aligncenter size-medium wp-image-2191" title="linkage" src="http://wsyang.com/wp-content/uploads/2011/05/linkage-500x262.png" alt="" width="500" height="262" /></a></p>
<p>만약 위 식에서 \( P(AB) &lt; 1/4 \)라 하고 A-B를 아버지로부터 a-b를 어머니로부터 물려받은 allele라 한다면, 같은 염색체 위에 있는 allele은 A-B 혹은 a-b의 조합(haplotype)이 다음 세대에 전달될 것입니다. 그러나 A-b, a-B라는 allele 조합이 생식체에서 발견된다면 이는 감수분열 시 재조합이 일어났다는 것을 의미합니다. 따라서 연쇄의 법칙은 부모로부터 자식으로 전달되는 allele에 대해,<br />
\begin{aligned}<br />
P(a|B)=P(A|b)=\theta<br />
\end{aligned}<br />
가 성립하는 것을 의미합니다. 또한,<br />
\begin{aligned}<br />
P(A|B) &amp; = 1-P(a|B) \\<br />
P(a|b) &amp; = 1-P(A|b)<br />
\end{aligned}<br />
이므로, \( P(A|B) = P(a|b) = 1-\theta \)가 됩니다.</p>
<p>앞서 설명한 멘델의 유전법칙과 함께 연쇄의 법칙은 유전통계학을 공부할 때 가장 기본이 되고 중요한 법칙들입니다. 이 법칙들을 이용하여 질환의 원인이 되는 유전자를 찾아 내는 방법 중의 하나가 바로 연쇄분석(linkage analysis)입니다. </p>
<h2  class="related_post_title">이글과 관련된 글</h2><ul class="related_post"><li>2011/06/01 -- <a href="http://wsyang.com/2011/06/%ec%9c%a0%ec%a0%84%ed%86%b5%ea%b3%84%ed%95%99-%ec%9e%ac%ec%a1%b0%ed%95%a9%eb%b9%84%ec%9c%a8%ea%b3%bc-%ea%b1%b0%eb%a6%ac/" title="[유전통계학] 재조합비율과 거리">[유전통계학] 재조합비율과 거리</a></li><li>2011/06/10 -- <a href="http://wsyang.com/2011/06/%ec%9c%a0%ec%a0%84%ed%86%b5%ea%b3%84%ed%95%99%ea%b3%bc-%ec%88%98%eb%a6%ac%ed%86%b5%ea%b3%84%ed%95%99%ec%9d%98-%ec%97%ad%ec%82%ac/" title="유전통계학과 수리통계학의 역사">유전통계학과 수리통계학의 역사</a></li><li>2011/05/30 -- <a href="http://wsyang.com/2011/05/%ea%b2%8c%eb%86%88%ec%9d%98-%eb%8b%a4%ec%96%91%ec%84%b1%ea%b3%bc-%ec%9c%a0%ec%a0%84%ec%9e%90-%eb%8b%a4%ed%98%95%ec%84%b1/" title="게놈의 다양성과 유전자 다형성">게놈의 다양성과 유전자 다형성</a></li><li>2011/05/03 -- <a href="http://wsyang.com/2011/05/%ed%86%b5%ea%b3%84%eb%a1%9c-%ec%84%a4%eb%aa%85%ed%95%98%eb%8a%94-%eb%a9%98%eb%8d%b8%ec%9d%98-%ec%9c%a0%ec%a0%84-%eb%b2%95%ec%b9%99/" title="[유전통계] 통계로 설명하는 멘델의 유전 법칙">[유전통계] 통계로 설명하는 멘델의 유전 법칙</a></li><li>2011/04/19 -- <a href="http://wsyang.com/2011/04/r%ec%97%90%ec%84%9c-%ea%b0%80%ea%b3%84%eb%8f%84-%ec%9e%91%ec%84%b1%ed%95%98%ea%b8%b0/" title="[R] R에서 가계도 작성하기">[R] R에서 가계도 작성하기</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2011/05/genetic-linkage-and-recombination-fraction/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>1980년대와 2000년대 프로야구 투수들의 방어율 어느 쪽이 낮을까?</title>
		<link>http://wsyang.com/2011/05/1980%eb%85%84%eb%8c%80%ec%99%80-2000%eb%85%84%eb%8c%80-%ed%94%84%eb%a1%9c%ec%95%bc%ea%b5%ac-%ed%88%ac%ec%88%98%eb%93%a4%ec%9d%98-%eb%b0%a9%ec%96%b4%ec%9c%a8-%ec%96%b4%eb%8a%90%ec%aa%bd%ec%9d%b4/</link>
		<comments>http://wsyang.com/2011/05/1980%eb%85%84%eb%8c%80%ec%99%80-2000%eb%85%84%eb%8c%80-%ed%94%84%eb%a1%9c%ec%95%bc%ea%b5%ac-%ed%88%ac%ec%88%98%eb%93%a4%ec%9d%98-%eb%b0%a9%ec%96%b4%ec%9c%a8-%ec%96%b4%eb%8a%90%ec%aa%bd%ec%9d%b4/#comments</comments>
		<pubDate>Sun, 22 May 2011 15:23:51 +0000</pubDate>
		<dc:creator>양 우성</dc:creator>
				<category><![CDATA[R-Tips]]></category>
		<category><![CDATA[생활속의 통계]]></category>
		<category><![CDATA[통계 이야기]]></category>
		<category><![CDATA[t-test]]></category>
		<category><![CDATA[Wilcoxon 순위합 검정]]></category>
		<category><![CDATA[두 집단의 평균차 검정]]></category>
		<category><![CDATA[방어율]]></category>
		<category><![CDATA[프로야구]]></category>

		<guid isPermaLink="false">http://wsyang.com/?p=2173</guid>
		<description><![CDATA[프로야구 좋아하세요? 저도 즐겨 보는 편입니다. 일본에 와서는 아무래도 우리나라 선수들이 활약하는 팀의 경기를 관심 있게 보곤 합니다. 이승엽 선수가 요미우리 자이언츠에 소속되어 있을 때, 직장 동료들과 도쿄 돔에 갔었는데 마침 이승엽 선수가 2루타로 타점을 올리고 팀이 승리해서 으쓱했던 기억도 나네요. 우리나라의 프로야구는 아시다시피 1981년 처음 시작되었습니다. 그땐 저도 꼬맹이 초등학생이었는데 벌써 30년이 지났네요. 당시의 [...]]]></description>
			<content:encoded><![CDATA[<p>프로야구 좋아하세요? 저도 즐겨 보는 편입니다.<br />
일본에 와서는 아무래도 우리나라 선수들이 활약하는 팀의 경기를 관심 있게 보곤 합니다. 이승엽 선수가 요미우리 자이언츠에 소속되어 있을 때, 직장 동료들과 도쿄 돔에 갔었는데 마침 이승엽 선수가 2루타로 타점을 올리고 팀이 승리해서 으쓱했던 기억도 나네요.</p>
<p>우리나라의 프로야구는 아시다시피 1981년 처음 시작되었습니다. 그땐 저도 꼬맹이 초등학생이었는데 벌써 30년이 지났네요. 당시의 쟁쟁했던 선수들이 이제는 감독이 되어 팀을 지도하는 모습을 보니 감회가 새롭습니다. 그때나 지금이나 저는 두산 팬입니다. 박철순 선수의 활약이 아직도 기억에 많이 남네요.<br />
<span id="more-2173"></span><br />
요즘 프로야구 투수를 보면 그 역할이 세분되어서 선발, 중간계투, 마무리의 구분이 뚜렷합니다. 80년대의 투수들은 한 번 경기에 나오면 꽤 오래 던졌던 것 같았는데 말이죠. 그래서 재미삼아 1980년대 투수들과 2000년대 투수들의 방어율을 통계분석 패키지인 R을 이용해 비교해보았습니다. 이번 비교에 이용한 자료는 한국 프로야구의 통계와 역사를 제공하는 <a href="http://www.statiz.co.kr/index.php?mid=stat_at&#038;re=1&#038;ys=1982&#038;ye=1989&#038;se=0&#038;te=&#038;tm=&#038;ty=0&#038;qu=auto&#038;po=0&#038;as=&#038;ae=&#038;hi=&#038;un=&#038;pl=&#038;da=1&#038;o1=ERAP&#038;o2=OutCount&#038;de=0&#038;lr=0&#038;tr=&#038;cv=&#038;ml=1&#038;sn=30&#038;pa=60&#038;si=&#038;cn=">스탯티즈</a>에서 제공하는 투수기록 중 통산 방어율 데이터를 이용하였습니다. </p>
<p>1980년대에 활약했던 투수는 71명이 2000년대에는 109명의 기록이 등록되어 있습니다.<br />
먼저 양 시대의 방어율 분포를 Boxplot을 통해 살펴보면</p>

<div class="wp_codebox"><table><tr id="p217326"><td class="line_numbers"><pre>1
2
3
</pre></td><td class="code" id="p2173code26"><pre class="rsplus" style="font-family:monospace;"><span style="color: #080;">&gt;</span> pitcher <span style="color: #080;">&lt;</span> <span style="color: #080;">-</span> <span style="color: #0000FF; font-weight: bold;">read.<span style="">csv</span></span><span style="color: #080;">&#40;</span><span style="color: #ff0000;">&quot;pitcher.csv&quot;</span><span style="color: #080;">&#41;</span>
<span style="color: #080;">&gt;</span> <span style="color: #0000FF; font-weight: bold;">boxplot</span><span style="color: #080;">&#40;</span>ERA ~ Decade, <span style="color: #0000FF; font-weight: bold;">data</span><span style="color: #080;">=</span>pitcher, <span style="color: #0000FF; font-weight: bold;">col</span><span style="color: #080;">=</span><span style="color: #0000FF; font-weight: bold;">c</span><span style="color: #080;">&#40;</span><span style="color: #ff0000;">&quot;darkred&quot;</span>,<span style="color: #ff0000;">&quot;darkblue&quot;</span><span style="color: #080;">&#41;</span>, 
        main <span style="color: #080;">=</span> <span style="color: #ff0000;">&quot;ERA Distribution&quot;</span><span style="color: #080;">&#41;</span></pre></td></tr></table></div>

<p><a href="http://wsyang.com/wp-content/uploads/2011/05/fig1_boxplot.png"><img src="http://wsyang.com/wp-content/uploads/2011/05/fig1_boxplot.png" alt="" title="fig1_boxplot" width="500" height="550" class="aligncenter size-full wp-image-2175" /></a></p>
<p>2000년대 타자들의 기술과 수준이 높아진 이유일까요? 아니면 1980년대 투수들의 능력이 우수했던 걸까요? 위 그림을 보면 1980년대 투수들의 방어율이 2000년대 투수들보다 비교적 낮음을 알 수 있습니다. 그렇다면 통계적으로 양 시대 투수들의 평균방어율은 차이가 있다고 할 수 있을까요? 두 표본집단의 평균비교를 위한 t-검정을 통해 통계적 유의성을 알아보도록 하겠습니다. 두 표본집단의 분산이 같을 때와 서로 다를 때 t-검정의 방법은 약간 달라지는데요. 분산이 같은지 알아보는 방법이 F-분포를 이용한 검정입니다.</p>

<div class="wp_codebox"><table><tr id="p217327"><td class="line_numbers"><pre>1
2
3
4
5
6
7
8
9
10
11
12
</pre></td><td class="code" id="p2173code27"><pre class="rsplus" style="font-family:monospace;"><span style="color: #080;">&gt;</span> <span style="color: #0000FF; font-weight: bold;">var.<span style="">test</span></span><span style="color: #080;">&#40;</span>ERA ~ Decade, <span style="color: #0000FF; font-weight: bold;">data</span><span style="color: #080;">=</span>pitcher<span style="color: #080;">&#41;</span>
&nbsp;
	<span style="color: #0000FF; font-weight: bold;">F</span> test to compare two variances
&nbsp;
<span style="color: #0000FF; font-weight: bold;">data</span><span style="color: #080;">:</span>  ERA <span style="color: #0000FF; font-weight: bold;">by</span> Decade 
<span style="color: #0000FF; font-weight: bold;">F</span> <span style="color: #080;">=</span> <span style="color: #ff0000;">0.9988</span>, num <span style="color: #0000FF; font-weight: bold;">df</span> <span style="color: #080;">=</span> <span style="color: #ff0000;">70</span>, denom <span style="color: #0000FF; font-weight: bold;">df</span> <span style="color: #080;">=</span> <span style="color: #ff0000;">119</span>, p<span style="color: #080;">-</span>value <span style="color: #080;">=</span> <span style="color: #ff0000;">0.9898</span>
alternative hypothesis<span style="color: #080;">:</span> true ratio of variances <span style="color: #0000FF; font-weight: bold;">is</span> not equal to <span style="color: #ff0000;">1</span> 
<span style="color: #ff0000;">95</span> percent confidence interval<span style="color: #080;">:</span>
 <span style="color: #ff0000;">0.6636604</span> <span style="color: #ff0000;">1.5383875</span> 
<span style="color: #0000FF; font-weight: bold;">sample</span> estimates<span style="color: #080;">:</span>
ratio of variances 
         <span style="color: #ff0000;">0.9987946</span></pre></td></tr></table></div>

<p>검정 결과 유의확률(p-value)이 0.9898이므로 유의수준 5%에서 두 집단의 분산이 서로 같다는 가설(귀무가설)을 기각하지 못하게 됩니다. 즉, 두 집단의 분산은 같다고 할 수 있습니다. 다음으로, 두 집단의 분산이 같다는 가정하에서 t-검정은</p>

<div class="wp_codebox"><table><tr id="p217328"><td class="line_numbers"><pre>1
2
3
4
5
6
7
8
9
10
11
12
</pre></td><td class="code" id="p2173code28"><pre class="rsplus" style="font-family:monospace;"><span style="color: #080;">&gt;</span> <span style="color: #0000FF; font-weight: bold;">t.<span style="">test</span></span><span style="color: #080;">&#40;</span>ERA ~ Decade, <span style="color: #0000FF; font-weight: bold;">data</span><span style="color: #080;">=</span>pitcher, var.<span style="">equal</span><span style="color: #080;">=</span><span style="color: #0000FF; font-weight: bold;">T</span><span style="color: #080;">&#41;</span>
&nbsp;
	Two Sample t<span style="color: #080;">-</span>test
&nbsp;
<span style="color: #0000FF; font-weight: bold;">data</span><span style="color: #080;">:</span>  ERA <span style="color: #0000FF; font-weight: bold;">by</span> Decade 
<span style="color: #0000FF; font-weight: bold;">t</span> <span style="color: #080;">=</span> <span style="color: #080;">-</span><span style="color: #ff0000;">6.4413</span>, <span style="color: #0000FF; font-weight: bold;">df</span> <span style="color: #080;">=</span> <span style="color: #ff0000;">189</span>, p<span style="color: #080;">-</span>value <span style="color: #080;">=</span> 9.564e<span style="color: #080;">-</span>10
alternative hypothesis<span style="color: #080;">:</span> true difference <span style="color: #0000FF; font-weight: bold;">in</span> means <span style="color: #0000FF; font-weight: bold;">is</span> not equal to <span style="color: #ff0000;">0</span> 
<span style="color: #ff0000;">95</span> percent confidence interval<span style="color: #080;">:</span>
 <span style="color: #080;">-</span><span style="color: #ff0000;">0.8614158</span> <span style="color: #080;">-</span><span style="color: #ff0000;">0.4575067</span> 
<span style="color: #0000FF; font-weight: bold;">sample</span> estimates<span style="color: #080;">:</span>
<span style="color: #0000FF; font-weight: bold;">mean</span> <span style="color: #0000FF; font-weight: bold;">in</span> group 1980s <span style="color: #0000FF; font-weight: bold;">mean</span> <span style="color: #0000FF; font-weight: bold;">in</span> group 2000s 
           <span style="color: #ff0000;">3.424789</span>            <span style="color: #ff0000;">4.084250</span></pre></td></tr></table></div>

<p>결과를 보면 1980년대 투수들의 평균 방어율은 3.425, 2000년대 투수들의 평균 방어율은 4.084이고, 검정 결과 유의확률이 매우 낮으므로 통계적으로 1980년대 투수와 2000년대 투수의 평균 방어율은 차이가 있다고 할 수 있습니다.</p>
<p>그런데 <a href="http://wsyang.com/2011/05/%EB%91%90-%ED%91%9C%EB%B3%B8%EC%A7%91%EB%8B%A8%EC%9D%98-%ED%8F%89%EA%B7%A0-%EC%B0%A8%EC%9D%B4%EC%97%90-%EB%8C%80%ED%95%9C-%EA%B2%80%EC%A0%95-%EB%B0%A9%EB%B2%95%EB%93%A4/">앞선 포스팅</a>에서 t-검정은 표본집단에 대해 정규분포의 가정이 성립할 때에만 사용할 수 있다고 했습니다. 과연 양 시대 투수들의 방어율은 정규분포를 따르고 있을까요? 그 분포를 좀 더 자세히 보기 위해 밀도함수를 그려보면 다음과 같습니다.</p>

<div class="wp_codebox"><table><tr id="p217329"><td class="line_numbers"><pre>1
2
3
4
5
6
7
8
</pre></td><td class="code" id="p2173code29"><pre class="rsplus" style="font-family:monospace;"><span style="color: #080;">&gt;</span> <span style="color: #0000FF; font-weight: bold;">par</span><span style="color: #080;">&#40;</span>mfrow<span style="color: #080;">=</span><span style="color: #0000FF; font-weight: bold;">c</span><span style="color: #080;">&#40;</span><span style="color: #ff0000;">2</span>,<span style="color: #ff0000;">1</span><span style="color: #080;">&#41;</span><span style="color: #080;">&#41;</span>
<span style="color: #080;">&gt;</span> <span style="color: #0000FF; font-weight: bold;">plot</span><span style="color: #080;">&#40;</span><span style="color: #0000FF; font-weight: bold;">density</span><span style="color: #080;">&#40;</span>pitcher<span style="color: #080;">&#91;</span><span style="color: #0000FF; font-weight: bold;">which</span><span style="color: #080;">&#40;</span>pitcher$Decade<span style="color: #080;">==</span><span style="color: #ff0000;">&quot;1980s&quot;</span><span style="color: #080;">&#41;</span>,<span style="color: #ff0000;">&quot;ERA&quot;</span><span style="color: #080;">&#93;</span><span style="color: #080;">&#41;</span>,<span style="color: #0000FF; font-weight: bold;">col</span><span style="color: #080;">=</span><span style="color: #ff0000;">&quot;darkred&quot;</span>,
    main<span style="color: #080;">=</span><span style="color: #ff0000;">&quot;1980s ERA Density&quot;</span>, xlim<span style="color: #080;">=</span><span style="color: #0000FF; font-weight: bold;">c</span><span style="color: #080;">&#40;</span><span style="color: #ff0000;">0.5</span>,<span style="color: #ff0000;">6.5</span><span style="color: #080;">&#41;</span><span style="color: #080;">&#41;</span>
<span style="color: #080;">&gt;</span> <span style="color: #0000FF; font-weight: bold;">rug</span><span style="color: #080;">&#40;</span>pitcher<span style="color: #080;">&#91;</span><span style="color: #0000FF; font-weight: bold;">which</span><span style="color: #080;">&#40;</span>pitcher$Decade<span style="color: #080;">==</span><span style="color: #ff0000;">&quot;1980s&quot;</span><span style="color: #080;">&#41;</span>,<span style="color: #ff0000;">&quot;ERA&quot;</span><span style="color: #080;">&#93;</span>,<span style="color: #0000FF; font-weight: bold;">col</span><span style="color: #080;">=</span><span style="color: #ff0000;">&quot;green&quot;</span><span style="color: #080;">&#41;</span>
<span style="color: #080;">&gt;</span> <span style="color: #0000FF; font-weight: bold;">plot</span><span style="color: #080;">&#40;</span><span style="color: #0000FF; font-weight: bold;">density</span><span style="color: #080;">&#40;</span>pitcher<span style="color: #080;">&#91;</span><span style="color: #0000FF; font-weight: bold;">which</span><span style="color: #080;">&#40;</span>pitcher$Decade<span style="color: #080;">==</span><span style="color: #ff0000;">&quot;2000s&quot;</span><span style="color: #080;">&#41;</span>,<span style="color: #ff0000;">&quot;ERA&quot;</span><span style="color: #080;">&#93;</span><span style="color: #080;">&#41;</span>,<span style="color: #0000FF; font-weight: bold;">col</span><span style="color: #080;">=</span><span style="color: #ff0000;">&quot;darkblue&quot;</span>,
    main<span style="color: #080;">=</span><span style="color: #ff0000;">&quot;2000s ERA Density&quot;</span>, xlim<span style="color: #080;">=</span><span style="color: #0000FF; font-weight: bold;">c</span><span style="color: #080;">&#40;</span><span style="color: #ff0000;">0.5</span>,<span style="color: #ff0000;">6.5</span><span style="color: #080;">&#41;</span><span style="color: #080;">&#41;</span>
<span style="color: #080;">&gt;</span> <span style="color: #0000FF; font-weight: bold;">rug</span><span style="color: #080;">&#40;</span>pitcher<span style="color: #080;">&#91;</span><span style="color: #0000FF; font-weight: bold;">which</span><span style="color: #080;">&#40;</span>pitcher$Decade<span style="color: #080;">==</span><span style="color: #ff0000;">&quot;2000s&quot;</span><span style="color: #080;">&#41;</span>,<span style="color: #ff0000;">&quot;ERA&quot;</span><span style="color: #080;">&#93;</span>,<span style="color: #0000FF; font-weight: bold;">col</span><span style="color: #080;">=</span><span style="color: #ff0000;">&quot;green&quot;</span><span style="color: #080;">&#41;</span>
<span style="color: #080;">&gt;</span> <span style="color: #0000FF; font-weight: bold;">par</span><span style="color: #080;">&#40;</span>mfrow<span style="color: #080;">=</span><span style="color: #0000FF; font-weight: bold;">c</span><span style="color: #080;">&#40;</span><span style="color: #ff0000;">1</span>,<span style="color: #ff0000;">1</span><span style="color: #080;">&#41;</span><span style="color: #080;">&#41;</span></pre></td></tr></table></div>

<p><img style="display:block; margin-left:auto; margin-right:auto;" src="http://wsyang.com/wp-content/uploads/2011/05/fig2_density.png" alt="Fig2 density" title="fig2_density.png" border="0" width="600" height="600" />   </p>
<p>두 집단 모두 분포의 중심이 한쪽으로 치우쳐 있어서 정규분포를 따른다고 하기에는 약간 모호하기도 하네요. 이럴 때는 비모수 검정방법인 Wilcoxon 순위합 검정을 이용하면 되겠죠.</p>

<div class="wp_codebox"><table><tr id="p217330"><td class="line_numbers"><pre>1
2
3
4
5
6
7
8
9
10
11
12
</pre></td><td class="code" id="p2173code30"><pre class="rsplus" style="font-family:monospace;"> <span style="color: #080;">&gt;</span> <span style="color: #0000FF; font-weight: bold;">wilcox.<span style="">test</span></span><span style="color: #080;">&#40;</span>ERA ~ Decade, <span style="color: #0000FF; font-weight: bold;">data</span><span style="color: #080;">=</span>pitcher, conf.<span style="">int</span><span style="color: #080;">=</span><span style="color: #0000FF; font-weight: bold;">T</span><span style="color: #080;">&#41;</span>
&nbsp;
	Wilcoxon <span style="color: #0000FF; font-weight: bold;">rank</span> <span style="color: #0000FF; font-weight: bold;">sum</span> test <span style="color: #0000FF; font-weight: bold;">with</span> continuity correction
&nbsp;
<span style="color: #0000FF; font-weight: bold;">data</span><span style="color: #080;">:</span>  ERA <span style="color: #0000FF; font-weight: bold;">by</span> Decade 
W <span style="color: #080;">=</span> <span style="color: #ff0000;">1990.5</span>, p<span style="color: #080;">-</span>value <span style="color: #080;">=</span> 7.959e<span style="color: #080;">-</span>10
alternative hypothesis<span style="color: #080;">:</span> true location shift <span style="color: #0000FF; font-weight: bold;">is</span> not equal to <span style="color: #ff0000;">0</span> 
<span style="color: #ff0000;">95</span> percent confidence interval<span style="color: #080;">:</span>
 <span style="color: #080;">-</span><span style="color: #ff0000;">0.8999907</span> <span style="color: #080;">-</span><span style="color: #ff0000;">0.5100395</span> 
<span style="color: #0000FF; font-weight: bold;">sample</span> estimates<span style="color: #080;">:</span>
difference <span style="color: #0000FF; font-weight: bold;">in</span> location 
            <span style="color: #080;">-</span><span style="color: #ff0000;">0.7100174</span></pre></td></tr></table></div>

<p>Wilcoxon 순위합 검정도 t-검정의 결과와 마찬가지로 양 시대 투수들의 방어율은 차이가 있다고 할 수 있습니다. </p>
<p>결론을 말하자면 수치상 1980년대 투수들의 평균 방어율이 2000년대 투수들의 평균 방어율보다 낮음을 알 수 있었습니다. </p>
<p>프로야구 이야기인 줄 알고 글을 읽으신 분들께는 죄송합니다. 통계 이야기가 주가 되어 버렸네요.<br />
그냥 중간은 건너뛰시고 결과가 그렇구나~~라고 이해해 주시길&#8230;  :)</p>
<h2  class="related_post_title">이글과 관련된 글</h2><ul class="related_post"><li>2011/05/11 -- <a href="http://wsyang.com/2011/05/%eb%91%90-%ed%91%9c%eb%b3%b8%ec%a7%91%eb%8b%a8%ec%9d%98-%ed%8f%89%ea%b7%a0-%ec%b0%a8%ec%9d%b4%ec%97%90-%eb%8c%80%ed%95%9c-%ea%b2%80%ec%a0%95-%eb%b0%a9%eb%b2%95%eb%93%a4/" title="두 표본집단의 평균차이에 대한 검정방법들">두 표본집단의 평균차이에 대한 검정방법들</a></li></ul>]]></content:encoded>
			<wfw:commentRss>http://wsyang.com/2011/05/1980%eb%85%84%eb%8c%80%ec%99%80-2000%eb%85%84%eb%8c%80-%ed%94%84%eb%a1%9c%ec%95%bc%ea%b5%ac-%ed%88%ac%ec%88%98%eb%93%a4%ec%9d%98-%eb%b0%a9%ec%96%b4%ec%9c%a8-%ec%96%b4%eb%8a%90%ec%aa%bd%ec%9d%b4/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

