지난 한 달 동안은 데카르트부터 GIS까지 총 4편에 걸쳐서 좌표계 이야기를 했어요. 이번 주부터는 통계 이야기를 해보려고 해요. 아 참! 혹시나 이전 글을 놓쳐서 아쉬웠던 분들은 상단의 꼭꼬의 매드매스를 클릭하시면 예전 매드매스 글을 볼 수 있답니다 :) 오늘 이야기할 녀석은 모수입니다. 탐정사무소에서 일을 하다 보면 가끔 잘못된 용어를 사용하는 경우가 있어요. 그 대표적인 게 바로 모수죠.

낭중지추라는 말의 시초인 모수, 오늘 다룰 모수는 아니다

낭중지추라는 말의 시초인 모수, 오늘 다룰 모수는 아니다

가령 이런 경우가 있어요. 서울시에 있는 가로수🌲색을 분석해본다고 합시다. 그리고 우리 탐정사무소가 수집한 데이터의 양이 365개라고 하죠.

탐정 A "서울시 자료를 보니 서울시에 있는 가로수는 모두 30만 7,351그루라고 합니다."

탐정 B "저희가 지금 색깔을 수집한 가로수는 구별로 종합해보면 총 365그루네요."

탐정 C "음... 모수가 작아서 조금 더 수집을 해야 하겠는걸?"

한 나무에도 나뭇잎 색깔이 이렇게 다양한데 탐정B는 어떻게 가로수의 색깔을 수집했을까?

한 나무에도 나뭇잎 색깔이 이렇게 다양한데 탐정B는 어떻게 가로수의 색깔을 수집했을까?

아마도 탐정 C는 전체 서울시의 가로수 수량보다 우리가 분석할 데이터가 적다는 의미겠지만 이 문장을 올바르지 않아요. 모수라는 단어를 우리가 수집한, 분석할 데이터로 사용했어요. 모수는 그런 의미를 담고 있지 않거든요. 모수라는 녀석을 알기 위해선 모집단과 표본집단을 알아야 합니다. 모집단(Population)은 관측대상이 되는 전체 집단을 뜻해요. 서울시 가로수의 색을 분석한다면 모집단은 서울시의 전체 가로수가 되겠죠. 표본집단(Sample)은 전체 집단 즉 모집단을 다 보기가 어려우니 그 중일부만 뽑아서 조사한 집단을 뜻해요. 탐정 B가 이야기한 구별로 종합한 365그루가 일종의 표본집단이 되겠죠.

모수(Parameter)는 모집단의 특성을 나타내는 녀석입니다. 이를테면 모집단의 평균, 개수, 분산 등등... 모집단의 특성을 알고 싶다면 모집단을 전수조사하면 될 겁니다. 하지만 그게 쉽지 않으니 표본의 특성을 바탕으로 모수를 알아내는 과정을 거치죠. 표본평균으로 모평균을, 표본분산을 통해 모분산을 알아내는 방식으로 말이죠. 표본집단의 것으로 모집단의 특성을 알아내기 위한 과정이 어찌 보면 통계의 역사라고도 할 수 있어요.

모수는 당연하게도 불변 값일 겁니다. 어떤 고정된 집단의 특성을 나타내는 값이니까요. 그런데 이 모수를 상수가 아닌 변수로 보는 사람들이 등장합니다. 바로 베이즈 통계학파를 일컫는 베이지안(Bayesian)입니다. 기존 주류 통계학파의 프리퀀티스트(Frequentist)들은 베이지안들을 무시하고 베이즈 통계를 학문으로도 취급하지 않았다고 하지만 요즘은 달라졌어요. 베이지안 통계기법, 베이지안 추론 등... 딥러닝에서는 이 베이지안 통계가 다시금 떠오르고 있으니까요. 다음 주에는 이 두 학파의 이야기를 해보려고해요. 그럼 다음 주까지 안녕~!