기본 용어들

 

모집단 : 잘 정의된 연구목적과 이와 연계된 명확한 연구대상 (데이터 전체 집합)

모수 : 모집단의 특성을 나타내는 수치들 ex) 모집단의 평균(μ), 표준편차(σ)과 같은 수치

 

표본 : 모집단이 너무 많아 모집단에서 추출한 집합

통계량 : 표본의 특성을 나타내는 수치들 ex) 모집단의 평균(x바), 표준편차(s)과 같은 수치

 

 

 

표본 추출 방법

단순 무작위 추출(Simple random sampling) : 동일한 확률로 추출

계통 추출(Systematic sampling) : 모집단 개체에 1, 2, . . . , N 이렇게 일련번호를 부여하고 일정한 간격으로 추출

층화 추출(Stratified sampling) : 모집단을 서로 겹치지 않게 몇 개의 집단 또는 층으로 나누고 각 집단 내에서

                              원하는 크기의 표본을 단순 무작위 추출 (예를 들자면, 성별이나 나이대, 지역등으로 나눔)

군집 추출(Cluster sampling) : 모집단을 차이가 없는 여러개의 집단으로 나눔

 

 

 

자료의 측정 방법

범주형자료 명목척도(nominal scale) 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적
숫자로 바꾸어도 그 값이 크고 작음을 나타내지 않고 범주를 표시 
ex) 성별, 혈액형, 출생지 등
서열척도(Ordinal scale) 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없음
항목들 간에 서열이나 순위가 존재
ex) 금은동, 선호도, 만족도
연속형자료 등간척도(Interval scale) 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능하다
절때 영점이 존재하지 않음(절대 영점이란 없음을 의미)
ex) 물가지수, 온도계 수치
비율척도(Ratio scale) 절대 영점이 존재하여 측정값 사이의 비율 계산이 가능한 척도
ex) 몸무게, 나이, 형제의 수, 직장까지의 거리?

 

 

 


집중화 경향에 사용되는 값

Mean(평균), Median(중앙값), Mode(최빈값)

 

 

 

데이터의 퍼짐 정도를 측정

산포도(dispersion) - 산포도가 크면 변량들이 평균으로 부터 멀리 흩어져 있고 변동성이 커짐

                           산포도가 작으면 변량들이 평균 주위에 밀집해있고 변동성이 작아짐

편차 - 편차의 총합은 항상 0 이다, 어떤 자료의 변량에서 평균을 뺀값

분산(s제곱) - 데이터가 얼마나 퍼져있는지 알아 볼 수 있는 수치

표준편차(s) - 평균으로부터 각 데이터의 관찰 값까지의 평균거리

 

 

변동계수(CV, coefficient of variation)

단위가 다른 두 그룹 또는 단위는 같지만 평균차이가 클 때의 산포 비교에 사용한다.

관측되는 자료가 모두 양수 일때만 사용한다.

구하는방법 : cv = s/x

 

ex) A학생이 평균 3시간 공부하고 표준편차는 0.4이고 B학생은 평균 6시간 공부하고 표준편차가 0.9이다

그럼 A의 cv는 0.4/3=0.133, B의 cv는 0.9/6=0.15이므로 변동계수가 작은 A가 더 꾸준히 공부했다볼 수 있다.

 

 

 

 

 


확률분포

확률분포? 어떤 확률 변수가 취할 수 있는 모든 값들과 그 값을 취할 확률의 대응관계로 표시하는것

ex) 동전을 2번 던질 때 앞면이 나온 횟수

앞면 0 1 2
확률 1/4 1/2 1/4 1

 

 

이산형 확률분포

확률변수가 몇개의 한정된 값을 가지는 분포이며 각 사건은 서로 독립

베르누이분포 ex) 동전을 던졌을 때 앞면이 나올 확률, 주사위를 던져서 4의 눈이 나올 확률
경우의 수가 2개다, 일어날 확률, 안일어날 확률
이항분포 ex) 동전을 50번 던졌을 때, 앞면이 나올 확률
서로 독립된 베르누이 시행을 n회 반복할 때, 성공한 x의 확률분포
E(x) = np , V(x) = np(1-p)
기하분포 ex) 야구선수가 홈런 칠 확률이 5%라고 할 때, x 번째 타석에서 홈런을 칠 확률분포
베르누이 시행에서 처음 성공까지 시도한 횟수, 지지집합(x) = {1,2,3 . . .} #0이없다!
베르누이 시행에서 처음 성공까지 실패한 횟수, 지지집합(x) = {0,1,2 . . .} 
포아송분포 ex) 어느 AS센터에 1시간당 평균 120건의 전화가 올 때, 1분동안 걸려오는 전화가 4건 이하일 확률
단위 시간이나 단위 공간
에서 어떤 사건이 몇번 발생할 것인가에 대해 표현하는 분포
확률은 x = λ에서 최대이며, x가 커질수록 0에 가까워진다.

 

 

기댓값

확률변수 X의 가능한 모든 값들의 가중 평균

이산적 확률변수 기댓값
연속적 확률변수 기댓값

 

 

 


연속형 확률분포

확률변수의 가능한 값이 무한 개이며 사실상 셀 수 없을때

ex) 정규분포, 균등분포, 지수분포, t분포, x2분포, f분포

 

 

 

 

 

 

 

정규분포

N(μ,σ2)으로 표기 (+) N(0,1)를 표준 정규분포, z분포라고 한다.

ex) 키나 몸무게, 시험 점수의 측정값

 

확률 밀도 함수 : 특정 구간에 속할 확률을 계산하기 위한 함수

 

3 시그마 규칙 (68-95-99.7 rule)

약 68%의 값들이 평균에서 양쪽으로 1 표준편차 범위(μ±σ)에 존재

약 95%의 값들이 평균에서 양쪽으로 2 표준편차 범위(μ±2σ)에 존재

약 99.7%의 값들이 평균에서 양쪽으로 3 표준편차 범위(μ±3σ)에 존재 -> 이 이상의 값들을 이상치라 생각하기도함

 

 

 

 

대부분의 측정값은 정규분포?

정규분포의 당위성에 대한 이유

1) 이항분포의 근사

시행횟수 N이 커질 때, 이항분포 B(N,p)는 평균 Np, 분산 Npq인 정규분포와 N(Np, Npq)와 거의 같아진다.

 

2) 중심 극한 정리

표본의 크기가 N인 확률표본의 표본 평균은 N이 충분히 크면 근사적으로 정규분포를 따르게 된다!

모집단의 분포와 상관없이 표본의 크기가 30 이상이 되면 n이 커짐에 따라 표본 평균의 분포가 정규 분포에 근사해짐

 

3) 오차의 법칙

오차(e) = x - μ

MLE(Maximum Likelihood Estimator) : 실제값일 가능성이 가장 높은 값

실제 값의 MLE가 측정값의 평균이라면, 오차는 정규분포를 따른다.

 

 

 

 

 

 

 

균등분포

이산균등분포 - 확률분포함수가 정의된 모든 값에서 일정한 분포를 가진다 ex)주사위던지기

연속균등분포 - 특정한 범위에서 균등한 확률을 가짐

 

지수분포

사건이 서로 독립적일때 다음 사건이 일어날 때까지 대기시간은 지수분포를 따름

일정 시간동안 발생하는 사건의 횟수는 포아송 분포를 따름

ex) 전자제품의 5년간 고장횟수가 평균 1회일때, 1년안에 고장날 확률

사용법 : pexp(q=1, rate=0.2, lower.tail=TRUE)

 

t-분포

표본을 많이 뽑지 못하는 경우에 대한 대응책으로 예측 범위가 넓은 분포를 사용하는 분포

표본의 수가 30미만일때 사용하며, 신뢰구간과 가설검정에서 사용한다.

그래프의 x축 좌표를 t값이라 부르며 t분포표를 사용해 검정에 사용한다.

 

카이제곱 분포

분산의 특징을 확률분포로 만든것, 표준 정규분포를 제곱한다는 뜻임

신뢰구간과 가설검정에서 사용하고 그래프의 x축 좌표를 카이제곱값이라 부름

 

f-분포

카이제곱분포는 한 집단의 분산, f분포는 두집단의 분산을 다룸

두 집단의 분산이 크기가 서로 비교하는데 사용

 

 

 

 

 


통계적 추론의 분류, 오차

통계량을 사용해서 모수를 알아내기! 그리고 그때 발생하는 오차에 대하여

 

 

 

모집단에 대한 가정 여부에 따른 통계적 추론의 분류

모수적 추론 모집단에 특정 분포를 가정하고 모수에 대해 추론
비모수적 추론 모집단에 대해 특정 분포 가정을 하지 않음

 

 

추정과 가설검정

추정 점추정 하나의 값으로 모수의 값이 얼마인지 추측
구간추정 모수를 포함할 것으로 기대되는 구간을 예측
가설 검정 모수에 대한 가설을 세우고 그 가설이 옳고 그름을 확률적으로 판정하는 방법론

 

 

표준오차(SE) : 표본 집단의 평균값이 실제 모집단의 평균값과 얼마나 차이가 있는지 나타낸다.

                   모집단에서 샘플을 무한번 뽑아서 각 샘플마다 평균을 구했을 때, 그 평균들의 표준편차임 

표본오차 : 표본을 샘플링 할 때, 모집단을 대표할 수 있는 전형적인 구성 요소를 선택하지 못함으로써 발생하는 오차

              표본의 크기를 증가시키고, 표본 선택 방법을 엄격히 하여 줄일 수 있음

 

 

오차한계 : 추정을 할 때, 모평균 추정구간 중심으로부터 최대한 허용할 최대허용오차

              추정 문제에서 표본오차란 오차한계와 같다.

              오차한계는 임계값(critical value)와 표준오차(SE)를 곱한 값

              임계값 : 표준정규분포에선 z값, t분포에서는 t값, 카이제곱분포에서는 카이제곱값

 

 

 

 


추정량, 점추정, 구간추정

추정 : 표본의 통계량을 가지고 모집단의 모수를 추측하여 결정하는 것

추정량 : 모수를 추정하기 위한 관찰 가능한 표본의 식 또는 표본의 함수

추정값 : 표본의 식 또는 함수에 관찰치를 대입해서 계산한 값

 

 

좋은 추정량 판단 기준

일치성(consistency) 표본의 크기가 커짐에 따라 표본 오차가 작아져야 한다
비편향성, 불편성(unbiasedness) 편향(bias) = 추정량의 기댓값 - 실제값
추정량의 기댓값이 모수의 값과 같아야 한다(편향==0)
효율성(efficiency) 추정량의 분산이 될 수 있는대로 작아야한다

 

 

점추정

통계량을 하나 구해서 그걸로 모수를 구하는 방법

ex) A과목 수강생중 50명을 뽑아 조사한 결과 기말 점수가 80점 이었다면, 나머지 학생들도 80점 정도로 추정하는것

 

구하는법

적률법 표본의 기댓값을 통해 모수를 추정하는 방법
최대가능도추정법(최대우도법) 함수를 미분해서 기울기가 0인 위치에 존재하는
MLE(Maximum likelihood extimator)를 찾는 방법
최소제곱법 함수값과 측정값의 차이인 오차를 제곱한 합이 최소가 되는 함수를 구하는 방법

 

 

 

구간추정

신뢰구간? 모수가 포함되리라고 기대되는 범위

신뢰수준? 모수값이 정해져 있을때 다수 신뢰구간중 모수값을 포함하는 신뢰구간이 존재할 확률

ex) 신뢰수준 95%에서 투표자의 35%~45%가 A후보를 지지하고 있다

 

(+) 95% -> 2.5%~97.5%

     98% -> 1% ~ 99%

     99% -> 0.5% ~ 99.5%

 

 

 

 

 


가설검정

귀무가설(H0) : 연구자가 부정하고자 하는가설

대립가설(H1) : 연구자가 연구를 통해 입증 또는 증명되기를 기대하는 예상이나 주장

기각역 : 검정통계량(t-value)의 분포에서 유의수준의 크기에 해당하는 영역

           계산한 검정통계량의 유의성을 판정하는 기준

제 1종 오류 : 귀무가설이 참인데 기각하는 오류

제 2종 오류 : 귀무가설이 거짓인데 채택하는 오류

   * 두가지 오류가 작을 수록 바람직 하나, 불가능 하기 때문에 1종 오류를 범할 최대 허용치를 미리 정해줌

유의수준 : 제 1종 오류의 최대 허용 한계

유의확률 : 제 1종 오류를 범할 확률, 귀무가설을 지지하는 정도

              p-value(유의확률) < α 일때, 귀무가설을 기각하고, 대립가설을 채택

  H_0 사실이라고 판정 H_0 사실이 아니라고 판정
H_0 사실임 옳은 결정 1종 오류(α)
H_0 사실이 아님 2종 오류(β) 옳은 결정

 

 

 

 


모수적 추론, 비모수적 추론

모수적 추론 : 모집단에 특정 분포를 가정하고하고 분포의 특성을 결정하는 모수에 대해 추론하는 방법

                  모수로는 평균, 분산 등을 사용. 자료가 정규분포, 등간척도, 비율척도인 경우

비모수적 추론 : 모집단에 대해 특정 분포를 가정하지 않음

                  모수자체보다 분포 형태에 관한 검정. 표본수가 적고, 명목척도, 서열척도인 경우

 

 

 

모수적 추론 종류

T test

평균값이 올바른지, 두 집단의 평균 차이가 있는지 검증
one Sample t-test 단일 표본의 평균 검정을 위한 방법
ex) S사 USB의 평균 수명은 20000시간이다
Paired t-test
대응표본 t검정
동일 개체에 어떤 처리를 하기 전/후의 자료를 얻을 때 평균 검정을 위한 방법
ex) 매일 1시간씩 한달 걸으면 2kg이 빠진다(전/후

가능한 동일한 특성을 갖는 두 개체에 서로 다른 처리를 해서 효과를 비교
ex)X질병 환자를 두집단으로 나누어 A,B약을 투여해 효과 비교
Two sample t-test
독립표본 t검정
서로 다른 두 그룹의 평균을 비교
귀무가설 - 두집단의 평균 차이값이 0이다

 

 

자유도(Degree of freedom)

통계적 추적에서 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수

관측값이 n개면 자유도는 n-1

 

표본 평균의 자유도 : n

표본 분산의 자유도 : n-1

 

 

one sample t-test

알 수 있는점

데이터 수는 = 2999+1 = 3000개

유의 수준 5%에서 평균 wage=100이라는 귀무가설은 기각됨

귀무 가설에서 설정한 평균이 신뢰구간내에 존재하지 않기 때문

 

 

 

 

Paired t-test

알 수 있는점

paired t-test이며 df=9이므로 그룹별 데이터수는 10개 -> 분석 전 정규성 검정 실시

 

 

 

 

 

 

Two sample t-test

그룹이 2개 이므로 18+2해서 데이터수는 20개 ->분석 전 정규성 검정 실시

p-value가 0.05보다 커서 귀무가설을 기각 할 수 없다.

신뢰구간에 0이 포함되므로 두 집단간 평균에 차이가 없다고도 해석할 수 있다.

 

 

 

데이터의 정규성 검정 

데이터의 정규성을 검정하는 방법들

Q-Q plot 그래프를 그려서 정규성이 만족되는지 시각적으로 확인하는 방법
대각선 참조선을 따라 값이 분포하면 정규성을 만족한다고 볼 수 있다.
Histogram 구간별 돗수를 그래프로 표시해서 시각적으로 정규분포를 확인
Shapiro-Wilk test 오차항이 정규분포를 따르는지 알아보는 방법
p-value가 0.05보다 크면 정규성
kolmogorov-Smirnov test 두 모집단의 분포가 같은지 검정
p-value가 0.05보다 크면 정규성

 

 

 

 

 

 


References

2021 ADsP 데이터 분석 준전문가, 윤종식 저

https://www.youtube.com/c/EduAtoZPython/videos

 

EduAtoZ - Programming

An extreme programming education channel

www.youtube.com

 

 

+ Recent posts