티스토리 뷰

R

[R] 통계의 이해

rimo (리모) 2022. 6. 15. 16:46

 

 

R을 이용한 빅데이터 분석에 앞서 통계의 기본적인 내용에 대해 다룹니다.  (식보다 개념위주로 정리한 글입니다!)

 


 

1. 통계학의 기본개념

 

통계학을 공부하는 목적

1. 우리가 관심을 가지고 연구하려는 대상에 관련된 합당한 자료를 수집하고, 정리하여, 계산하는 능력을 기른다.

2. 정리 계산된 자료의 특성으로서 일상 생활에서 일어나는 복잡한 문제들을 합리적으로 해결하는 의사결정의 도구로 삼는다.

3. 불확실한 미래 사회현상에 대한 예측을 하고 중요한 정책수립이나 사업을 계획하는데 과학적인 정보를 얻는다.

 

--> 결론적으로 현명하고, 합리적인 의사결정을 하기 위해 우리는 통계를 공부한다. 

 

 

 

전문 학문과의 관련서

-->  전산, 정보, 이공학, 경제, 산업, 인문, 사회, 교육, 보건 의료 등 다양한 분야에 걸쳐 사용되고 필요한 과목이다.

 

 

통계학이란?

- 관심의 대상이 되는 연구 목적에 합당한 자료를 수집하고 정리, 분석하여 일반성을 지닌 정보를 도출하여 불확실한 상황 하에서 현명한 의사결정을 하기위한 이론과 방법을 체계적으로 다루는 학문

- 주어진 자료에 근거해 여러 가지 자연현상 또는 사회 현상에 대한 보편 타당한 과학적인 추론과 불확실한 미래를 대비하기 위하여 합리적인 의사결정을 도출하는 학문

 

 

통계와 확률의 차이

통계 : 손안의 정보를 토대로 통안에 무엇이 들어있는가를 고민

확률 : 통안에 들어있는 것에 대한 정보를 토대로 손안에 무엇이 들어있는가를 고민

 

 

통계학의 종류

기술 통계학 : 통계 집단의 특성을 수치화 하여 나타내는 방법을 주로 다루는 분야의 학문 (평균, 분산, 상관계수 등)

추리(추론, 추측) 통계학 : 모집단에서 뽑은 표본을 분석하여 이를 바탕으로 미지의 모집단 전체에 대한 특성을 추정해 내는 학문 

 

 

 

 

 

+ 데이터 마이닝 또한 기본적인 통계기법들의 확장이다.

 

 

통계학의 용어

모집단 : 연구자(조사자)의 관심의 대상이 되는 데이터 전체 집합

표본 : 모집단에서 연구의 대상으로 채택된 일부

모수 : 모집단의 특성을 수치로 나타낸 것

통계량 : 표본의 특성을 수치로 나타낸 것

 

 

          -- 표본추출 -->

모집단                    표본집단    

            <--- 추론 ---

 

 

 

통계적 패키지(Tool)

- MINITAB 

- SAS

- SPSS

- BMDP

-정보통계(ISP)

 

 

통계학의 응용

- 백화점의 매출액 예측

- 선거에서 당선자 예측

- 신약의 효용성 

- 품질관리

- 흡연자와 비흡연자의 폐암 확률 차이 검정

- 각종 경제 지표를 만들어 국가 경제 실태를 파악하고 경기의 동향에 대한 적절한 대책과 경제 개발 계획 수립 등

 

 

 

정리

- 통계학을 배우는 목적

관심의 대상이 되는 분야의 정보를 효율적으로 수집하고 정리 요약하여 불확실한 상황하에서 현명한 의사결정을 내리는데 도우미로 삼기 위함이다.

 

- 특성치란?

자료의 평균치, 표준편차, 분산 등을 의미하며 모집단의 특성치를 수치화 한 것을 모수, 표본집단의 특성치를 수치화한 것을 통계량이라 한다.

 

- 통계학

자연현상이나 사회현상을 다루는 모든 분야에 이용된다. (화학, 물리학, 기 상학, 생물학, 정치학, 경제학, 사회과학, 경영학, 교육학, 심리학, 문학, 예술분야 등)

 

 

 


 

통계적 문제의 유형

 

- 모집단 비율에 과한 추정 : 특정 TV 프로그램의 시청률을 알아보기 위해 900명의 시청자 집에 특수 장치를 설치하였다. 이 자료를 이용해 프로그램 시청률이 포함되어있는 구간을 통계적으로 추정하였다.

 

- 가설의 검정 : 모 제약회사가 새로운 진통제를 개발하였다. 이 진통제는 부작용이 없으며 8시간 동안 통증을 없애준다고 한다. 이주장을 통계적으로 분석하기위해 피실험자를 대상으로 하여 약의 효과에 관한 실험을 실시하였다.

 

- 분산분석 : 상품을 쌓아 두는 진열대의 위치에 따라 판매량이 달라지는지 알아보기 위해 눈높이를 기준으로 하여 상, 중, 하의 세위치에 상품을 번갈아 진열하고 실제 판매량을 측정하였다. 그리고 눈 높이에 따라 판매량이 달라지는지 알아보기 위해 통계적분석을 실시하였다.

 

- 회귀분석 : 광고를 많이 하면 매출액이 늘어나는지를 알아 보기 위해 월별 광고비 액수와 매출액에 관한 지난 2년간의 자료를 수집하였다. 두 변수간의 관계를 1차식으로 정립한뒤 통계적 분석을 통해 이들의 관계를 알아보았다.

 

- 독립성 분석 : 남녀간 성별에 따라 승진비율에 차이가 있는지는 알아보기 위해 대기업 남녀 사원들의 인적자원 관련 자료를 수집하였다. 그리고 통계적 분석을 통해 성별과 승진여부가 통계적으로 독립된 것인지 알아보았다.

 

 

 

 


 

 

2. 모집단의 특성 파악

통계적 추론 : 표본으로 부터 얻을 결과를 이용하여 모집단의 특성을 예측하는 과정을 말한다. 추정가설 검정을 포함한다.

 

 

추정이란?

모집단에서 추출한 표본의 결과를 이용하여 모집단의 모수를 추측하는 과정을 말한다.

  - 점추정  : 오직 하나의 값으로 모집단의 특성을 추정하는 것 

  - 구간추정 : 모수가 포함될 것이라고 기대하는 범위를 설정하여 모수를 추정하는 방법

 

+ 추정량(estimator)은 모집단의 모수를 추정하기 위해 사용하는 공식이나 함수식

+ 추정치(estimate)는 추정량이라는 공식에 실제 표본의 데이터를 대입하여 계산된 결과 값

+ 표본 통계량은 표본으로부터 얻어진 표본평균, 표본분산을 의미

 

 + 표본오차(sampling error), 또는 추정오차(estimation error) : 표본에서 얻게 될 표본 평균과 실제 모집단 평균의 차이

 

 

점추정 : 추정량으로 표본 평균, 표본 중앙값, 표본 최빈값을 생각할 수 있다. 이러한 추정량 중에서 선택을 하기 위한 기준이 필요하다. 대부분의 경우 모집단 전체를 조사한다는 것은 불가능하기에 정확한 모평균은 알 수 없다. 

 

 

구간추정 :  모집단 평균에 대한 구간추정은 평균(μ)을 중심으로 일정한 간격으로 추정한다. 추정한 구간에 대한 신뢰성의 크기를 확률(1-α)을 이용하여 표시하고 이때 α는 오차확률(표본을 이용하게 됨으로써 필연적으로 발생하는 표본오차)를 의미한다.

 

 

 

 

+ 신뢰수준 95% 란?

100개의 신뢰 구간중에서 95개가 모집단 평균을 포함하는 구간이라는 의미이다.

추정된 구간 L과 U가 모집단 평균을 포함하게 될 것이라는 믿음의 정도가 95% 된다는 것

 

 


 

3. 가설 검증

 

가설 검증이란?

통계적 가설 검정이란,  귀무가설에서 표본을 추출한 뒤 표본 통계량을 이용하여 귀무가설을 테스트 하는 과정이다.

 - 가설 : 증명되지 않은 주장

 - 귀무가설 : 증명된 바 없는 주장

 

-->  부정적 내용을 담고 있는 귀무가설을 통계적으로 검정하고 기각한 뒤, 긍정적인 내용을 담고 있는 대립가설채택

-->  대립가설을 통한 가설 검정은 불가능 하다

 

 

재판 과정, 판결과  가설검증

- 무죄 판결 : 용의자가 무죄임을 증명한 것이 아닌, 용의자가 무죄가 아니라는 것을 밝히기에 충분한 타당성이 없다.

- 유죄 판결 : 용의자가 유죄임을 증명한 것이 아닌, 용의자가 무죄가 아니라는 것을 밝히 기에 충분한 타당성이 있다.

 

--> 판사는 용의자가 무죄라고 가정한 상태에서 재판을 하지만, 판결은' 무죄가 아님'을 밝히려는 모든 자료에 대해서 충분히 타당한 근거가 있는가에 따라 죄의 유무를 가리는 것이다.

 

--> 이러한 재판 과정과 통계적 가설검정은 흡사하다. 두개의 상반된 가설(대립, 귀무)을 세운후 검정이 이루어진다.  

 

 

- 주장하려는 가설을 대립가설(alternative null hypothesis)이라 하고 기호로는 H1(Ha)로 표시

- 주장하려는 가설과 반대되는 가설을 귀무가설(또는 영가설, null hypothesis)이라 하고 기호로는 H0로 표시

 

--> 가설검정은 가설 H0가 사실이라는 가정하에 검정이 이루어지므로 검정의 초점은 H0(귀무가설)에 있다.

 

 

가설 검증의 결론

- 가설 H0을 기각하지 않는다 (not reject)

     : 가설 H0가 사실이 아니라고 보기에는 표본의 결과(증거)가 충분한 타당성을 갖지 못한다.

- H0을 기각한다 (reject)

     : 표본의 결과(증거)가 H0가 사실이 아니라고 보기에 충 분한 타당성을 제시하고 있다.

 

 

가설검정에서 발생할 수 있는 오류

- 검증하고자 하는 가설에 대해 잘못된 판단을 내릴 가능성(확률)을  오류(error)라 한다.

- 제1종의 오류(α : 귀무가설이 참이나 기각함), 제 2종의 오류(β : 귀무가설이 거짓이나 기각하지 않음)

 

표본의 결과를 이용하는 모든 통계적 추론은 추정을 포함하여 가설검정에서도 표본오차는 언제나 발생할 수 있기 때문에, 가설검정 역시 오류를 범할 가능성은 항상 존재한다. 

 

--> 어떠한 문제의 가설검정에도 두 가지(α, β) 의 오류는 필연적으로 발생하게 되며, 제 1종의 오류(α)를 줄이면서 동시 에 제 2종의 오류(β)가 증가되지 않도록 하는 방법을 찾아야 한다.

 

 

 

유의수준

가설을 세운 다음, 검정하기 전에 제 1종의 오류(α)의 크기를 설정하는 것을 말한다.

유의수준은 표본의 결과가 H0가 사실이 아니라는 증거에 대해 얼마나 충분한 타당성이 있는가를 판정하는 기준으로 사용한다.

 

+ 제 1종의 오류가 발생되지 않도록 α를 0으로 한다면?

1종의 오류가 발생할 확률을 0으로 만든다는 것은 제 2종의 오류가 발생할 확률을 1로 만드는 결과를 초래한다.

 

 

 

 

모집단 평균에 대한 추정과 가설검정

표본평균에 대한 신뢰구간과 가설검정(단, 양측검정 에만 해당)은 모두 표본오차(또는 추정오차)인 을 확률적으로 다루게 되므로 같은 의미를 갖는다.

차이점은 표본오차을 모집단 평균(μ)을 기준으로 바라볼 것인가, 아니면 표본평균을 기준으로 바라 볼 것인가 이다.

 

+ 양측검정과 단측검정 : 모수의 영역에 따라 양측검정과 단측검정으로 구분

 

 

 

유의수준과 가설점정

동일한 가설검정 문제에 있어서 유의수준을 어떻게 설정하느냐에 따라 검정결과는 달라질 수 있다.

--> 유의수준에 따라 가설의 기각영역이 변하므로 이러한 문제점을 보완 하기 위해 p-값을 이용하여 가설을 검정

- p-값 : 검정과정에서 밝혀진(계산된) 유의수준

 

 

p-값을 이용하여 가설을 검정하는 방법

표본평균에 대한 검정통계량을 이용하여 귀무가설을 기각 할 확률에 근거하여 가설을 검정하는 방법이다.

p-값이 유의수준(α)보다 작아서 귀무가설을 기각할 경우에 '유의수준 α하에서 통계적으로 유의하다.' 라고 표현한다.

--> 단순한 우연 이라고 생각되지 않을 정도로 의미가 있다는 것

 

 

 


 

두 개의 모집단에 대해서 추론하는 방법

앞서 한 개의 모집단에 대한 추론에 대해서 살펴보았다. 이어서 두개의 모집단에 대해 추론하는 방법에 대해 설명한다.

 

두 모집단이 각각 정규분포를 따르지 않는다고 하더라도 표본의 크기가 충분히 크다면 중심극한정리에 의해 두 표본에 대한 표본평균 차이는 정규 분포를 따른다. 

--> 따라서 한 개의 모집단에 대한 추론과 마찬가지 방법으로 평균차이를 확률변수로 표준화하여 표준정규분포를 이용한 가설 검정을할 수 있다.

 

 

+ 이는 데이터(표본)가 어떻게 수집 되었느냐에 따라 다음과 같이 두 가지로 구분하며 분석방법이 달라진다.

- 독립인 두 표본 : 서로 독립적인 모집단으로 부터 추출된 표본

- 대응표본 : 독립적인 모집단이 아닌 짝을 이루는 표본

 

 

독립인 두 표본에 대한 평균 차이 분석

표본의 크기가 충분 큰 경우 (n≥30)와 표본의 크기가 작은 경우(n<30)에 따라 사용할 검정통계량을 선택한다.

 

 

 

 


 

 

 

4. 분산분석

세개 이상의 모집단 평균에 대한 추론

 

 

분산분석이란?

동일한 유의수준 하에서 세 개 이상의 모집단에 대한 평균을 동시에 비교할 때 사용 하는 통계적 분석방법

이때 결과에 영향을 주는 요소들을 요인(factor)이라 하고 요인을 몇 개의 단위로 구분 한 것을 처리(treatment) 또는 수준(level)이라 한다. 

+ 일원 분산분석(oneway ANOVA) : 요인이 한 개인 분산분석

 

 

 

오차 변동이란?

ex. 동일한 품종의 사과나무를 6그루 심었다고 가정.

 

1. 비료를 준 특정한 나무의 사과개수가 비료를 주지 않은 나무의 개수에 비해 현격하게 늘어났다면 이러한 차이는 비료의 효과에서 오는 차이로 설명할 수 있다.

--> 이러한 변동의 크기는 설명이 가능한 변동이다.

 

2. 동일한 조건에서 키우더라도 각 나무에 열린 사과의 개수는 다를 것이다. 하지만 이러한 차이는 원인을 알 수 없기에 설명할 수가 없다. 이를 오차변동 이라한다.

--> 오차변동 : 설명할 수 없는(설명이 불가능 한, 우연에 의한) 변동

 

 

 

 

분산분석에서 F 검정

따라서 다음과 같이 F를 정의할 수 있다.

분산분석은 분산의 비율(F 값)로서 검정을 하며 이를 F검정이라 한다.

 

 

 

 

분산분석의 종류

분산분석은 실험계획법에서 주로 사용하는 분석이며 요인의 수와 반복에 따라 다음과 같이 구분한다.

요인의 수 : 1  - 일원 분산분석

                     2 - 반복이 없는 이원 분산분석, 반복이 있는 이원 분산 분석

 

+ 반복이 있는 이원 분산분석의 경우 가설은 반복이 없는 이원 분산분석의 가설에 대해 교호작용에 따른 가설이 추가 된다.

- 교호작용 : 두 개의 요인이 서로 동시에 작용하면서 나타나는 처리 효과의 변화. (상승효과 또는 상쇄효과)

 

 


 

상관분석과 회귀분석

변수들 간의 상호 관련성을 파악하고자 하는 경우, 이러한 관련성을 분석하는 통계적 방법으로 상관분석(correlation analysis)과 회귀분석(regression analysis)이 있다.

 

상관 분석 : 변수들 간의 단순한 상호 관계성의 정도를 분석하는 것

회귀 분석 : 변수 간의 인과관계를 분석하는 방법. 변수들 중 하나를 종속변수(영향을 받는 변수) 로 나머지를 독립변수(영향을 주는 변수)로 하여 이들의 함수관계를 통해 관련성의 본질을 나타내는 방법

 

 

+ 회귀분석의 가설검정은 회귀모형에 대해 다음과 같이 회귀직선의 기울기인 β에 대한 것이다.

--> 회귀직선의 기울기인 β가 0이라는 것은 독립변수 와 종속변수 사이에 선형관계가 존재하지 않는다는 것이며, 독립변수 X는 종속변수 Y에 대해 아무런 영향을 주지 않는다는 것이다. (이에 대한 검정방법은 t-검정과 F-검정이 있다)

 

 

 

 

적합도 검정, 독립성 검정, 동질성 검정

적합도 검정(goodness of fit test) :  관측값이 특정한 확률분포를 따르는지는 검정

독립성 검정(independence test) :  분할표 상에서 변수들 간의 연관성을 검정

동질성 검정(homogeneity test) :  분할표 상의 두 변수에 대해서 모집단 비율이 같은지를 검정

--> 동질성 검정과 독립성 검정은 단지 가설에서 차이가 나며 검정방법은 동일하다.

 

 

 

 

 

 

감사합니다.

 


 

 

2022년 AI분석을 위한 R통계교육의 수업내용을 정리한 글입니다.

 

공부한 내용을 복습/기록하기 위해 작성한 글이므로 내용에 오류가 있을 수 있습니다.

'R' 카테고리의 다른 글

[R] 고급 통계  (0) 2022.06.30
[R] 기초 통계  (0) 2022.06.29
[R] 모드(mode)와 자료구조  (0) 2022.06.28
[R] 변수와 벡터  (0) 2022.06.28
[R] 시작하기 - R, RStudio, jdk 설치 및 설정  (0) 2022.06.15
댓글
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Total
Today
Yesterday