[R] 빅데이터 분석 기법

티스토리 뷰

[R] 빅데이터 분석 기법

rimo (리모) 2022. 7. 7. 22:12

두 집단의 평균이 서로 같은지/다른지를 검증한다.

R을 사용해 여러 문제 상황에 맞는 분석기법을 적용하는 방법을 다룹니다.

시나리오

발생한 문제상황을 해결하기 위해서는 먼저 잠재적인 원인과 이에 따른 가설적인 해결방안을 수립하고, 적합한 데이터와 분석기법을 결정하는 '시나리오 방식'으로 접근하는 것이 효율적이다. 분석기법에는 적합도 검정, 단일집단 비율 분석, 단일집단 평균분석, 두집단 비율차이 분석, 대응 두집단의 평균차이 분석, 두집단의 평균차이 분석 등이 있으며, R에서는 이를 위한 다양한 함수들을 제공하고 있다.

적합도 분석

관찰되는 값이 기대되는 값과 유의미 하게 다른지 검정한다. 선택항목들이 여러개가 있을때 동일할게 선택될 것인가/다르게 선택될 것인가 기대하는 비중이 있다. 즉 해당 선택항목들에 대한 실제 조사 관찰치의 선택비중이 기대한 비중과 일치하는지의 여부를 판단하는 것이다. chisq.test( ) 함수를 사용해 카이제곱 검정을 실행한다.

단일 집단 비율 분석

한 집단의 비율이 어떤 특정한 값과 같은지 검증한다. 특정 변수가 둘중하나를 선택하는 항목으로 구성된 경우 선택한 비율이 사전에 조사된 특정 비율값과 동일한지/다른지를 비교한다. binom.test( ) 함수를 사용해 이항검정을 실행한다.

단일 집단 평균 분석

한 집단의 평균이 어떤 특정한 값과 같은지 검증한다. 한 집단의 특정 변수가 수치데이터로 이루어진 경우 평균값을 분석할 수 있다. 이 평균값이 사전에 조사된 특정 평균값과 동일한지/다른지를 비교한다. 먼저 shapiro.test( ) 함수를 사용해 분석집단의 데이터 분포가 정규 분포를 이루고 있는지 검정한다. 정규 분포를 이루고 있음이 확인되면 t.test( ) 함수로 모집단의 평균값이 특정 값과 동일한지 검정하는 t-test를 실행한다.

두집단 비율 차이 분석

두집단의 비율이 서로 같은지/다른지 검증한다. 두집단이 둘 중에 하나를 선택하는 항목으로 구성된 경우 사용되며 각 집단에서 선택한 비율이 서로 동일한지/다른지를 비교하는 분석이다. prop.test( ) 함수로 비율차이 검증을 실시한다. ( 세집단 이상인 경우에는 prop.test 함수가 two.sided 비율 검정을 실시하게 된다.)

대응 두집단 평균차이 분석

짝을 이루는 두 집단의 평균이 서로 같은지/다른지를 검증한다. 이때 짝을 이룬다(대응을 이룬다)는 독립적인 두 집단이 아니라 실제 하나의 집단에서 두 번 측정이 이루어진 것을 의미한다. 한 집단을 대상으로 한 사전-사후 효과 비교시에 많이 사용된다. 검증 전 두 집단의 형태가 등분산성을 이루고 있는지 확인하기 위해 var.test( ) 함수를 사용한다. 등분산성을 이루고 있다면 t 검정(t.test( ))을 이루고 있지 않다면 Wilcoxon(wilcox.test( )) 검정을 실시한다.

두집단 평균차이 분석

두 집단의 평균이 서로 같은지/다른지를 검증한다. 두 집단의 특정 변수가 수치데이터로 이루어진 경우 평균값을 분석할 수 있다. 이 평균값이 두 집단간에 동일한지/다른지를 비교하는 분석이다. 검증 전 두 집단의 형태가 등분산성을 이루고 있는지 확인하기 위해 var.test( ) 함수를 사용한다. 등분산성을 이루고 있다면 t 검정(t.test( ))을 이루고 있지 않다면 Wilcoxon(wilcox.test( )) 검정을 실시한다.

+ 교차 분석

두 범주형 자료간에 상호 관련성을 알아보고자 할 때 사용된다. 범주형 자료 변수에 대한 결합분포(결합빈도)를 나타내는 분할 표를 작성하고 각 세에 두 변수가 결합된 기대 빈도를 구한다. 그리고 실제 측정된 빈도를 비교하여 두변수가 독립성 혹은 연관성이 있는지를 판단한다.

홍보 이벤트 효과 분석 예제

: 단일 집단 비율 분석

A 화학의 치약 제품 B에 대한 표본 고객들의 구매 여부에 대한 조사데이터가 있다. (보통 매장에서 고객들이 구매하는 비율은 10%이며, 대형 매장 입구에 이벤트 부스를 통한 홍보이벤트를 통해 구매비율을 높이려는 프로모션을 진행하였다.) 데이터는 고객의 ID번호를 나타내는 id열과 구매 여부를 나타내는 buy열로 구성되어있다. (구매:1, 구매하지 않음: 0) 이때 다음을 구하여라.

mytooth.csv

0.00MB

1. 구매 여부에 대한 빈도수와 비율에 대하 기술 통계량 값을 별도로 구하시오

2. 구매 여부에 대한 빈도수와 비율값을 테이블 형태로 동시에 표현하시오.

3. 구매여부에 따른 빈도수와 비율값을 구하시오.

4 . 실제 구매비율이 일반적으로 알려진 10%보다 향상되었는지 검증하시오.

# 패키지 다운로드 및 적재
install.packages("Hmisc")
install.packages("prettyR")
library(Hmisc)
library(prettyR)


# 실습데이터 적재
setwd("c:/Rdata")
getwd()
mytooth<-read.csv("mytooth.csv", header = TRUE)
head(mytooth)


# 구매 여부에 대한 빈도수
table(mytooth$buy)


# 구매 여부에 대한 빈도 비율
round(prop.table(table(mytooth$buy))*100,1)

# 빈도수와 비율 값을 한개의 테이블 형태로 합치기
buyFreq<-c(table(mytooth$buy))
buyProp<-c(round(prop.table(table(mytooth$buy))*100,1))
buyTable<-data.frame(Freq=buyFreq, Prop=buyProp)

buyTable


# 기술 통계량 분석
describe(mytooth)
describe(mytooth$buy)


# buy에 대한 항목별 빈도 및 백분율에 대한 빈도
freq(mytooth)
freq(mytooth$buy)



# 실제 구매 비율이 일반적으로 알려진 10%보다 향상 되었는지 검증
# 10퍼센트보다 클것으로 보고 이항검증 실시
binom.test(c(40, 10), p=0.10, alternative = "greater")

# p-value < 2.2e-16
# p-값이 0.05보다 낮음으로 귀무갈서을 기각하고 대립가설을 채택한다.

+ 광고 모델 반응 분석

: 두 집단 비율차이 분석

2가지 광고 대안별로 독립적인 모니터링 그룹에서 해당 광고에 대한 관심유무를 조사한 데이터가 있다. 데이터는 모니터링을 한 집단의 유형을 나타내는 group 열과 (연예인 CF: 1, 일반인 CF : 2) 해당 광고에 대한 관심유무를 나타내는 interest 열로 이루어져 있다. (관심 있다: 1, 관심없다: 0) 이때 다음을 구하여라.

mycf.csv

0.00MB

1. 모니터링 그룹별 해당 광고의 관심 유무에 대한 빈도수, 비율을 구하여라.

2. 두 집단 간에 관심의 유무 차이가 있는가?

3. 대립 가설을 채택하는가? 기각하는가?

# 패키지 다운로드 및 적재
install.packages("Hmisc")
install.packages("prettyR")
library(Hmisc)
library(prettyR)


# 실습데이터 적재
setwd("c:/Rdata")
getwd()
mycf<-read.csv("mycf.csv", header = TRUE)
head(mycf)


# 해당 광고의 관심 유무에 대한 빈도수 구하기
table(mycf$group)
table(mycf$interest)
table(mycf$group,mycf$interest) # 교차 빈도 분석 테이블


 
# 해당 광고의 관심 유무에 대한 빈도비율 구하기
prop.table(table(mycf$group))
prop.table(table(mycf$interest))
round(prop.table(table(mycf$group, mycf$interest))*100, 1) # 교차 비율 분석 테이블



# 두 집단 간에 관심의 유무 차이를 확인하기 위해 비율차이 검증실시
prop.test(c(37, 23), c(50, 50))

# p-value = 0.007963, 유의수준(0.05)보다 낮음으로 귀무가설을 기각한다.
# 연예인 CF집단은 일반인 CF집단과 관심도가 같다고 볼 수없다.
# 유무 차이가 존재한다.


# 연예인 CF 집단의 관심비율이 높을것(대립가설)을 가정 하고 검정 수행
prop.test(c(37, 23), c(50, 50), alter="greater")

# p-value = 0.003982, 유의수준(0.05)보다 낮음으로 귀무가설을 기각한다.
# 연예인 CF 집단의 관심 비율이 일반인 CF집단보다 높다고 할 수 있다.

감사합니다.

2022년 AI분석을 위한 R통계교육의 수업내용을 정리한 글입니다.

공부한 내용을 복습/기록하기 위해 작성한 글이므로 내용에 오류가 있을 수 있습니다.

저작자표시 비영리 변경금지 (새창열림)

'R' 카테고리의 다른 글

[R] 데이터 시각화 - Text mining(Tm)과 Wordcloud (0)	2022.07.06
[R] 데이터 시각화 - googleVis (0)	2022.07.06
[R] 데이터 시각화 - ggmap (0)	2022.07.05
[R] 데이터 시각화 - ggplot2 (0)	2022.07.04
[R] 데이터 시각화 - 그래프 활용과 Plot (0)	2022.06.30

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Total

Today

Yesterday

덜 생각하고 더 행동하기

티스토리 뷰