두 집단의 평균이 서로 같은지/다른지를 검증한다. R을 사용해 여러 문제 상황에 맞는 분석기법을 적용하는 방법을 다룹니다. 시나리오 발생한 문제상황을 해결하기 위해서는 먼저 잠재적인 원인과 이에 따른 가설적인 해결방안을 수립하고, 적합한 데이터와 분석기법을 결정하는 '시나리오 방식'으로 접근하는 것이 효율적이다. 분석기법에는 적합도 검정, 단일집단 비율 분석, 단일집단 평균분석, 두집단 비율차이 분석, 대응 두집단의 평균차이 분석, 두집단의 평균차이 분석 등이 있으며, R에서는 이를 위한 다양한 함수들을 제공하고 있다. 적합도 분석 관찰되는 값이 기대되는 값과 유의미 하게 다른지 검정한다. 선택항목들이 여러개가 있을때 동일할게 선택될 것인가/다르게 선택될 것인가 기대하는 비중이 있다. 즉 해당 선택항목들..
[R] 데이터 시각화 - googleVis [R] 데이터 시각화 - ggmap [R] 데이터 시각화 - ggplot2 [R] 데이터 시각화 - 그래프 활용과 Plot 데이터를 분석하는 것 자체도 중요하지만 분석결과를 남들이 쉽게 이해할 수 있도록 전달하는 것 또한 munak.tistory.com 위 글에 이어 Text mining의 개념과 Wordcloud를 이용해 문서 데이터를 시각화하는 내용을 다룹니다. Text mining 텍스트 마이닝(Text mining)은 다양한 포맷의 문서로 부터 데이터를 획득해 이를 문서별 단어의 매트릭스로 만들어, 추가 분석이나 데이터 마이닝 기법을 적용해 통찰을 얻거나 의사 결정을 지원하는 방법이다. 이때 사용되는 다양한 포멧의 문서란, 웹콘텐츠, PDF파일, 오피스파..
[R] 데이터 시각화 - ggplot2 [R] 데이터 시각화 - 그래프 활용과 Plot 데이터를 분석하는 것 자체도 중요하지만 분석결과를 남들이 쉽게 이해할 수 있도록 전달하는 것 또한 중요합니다. 이를 위해 데이터 시각화와 관련 함수 munak.tistory.com 위 글에 이어 ggmap을 이용해 지도위에 데이터를 시각화하는 내용을 다룹니다. API 키 발급 먼저 ggmap 사용을 위해 API키를 발급 받아야합니다. 이를 위해 구글계정과 크레딧을 제공받을 카드가 필요합니다. 구글에 로그인 후 GCP(Google Cloud Platform)에 접속 합니다. https://cloud.google.com/gcp/?utm_source=google&utm_medium=cpc&utm_campaign=japac-..
[R] 데이터 시각화 - 그래프 활용과 Plot 데이터를 분석하는 것 자체도 중요하지만 분석결과를 남들이 쉽게 이해할 수 있도록 전달하는 것 또한 중요합니다. 이를 위해 데이터 시각화와 관련 함수 및 패키지에 대해 다룹니다. Plot ( ) R에 munak.tistory.com 이전 글에 이어서 데이터 시각화를 위한 패키지에 대한 기본적인 내용을 다룹니다. ggplot2 ggplot2는 데이터를 각 기하 객체의 미적 속성에 매핑하는 방법을 제공한다. 이를 통해 통계적인 시각화를 가능하게 하는 효과적인 방법을 제안할 수 있게 되었다. 또한 통계적인 데이터 변환이 필요하다면 그 변환까지 수행한다. 국소 시각화 기법을 지원해 각 데이터의 부분 데이터만 사용해 여러 개의 그래프를 그릴 수 있다. - aes( )..
데이터를 분석하는 것 자체도 중요하지만 분석결과를 남들이 쉽게 이해할 수 있도록 전달하는 것 또한 중요합니다. 이를 위해 데이터 시각화와 관련 함수 및 패키지에 대해 다룹니다. Plot ( ) R에서는 plot 함수를 사용해 여러 객체들을 시각화 할 수 있다. 이때 type 파라미터에 아무런 값을 주지않으면, 기본적으로 산점도가 그려지게 된다. 산점도란 주어진 데이터를 점으로 표시해 흩뿌리듯이 시각화한 그림이다. ex. mlbench패키지에 Ozone 데이터를 사용해 산점도를 그리는 예제 - Ozone 데이터 적재 - 산점도 출력 + 여러 파라미터를 부여하여 축이나 점의 옵션을 조절할 수 있다. - xlab : x축이름 - ylab : y축이름 - pch : 점의 모양 ( 숫자의 경우 해당 숫자에 지정된..
[R] 기초 통계 앞서 작성한 글들을 바탕으로 R을 이용해 여러 기본적인 통계를 실행합니다. (수식에 대한 자세한 분석은 생략합니다. 이런 함수들이 있고 사용법을 익히는 정도 입니다!) R은 다음과 같이 다양 munak.tistory.com 위 글에서 이어집니다. R을 이용해 군집분석, 분산분석, 시계열분석을 실행합니다. 군집분석 적절한 목적으로 여러 집단으로 나눈 후 특성 및 차이를 분석하기 위하여 사용한다. 기법에는 최단 연결법, 최장 연결법, 와드연결법, 평균연결법, k-means 등이 있다. 1) 최단 연결법 (Single Linkage Method) 두 군집 U와 V사이의 거리 d를 각 군집에 속하는 임의의 두 개체들 사이의 거리중에서 최단거리로 정의하여 가장 유사성이 큰 군집을 묶어나가는 방법..
앞서 작성한 글들을 바탕으로 R을 이용해 여러 기본적인 통계를 실행합니다. (수식에 대한 자세한 분석은 생략합니다. 이런 함수들이 있고 사용법을 익히는 정도 입니다!) R은 다음과 같이 다양한 확률분포에 대해 여러 통계 함수들을 지원하고 있습니다. 확률분포 난수 발생 확률 밀도 함수 누적 분포 함수 분위수 이항분포 rbinom dbinom pbinom qbinom F 분포 rf df pf qf 기하분포 rgeom dgeom pgeom qgeom 초기하분포 rhyper dhyper phyper qhyper 음이항분포 rnbinom dnbinom pnbinom qnbinom 정규분포 rnorm dnorm pnorm qnorm 포아송 분포 rpois dpois ppois qpois t 분포 rt dt pt q..