티스토리 뷰

R

[R] 변수와 벡터

rimo (리모) 2022. 6. 28. 13:53

 

 

변수부터 자료형, 관련 함수 등 R프로그래밍에 앞서 기초적인 내용을 다룹니다.

 


 

 

 

빅데이터에 대한 관점의 전환

 

데이터 분석기법은 기술 통계 분석을 기본으로 하며 주어진 문제에 대한 변수 구성 및 데이터 특성에 따라

추론통계분석 및 데이터 마이닝을 종합적으로 활용한다.

 

1. 기술 통계분석 : 데이터가 가진 일반적 특성 분석을 수행한다.

2. 표본분석을 토대로 모집단의 특성을 추론하여 해석한다.

3. 대규모 데이터에서 의미있는 패턴을 발견하고 규칙을 도출한다.

 

 

 

 

 

R의 강점

 

R은 무료이고, 오픈소스이며 강력한 분석기능 및 뛰어난 확장성을 가지고 있다.

 

1. 오픈소스기반 무료 소프트웨어

2. 포괄적인 통계플랫폼

3. 멀티 OS 지원

4. 시각화기능

5. 작업의 재현성

6. 전세계적 커뮤니티 생태계

 

 

 

 


 

 

변수

실습을 동반한 내용입니다. R, RStudio, JDK 설치 및 환경 구축이 선행되어야합니다. 4.1.3 버전(22-03-10)을 사용합니다.

 

 

[R] 시작하기 - R, RStudio, jdk 설치 및 설정

R, RStudio, jdk를 설치합니다. R-4.1.3, RStudio-2022.02.1-461, JDk 8 버전을 사용합니다. + 다른 자바 버전이 설치되어 있는 경우 충돌 오류가 날 수 있습니다. R프로그래밍 환경을 구축합니다. [R설치] https..

munak.tistory.com

 

 

 

 

 

 

[File] > [New File] > [R Script]

 

 

 

+ 실행 단축키는 Ctrl + Enter 이다.

 

 

 

 

 

 

 

 

변수 및 자료구조

 

- R은 일반적인 프로그래밍 언어에서 사용되는 정수, 부동소수, 문자열 등을 지원한다.

(대소문자구분, 예약어 사용 불가, 숫자나 -로 시작불가 등 변수이름 제약 또한 존재)

 

 

- 자료처리에 적합한 Vector, Mastrix, Dataframe, List와 같은 자료구조를 지원

 

 

 

 

 

 

 

문장 사용형식

 

콘솔창에 직접 명령어를 입력할 경우 > 다음에 명령어를 입력해야 한다.

 

 

 

 

 

- 할당문 : 객체(변수)에 값을 할당할 때에는 <-, = , -> 기호를 사용한다.

 

 

 

 

 

- 주석 :  #를 사용한다.

 

 

 

+ 명령어가 한 줄이상일 경우 + 기호를 사용한다.

 

+ 한줄에 여러개의 명령어를 사용할 경우 ;으로 구분한다.

 

 

 

 

- 진리값과 논리 연산자 

 

TRUE, FALSE (예약어) --> 참/거짓    &, | (논리연산자) --> AND, OR

 

 

+ 예약어기 때문에 TRUE와 FALSE는 변수명으로 사용불가능하다.

 

 

 

 

범주형 변수와 양적변수

 

범주형변수 : 여러 범주 도는 그룹으로 분류하며, 논리적 순서를 가지거나 가지지 않을수도 있다. (ex. 성별, 텍스트, 요일)

양적변수 : 순서를 정하고 측정할 수 있다. (ex. 숫자, 시간)

 

 

- R에서 범주형 데이터는 factor(요인형)을 사용해 표현한다.

+ 순서가 있는 경우에는 ordered factor(순서형 요인)으로 구분하여 표현한다.

+ c()를 사용해 벡터로 표현

 

 

 

 

 

 

 


 

 

벡터

 

R에서 가장 기본적인 데이터 셋의 형태. 하나 이상의 문자, 숫자등의 집합을 의미한다.

원소는 모두 같은 타입만을 가질수 있으며,  다른 타입이 들어올 경우 한가지 타입으로 자동 변환된다.  -->  R에 의한 강제 변환

 

선언시 c(concatenate)함수를 사용하며,  [ ] 안에 인덱스를 적어 필요한 요소를 가져올 수 있다.

(보통의 프로그래밍 언어와 다르게 인덱스가 1부터 시작한다.)

 

 

 

 

 

 

+ - 인덱스는 해당 인덱스의 요소를 삭제한다.

 

 

 

 

 

+ 콜론(:)으로 인덱스 범위를 지정해 값을 가져올 수 있다.

 

 

 

 

 

+ 벡터는 단일차원으로만 사용이 가능하다 (중첩 구조가 불가능하다! 중첩구조를 사용하기 위해서는 리스트를 사용)

 

 

 

 

 

- 콜론(:)을 사용해 쉽게 원하는 범위의 벡터를 선언할 수 있다.

 

 

 

 

 

다음  함수들을 이용해도 쉽게 원하는 범위의 벡터를 선언하거나 벡터의 정보를 확인할 수 있다.

 

 

- seq(시작값, 종료값, 간격)

시작값부터 종료값까지 일정한 간격의 벡터를 선언

 

 

 

 

 

- seq_along( )

주어진 데이터의 개수만큼 1, 2, 3, ... N 까지의 벡터를 반환

 

 

 

 

 

- seq_len( )

주어진 데이터 만큼 1, 2, 3, ... N 까지의 벡터를 반환

 

 

 

 

 

- rep ( )

일정한 패턴을 가지는 벡터를 선언할 수 있다.

 

 

 

 

 

 

- sequence( )

(아래예시 참고)

 

 

 

 

- names( )

벡터 원소에 이름을 부여할 수 있다.

 

 

 

 

 

 

- length( ), NROW( )

벡터의 길이를 반환한다.

 

 

 

 

 

- %in% 연산자

벡터에 포함되어있는 값인지 알려준다.

 

 

 

 

 

- setequal( ) 

두 집합을 비교할 때 사용한다.  (요소의 원자값이 같다면 TRUE를 반환)

 

 

 

 

 

다음글에서 이어서 작성해 보겠습니다.

 

감사합니다.

 


 

 

 

2022년 AI분석을 위한 R통계교육의 수업내용을 정리한 글입니다.

 

공부한 내용을 복습/기록하기 위해 작성한 글이므로 내용에 오류가 있을 수 있습니다.

'R' 카테고리의 다른 글

[R] 고급 통계  (0) 2022.06.30
[R] 기초 통계  (0) 2022.06.29
[R] 모드(mode)와 자료구조  (0) 2022.06.28
[R] 통계의 이해  (0) 2022.06.15
[R] 시작하기 - R, RStudio, jdk 설치 및 설정  (0) 2022.06.15
댓글
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Total
Today
Yesterday