티스토리 뷰
데이터를 수집하고 분석하는 것이 일상인 빅데이터 시대, 데이터의 중요성은 나날히 커져가는 듯 합니다.
이번글에서는 데이터의 기초, 데이터의 형태에 대해서 작성해 보도록 하겠습니다.
데이터는 형태에 따라 정형/비정형/반정형 데이터로 분류할 수 있습니다.
정형데이터 (Structured Data)
정형 데이터는 미리 정해 놓은 형식과 구조, 즉 규칙(Rule)에 따라 저장되었으며,
그 의미가 파악하기 쉬운 데이터들을 말합니다.
예로 이름, 나이, 주민등록번호와 같은 짧은 숫자나 문자를 들 수 있습니다.
이름 그대로 정형화 되어있기 때문에 쉽게 검색 및 선택, 갱신 등의 연산을 수행할 수 있습니다.
비정형 데이터 (Unstructured Data)
비정형 데이터는 동영상 파일, 오디오 파일, 사진, 보고서 등과 같이 정형화되지 않은 데이터를 말합니다.
정해진 규칙이 없기에 값의 의미를 쉽게 파악하기 힘들고 내용에 대한 질의 처리가 어렵습니다.
즉, 정형 데이터와 반대로 형태가 없고 연산할 수 없는 데이터들 입니다.
이러한 특징때문에 그동안 의미를 분석하기 힘들었던 비정형 데이터들은
현대에 분석이 가능해지면서 빅데이터 시대를 여는데 한몫을 했습니다.
SNS를 통해 생성된 대량의 비정형 데이터들은 미래 시장 예측을 위해 활용되고 있습니다.
반정형 데이터 (Semi-Structured Data)
반정형 데이터는 정형 구조의 데이터 모델을 준수하지 않는 정형 데이터의 한 형태입니다.
정형 데이터와 같이 테이블의 행과 열로 구조화되어 있지는 않으나 스키마 및 메타데이터 특성을 가지고 있으며,
주로 XML, HTML, JSON 등의 파일 형태로 저장됩니다.
반(Semi)이 붙은 이름과 같이 고정된 양식은 없으나
어느 정도 구조가 정해져 있는 데이터들을 뜻한다고 이해하면 될 것 같습니다.
[참고자료]
감사합니다.
공부한 내용을 복습/기록하기 위해 작성한 글이므로 내용에 오류가 있을 수 있습니다.
'DB' 카테고리의 다른 글
[DB] 트랜잭션(Transaction)과 트랜잭션 격리 수준(Isolation Level) (0) | 2023.11.07 |
---|---|
[DB] ORM(Object Relational Mapping)이란, 객체-관계 불일치 (0) | 2023.10.31 |
[DB] MySQL 설치하기 (0) | 2022.02.03 |
[DB]SQL Injection 이란? (0) | 2022.01.28 |
[Oracle DB] BLOB 이란 (feat. LOB타입) (0) | 2022.01.27 |