티스토리 뷰

 

 

 

 

데이터를 수집하고 분석하는 것이 일상인 빅데이터 시대, 데이터의 중요성은 나날히 커져가는 듯 합니다.

이번글에서는 데이터의 기초, 데이터의 형태에 대해서 작성해 보도록 하겠습니다.

 

 


 

 

 

데이터는 형태에 따라 정형/비정형/반정형 데이터로 분류할 수 있습니다.

 

 

 

정형데이터 (Structured Data)

 

정형 데이터는 미리 정해 놓은 형식과 구조, 즉 규칙(Rule)에 따라 저장되었으며,

그 의미가 파악하기 쉬운 데이터들을 말합니다.

 

예로 이름, 나이, 주민등록번호와 같은 짧은 숫자나 문자를 들 수 있습니다.

이름 그대로 정형화 되어있기 때문에 쉽게 검색 및 선택, 갱신 등의 연산을 수행할 수 있습니다.

 

 

 

 

 

비정형 데이터 (Unstructured Data)

 

비정형 데이터는 동영상 파일, 오디오 파일, 사진, 보고서 등과 같이 정형화되지 않은 데이터를 말합니다.

정해진 규칙이 없기에 값의 의미를 쉽게 파악하기 힘들고 내용에 대한 질의 처리가 어렵습니다.

즉, 정형 데이터와 반대로 형태가 없고 연산할 수 없는 데이터들 입니다.

 

이러한 특징때문에 그동안 의미를 분석하기 힘들었던 비정형 데이터들은

현대에 분석이 가능해지면서 빅데이터 시대를 여는데 한몫을 했습니다.

 

SNS를 통해 생성된 대량의 비정형 데이터들은 미래 시장 예측을 위해 활용되고 있습니다.

 

 

 

 

 

반정형 데이터 (Semi-Structured Data)

 

반정형 데이터는 정형 구조의 데이터 모델을 준수하지 않는 정형 데이터의 한 형태입니다.

정형 데이터와 같이 테이블의 행과 열로 구조화되어 있지는 않으나 스키마 및 메타데이터 특성을 가지고 있으며,

주로 XML, HTML, JSON 등의 파일 형태로 저장됩니다. 

 


반(Semi)이 붙은 이름과 같이 고정된 양식은 없으나

어느 정도 구조가 정해져 있는 데이터들을 뜻한다고 이해하면 될 것 같습니다.




 

 

 

 

[참고자료]

 

 

정형 데이터 비정형 데이터, 반정형 데이터 개념

빅데이터 시대에는 방대한 양의 데이터가 아주 빠른 속도로 생성되므로 데이터를 수집하고 분석하는 과정이...

blog.naver.com

 

 

정형, 비정형, 반정형 데이터란?

데이터를 공부하거나 컴퓨터 자격증을 공부하면서 나오는 단어 중에 정형/비정형/반정형 데이터라는 것이 자주 등장하게 된다. 정형 데이터와 비정형 데이터의 차이점은 알겠지만 반정형이라

needjarvis.tistory.com

 

 

 

감사합니다.

 


 

 

공부한 내용을 복습/기록하기 위해 작성한 글이므로 내용에 오류가 있을 수 있습니다.

 

댓글
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
Total
Today
Yesterday