데이터의 탐재성
데이터
- 현실 세계에서 관찰이나 측정을 통해 수집된 가공되지 않은 사실
- 그 자체로는 의미를 충분히 가지지 않음. 해석과 맥락이 부여될 때 가치가 발생
- 대량 수집이 가능
- 컴퓨터가 처리하기에 적합한 구조
DIKW 모델
- 데이터가 정보, 지식, 지혜로 발전하는 과정
- 데이터: 단순한 사실
- 정보: 맥락이 부여된 데이터
- 지식: 패턴과 규칙을 이해한 상태
- 지혜: 지식을 활용하여 합리적인 판단과 의사결정을 내리는 단계
데이터의 분류
- 정형 데이터: 고정된 스키마와 행·열 구조
- 반정형 데이터: JSON, XML처럼 유연한 구조
- 비정형 데이터: 텍스트, 이미지, 영상 등 구조가 정해져 있지 않음
- 정량적 데이터: 수치로 계산 가능
- 정성적 데이터: 속성 중심 정보
- 데이터 유형에 따라 저장 방식과 분석 방법이 달라짐
데이터 품질
- 데이터 품질은 분석 결과의 신뢰도를 결정하는 핵심 요소
- 정확성: 데이터가 현실을 얼마나 올바르게 반영하는지를 의미
- 완전성: 필요한 데이터가 빠짐없이 존재하는지 여부이다.
- 일관성: 동일한 데이터가 서로 다른 위치에서도 같은 값을 가지는지 확인하는 것
- 적시성과 유효성은 데이터가 시의적절하며 규칙에 맞는지를 평가