빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ④
- IT정보
- 2021. 3. 26.
1. 결측치(Missing Value)
- 측정된 샘플에서 누락된 변숫값
- 결측치 처리 방법은 샘플 제거, 해당 변수 제거, 결측치 무시, 결측치 추정(평균, 중앙값 등의 통계량 또는 회귀분석을 통한 값 추정)
2. 잡음(Noise)
- 데이터를 측정하는 데 있어서 여러 가지 이유로 개입되는 임의적인 요소로 변숫값을 본래의 참값에서 벗어나게 하는 오류
- 잡음을 제거하기 위해 구간화, 군집화, 회귀모형 변환 등의 방법 사용
3. 구간화
- 연속 변수를 다수의 작은 구간으로 나누고, 동일한 구간에 속한 변숫값들을 하나의 변수값으로 변환하는 방법
4. 군집화
- 데이터 집합을 수 개의 군집으로 묶은 뒤 동일 군집의 데이터들을 그것의 대푯값으로 치환하는 방법
5. 레거시 데이터(Legacy Data)
- 과거의 데이터를 말함
6. 빅데이터 정제 처리
1) 데이터 변환
- 데이터 유형을 변환하거나 데이터 분석에 용이한 형태로 변환
- ETL을 통한 동일한 형태 변환
2) 데이터 교정
- 결측치 변환, 이상치 제거, 노이즈 데이터 교정
- 비정형 데이터 수집 시 반드시 수행
3) 데이터 통합
- 용이한 데이터 분석을 위한 기존 유사 데이터와의 연계 또는 통합
7. 데이터 세분화(Data Segmentation)
1) 데이터 세분화
- 데이터를 유의미한 기준에 따라 나누는 작업
- 정형 데이터는 큰 문제가 없으나 반정형, 비정형 데이터는 데이터 형식 변환 기준에 따라 세분화 작업 요구
2) 데이터 유형별 세분화
- 비정형 데이터는 정형 데이터로 변환되어 분석
3) 빅데이터 전처리
- 수집 데이터에 대한 필터링, 데이터 유형 변환, 정제 등의 작업을 수행하는 단계
- 전처리 과정을 거친 후 데이터 저장소에 적재
4) 빅데이터 후처리
- 저장된 데이터를 분석하기 전에 분석에 용이하도록 가공하는 작업
- 변환, 통합, 축소등의 과정
- 변환 : 다양한 형식으로 수집도니 데이터를 분석에 용이하도록 일관성 있는 형식으로 변환하는 과정으로 평활화, 집계, 일반화, 정규화, 속성생성 등의 작업 수행
8. 이상치 검출 방법
1) Variance
- 정규분포에서 97.5% 이상 2.5% 이하에 포함되는 값
2) Likelihood
- 베이즈 정리에 의해 데이터세트가 가지는 두가지 샘플에 대한 발생 확률로 판별
3) Nearest - neighbor
- 모든 데이터 쌍의 거리를 계산하여 검출
4) Density
- 측정값의 LOF를 계산하여 값이 가장 큰 데이터를 이상값으로 추정
- 밀도 있는 데이터세트로부터 먼 데이터가 이상값
5) Clustering
- 데이터를 여러 클러스터로 구분한 후 작은 크기의 클러스터나 클러스터 사이의 거리를 계산하여 먼 경우 해당 클로스터에 속한 값을 이상치로 판별
함께 보면 좋은 글
2021.03.25 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ③
2021.03.25 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ②
2021.03.25 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ①
'IT정보' 카테고리의 다른 글
빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ② (0) | 2021.03.26 |
---|---|
빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ① (0) | 2021.03.26 |
빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ③ (0) | 2021.03.25 |
빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ② (0) | 2021.03.25 |
빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ① (0) | 2021.03.25 |