빅데이터분석기사 필기 4과목 요약 - 빅데이터 결과 해석 ①
- IT정보
- 2021. 3. 28.
1. 데이터 검증 절차
1) 데이터 품질
- 정확성
- 완전성
- 적시성
- 일관성
2) 데이터 무결성
- 개체 무결성
- 참조 무결성
- 속성 무결성
- 키 무결성
- 도메인 무결성
- 사용자 정의 무결성
3) 데이터 비식별화
- 가명 처리
- 총계 처리
- 데이터 값 제거
- 범주화
- 데이터 마스킹
2. 데이터 품질
- 데이터 분석의 목적을 달성하고, 최종 사용자의 기대를 만족시키기 위해 데이터가 확보하고 있어야 할 성질
3. 데이터 품질보증
- 데이터 품질검증 계획을 수립하고, 품질검증 지표를 선정하여 품질검증 활동을 함으로 분석목적에 적합한 품질의 데이터를 이용하여 최상의 분석결과를 얻도록 함
4. 수집된 데이터의 효율적인 검증 절차
- 데이터 품질관리 요소 검증 -> 데이터 무결성 검증 -> 데이터 비식별화 조치
5. 적재 데이터 신뢰성 파악
1) 재검사법
- 동일한 대상에 동일한 측정 도구를 서로 상이한 시간에 두 번 측정한 다음 그 결과를 비교
- 재검사에 의한 반복측정을 통해 결과에 대한 상관관계를 구하여 계산된 상관계수로 신뢰도 추정
- 상관계수의 값이 높으면 신뢰도가 높다고 평가
2) 대안법
- 재검사법의 변형
- 동일한 정의 또는 지표들에 대한 측정도구를 두 종류씩 만들어 동일한 측정 시스템에 대해 적용한 데이터를 서로 비교하여 신뢰도 측정
3) 관찰자에 의한 평가
- 관찰의 안정성을 기초로 한ㅛ 신뢰도 측정 방법
- 재검사적 관찰자와 대안적 관찰자에 의한 신뢰도 평가 구분
6. YARN
- 하둡 클러스터 내 자원 관리 플랫폼(자원 동적 공유 관리)
7. 기술적 보안
1) 소프트웨어
- 시큐어 코딩
- 어플리케이션 및 행정업무 소프트웨어 점검
- 접근 통제, 바이러스 침입 대책 수립
2) 네트워크
- 전송 데이터에 대한 보안 수립
- 비인가 접근 방지 대책 수립
8. 관리적 보안
1) 내부 문서
- 작성문서, 자료의 유출, 노출, 변조, 손실 방지
2) 인원 및 조직
- 권한과 책임 부여, 통제 대책 수립
- 참여 인력에 대한 보안서약서 제출
- 보안 교육 실시
3) 정책 및 절차
- 빅데이터 시스템 보안 구현
- 표준화 정책 수립, 보안을 위한 제도적 절차 수립
9. 물리적 보안
1) 컴퓨터 사무기기
- 데이터 변경, 삭제, 노출 방지
- 개인정보 유출 방지
2) 전산 설비
- 전산 설비에 대한 출입 통제
- 설비의 사고, 화재, 장애 방지 대책 수립
10. 데이터 품질 유형
- 정확성
- 완전성
- 일관성
- 유일성
- 유효성
11. 비정형 데이터 품질관리
- 기능성
- 신뢰성
- 사용성
- 효율성
- 이식성
12. 차원 축소 방법
- 주성분 분석
- 독립성 분석
- 특이값 분해
- 요인 분석
- 다차원 척도법
13. 빅데이터 분석 모형을 검증하는 대표적인 방법
- Holdout Cross Validation, k-fold Cross Validation
14. 교차분석 방법
- 적합도 검정 : 관찰도수와 이론에 의한 기대도수 사이에 적합도 여부 검정
- 독립성 검정 : 두 변수 간에 관련성이 있는지를 알아보는 독립성 검정
- 동일성 검정 : k개 부분 모집단의 표본이 c개의 번주로 주어졌을 때, 이들 각 모집단의 분포가 서로 동일한가를 검정
15. 데이터 시각화
- 데이터 분석결과를 사용자가 쉽게 이해할 수 있도록 시각적 수단을 통해 제시하는 것으로 텍스트, 도표, 이미지 등을 이용하여 한눈에 이해할 수 있도록 하는 것
16. 데이터 시각화 3단계
- 구조화 -> 시각화 -> 시각표현
17. 7단계 시각화 프로세스
- 획득 -> 구조화 -> 추출 -> 마이닝 -> 시각화 -> 재정의 -> 상호작용
18. 데이터 변수의 형식에 따른 시각화
- 단변수 : Bar or 파이 그래프등으로 표시
- 이변수 : Scatter plot
- 삼변수 : 산점도 매트릭스
- 다변수 : 평형좌표 plot, 스타 plot, 산점도 매트릭스, 아이콘 등으로 표현
19. 전이학습
- 완료된 학습 모델을 유사 분야에 전이하여 학습시키는 기술
- 적은 데이터에도 학습을 빠르게 하고 예측의 정확도를 높임
20. 선형 신경망
- 가장 간단한 형태의 인공 신경망 분석기법으로서 입력 자료로부터 직접 관측할 수 없는 영역을 예측하고 이로부터 결과를 찾아내는 학습 기법
21. 순환 신경망
- 과거 정보와 현재의 입력값을 결합하는 방법
- 순서를 고려한 학습 모델로서 데이터의 순서가 중요한 시계열 및 언어 처리 분석 등에 활용
22. 생성적 적대 신경망
- 두 개의 네트워크로 구성된 심층 신경망 구조로 하나의 네트워크가 다른 네트워크와 겨루는 구조를 가짐으로 이미지, 음악, 텍스트 등의 모든 분야에서 실제와 비슷한 새로운 창작물을 만들 수 있는 학습 모델 제공
23. 합성곱 신경망
- 주로 시각적 이미지를 분석하는 데 사용되며, 이미지의 특징을 추출하는 필터 역할을 하는 컨볼루션 레이어를 적용하여 효율적으로 고차원의 이미지를 인식하고 분류함
24. 딥러닝 개발 환경
- 텐서플로우
- Caffe
- Theano
- Chainer
- MXNet
- Keras
25. 머신러닝 개발 환경
- GCP
- MS Azure
- 아마존
- IBM Bluemix
- IBM Watson
함께 보면 좋은 글
2021.03.27 - [IT정보] - 빅데이터분석기사 필기 3과목 요약 - 빅데이터 모델링 ②
2021.03.27 - [IT정보] - 빅데이터분석기사 필기 3과목 요약 - 빅데이터 모델링 ①
2021.03.27 - [IT정보] - 빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ③
'IT정보' 카테고리의 다른 글
최신 빅데이터 활용사례 8가지 알아보기 (0) | 2021.03.28 |
---|---|
2021년 빅데이터 활용 사례 10가지, 업계별 추천한다 (0) | 2021.03.28 |
빅데이터분석기사 필기 3과목 요약 - 빅데이터 모델링 ② (0) | 2021.03.27 |
빅데이터분석기사 필기 3과목 요약 - 빅데이터 모델링 ① (0) | 2021.03.27 |
빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ③ (0) | 2021.03.27 |