빅데이터분석기사 필기 4과목 요약 - 빅데이터 결과 해석 ①


    1. 데이터 검증 절차

    1) 데이터 품질

    - 정확성

    - 완전성

    - 적시성

    - 일관성

     

    2) 데이터 무결성

    - 개체 무결성

    - 참조 무결성

    - 속성 무결성

    - 키 무결성

    - 도메인 무결성

    - 사용자 정의 무결성

     

    3) 데이터 비식별화

    - 가명 처리

    - 총계 처리

    - 데이터 값 제거

    - 범주화

    - 데이터 마스킹

     

    2. 데이터 품질

    - 데이터 분석의 목적을 달성하고, 최종 사용자의 기대를 만족시키기 위해 데이터가 확보하고 있어야 할 성질

     

    3. 데이터 품질보증

    - 데이터 품질검증 계획을 수립하고, 품질검증 지표를 선정하여 품질검증 활동을 함으로 분석목적에 적합한  품질의 데이터를 이용하여 최상의 분석결과를 얻도록 함

     

    4. 수집된 데이터의 효율적인 검증 절차

    - 데이터 품질관리 요소 검증 -> 데이터 무결성 검증 -> 데이터 비식별화 조치

     

    5. 적재 데이터 신뢰성 파악

    1) 재검사법

    - 동일한 대상에 동일한 측정 도구를 서로 상이한 시간에 두 번 측정한 다음 그 결과를 비교

    - 재검사에 의한 반복측정을 통해 결과에 대한 상관관계를 구하여 계산된 상관계수로 신뢰도 추정

    - 상관계수의 값이 높으면 신뢰도가 높다고 평가

     

    2) 대안법

    - 재검사법의 변형

    - 동일한 정의 또는 지표들에 대한 측정도구를 두 종류씩 만들어 동일한 측정 시스템에 대해 적용한 데이터를 서로 비교하여 신뢰도 측정

     

    3) 관찰자에 의한 평가

    - 관찰의 안정성을 기초로 한ㅛ 신뢰도 측정 방법

    - 재검사적 관찰자와 대안적 관찰자에 의한 신뢰도 평가 구분

     

    6. YARN

    - 하둡 클러스터 내 자원 관리 플랫폼(자원 동적 공유 관리)

     

    7. 기술적 보안

    1) 소프트웨어

    - 시큐어 코딩

    - 어플리케이션 및 행정업무 소프트웨어 점검

    - 접근 통제, 바이러스 침입 대책 수립

     

    2) 네트워크

    - 전송 데이터에 대한 보안 수립

    - 비인가 접근 방지 대책 수립

     

    8. 관리적 보안

    1) 내부 문서

    - 작성문서, 자료의 유출, 노출, 변조, 손실 방지

     

    2) 인원 및 조직

    - 권한과 책임 부여, 통제 대책 수립

    - 참여 인력에 대한 보안서약서 제출

    - 보안 교육 실시

     

    3) 정책 및 절차

    - 빅데이터 시스템 보안 구현

    - 표준화 정책 수립, 보안을 위한 제도적 절차 수립

     

    9. 물리적 보안

    1) 컴퓨터 사무기기

    - 데이터 변경, 삭제, 노출 방지

    - 개인정보 유출 방지

    2) 전산 설비

    - 전산 설비에 대한 출입 통제

    - 설비의 사고, 화재, 장애 방지 대책 수립

     

    10. 데이터 품질 유형

    - 정확성

    - 완전성

    - 일관성

    - 유일성

    - 유효성

     

    11. 비정형 데이터 품질관리

    - 기능성

    - 신뢰성

    - 사용성

    - 효율성

    - 이식성

     

    12. 차원 축소 방법

    - 주성분 분석

    - 독립성 분석

    - 특이값 분해

    - 요인 분석

    - 다차원 척도법

     

    13. 빅데이터 분석 모형을 검증하는 대표적인 방법

    - Holdout Cross Validation, k-fold Cross Validation

     

    14. 교차분석 방법

    - 적합도 검정 : 관찰도수와 이론에 의한 기대도수 사이에 적합도 여부 검정

    - 독립성 검정 : 두 변수 간에 관련성이 있는지를 알아보는 독립성 검정

    - 동일성 검정 : k개 부분 모집단의 표본이 c개의 번주로 주어졌을 때, 이들 각 모집단의 분포가 서로 동일한가를 검정

     

    15. 데이터 시각화

    - 데이터 분석결과를 사용자가 쉽게 이해할 수 있도록 시각적 수단을 통해 제시하는 것으로 텍스트, 도표, 이미지 등을 이용하여 한눈에 이해할 수 있도록 하는 것

     

    16. 데이터 시각화 3단계

    - 구조화 -> 시각화 -> 시각표현

     

    17. 7단계 시각화 프로세스

    - 획득 -> 구조화 -> 추출 -> 마이닝 -> 시각화 -> 재정의 -> 상호작용

     

    18. 데이터 변수의 형식에 따른 시각화

    - 단변수 : Bar or 파이 그래프등으로 표시

    - 이변수 : Scatter plot

    - 삼변수 : 산점도 매트릭스

    - 다변수 : 평형좌표 plot, 스타 plot, 산점도 매트릭스, 아이콘 등으로 표현

     

    19. 전이학습

    - 완료된 학습 모델을 유사 분야에 전이하여 학습시키는 기술

    - 적은 데이터에도 학습을 빠르게 하고 예측의 정확도를 높임

     

    20. 선형 신경망

    - 가장 간단한 형태의 인공 신경망 분석기법으로서 입력 자료로부터 직접 관측할 수 없는 영역을 예측하고 이로부터 결과를 찾아내는 학습 기법

     

    21. 순환 신경망

    - 과거 정보와 현재의 입력값을 결합하는 방법

    - 순서를 고려한 학습 모델로서 데이터의 순서가 중요한 시계열 및 언어 처리 분석 등에 활용

     

    22. 생성적 적대 신경망

    - 두 개의 네트워크로 구성된 심층 신경망 구조로 하나의 네트워크가 다른 네트워크와 겨루는 구조를 가짐으로 이미지, 음악, 텍스트 등의 모든 분야에서 실제와 비슷한 새로운 창작물을 만들 수 있는 학습 모델 제공

     

    23. 합성곱 신경망

    - 주로 시각적 이미지를 분석하는 데 사용되며, 이미지의 특징을 추출하는 필터 역할을 하는 컨볼루션 레이어를 적용하여 효율적으로 고차원의 이미지를 인식하고 분류함

     

    24. 딥러닝 개발 환경

    - 텐서플로우

    - Caffe

    - Theano

    - Chainer

    - MXNet

    - Keras

     

    25. 머신러닝 개발 환경

    - GCP

    - MS Azure

    - 아마존

    - IBM Bluemix

    - IBM Watson

     

    함께 보면 좋은 글

    2021.03.27 - [IT정보] - 빅데이터분석기사 필기 3과목 요약 - 빅데이터 모델링 ②

    2021.03.27 - [IT정보] - 빅데이터분석기사 필기 3과목 요약 - 빅데이터 모델링 ①

    2021.03.27 - [IT정보] - 빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ③

    2021.03.26 - [IT정보] - 빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ②

    2021.03.26 - [IT정보] - 빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ①

    댓글

    Designed by JB FACTORY