빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ②

    1. 빅데이터의 6단계 분석 프로세스

    - 데이터 수집 -> 데이터 저장 -> 데이터 처리 -> 데이터 분석 -> 데이터 시각화 -> 데이터 이용 -> 데이터 폐기

    1) 문제인식

     

    2) 관련 연구조사

     

    3) 모형화

    - 변수 선정 단계

    - 복잡한 현상을 문제의 본질과 관련되는 제어 가능한 변수들로 추려 단순화

    - 많은 변수들이 포함된 문제로부터 그 특성을 잘 나타내는 결정적인 변수를 추림

    - 제어 가능한 변수들을 선정하는 단계

     

    4) 자료수집

     

    5) 자료분석

     

    6) 분석결과 제시

     

    2. 데이터베이스의 주요특징(ACID)

    1) 원자성(Atomicty)

    - 트랜잭션과 관련된 작업들이 부분적으로 실행되다가 중단되지 않은 것을 보장하는 능력

    - 즉, 트랜잭션과 관련된 작업들이 모두 실행되던지 실행되지 않던지 하는 능력

     

    2) 일관성(Consistency)

    - 언제나 일관성 있는 데이터베이스 상태로 유지

     

    3) 고립성(Isolation)

    - 트랜잭션 수행 시 다른 트랜잭션의 연산 작업이 끼어들지 못하도록 보장하는 능력

     

    4) 지속성(Durability)

    - 성공적으로 수행된 트랜잭션은 영원히 반영되어야 함

     

    3. 비즈니스 모델

    - 기업이 수익을 얻기 위한 일련의 활동, 수익모델

    - 비즈니스 모델의 적합성을 판별하는 기준으로 가장 중요한 기준은 공공성보다 수익성이다.

    4. NCS에서 정의하고 있는 빅데이터 분석 절차

    - 도메인 이슈 도출 -> 분석목표 수립 -> 프로젝트 계획 수립 -> 보유 데이터 자산 확인 -> 분석 결과 시각화

    - 도메인 이슈 도출 단계에서 빅데이터 요건 정의서 작성

    - 분석목표 수립 단계에서 빅데이터 분석목표정의서 작성

     

    5. 빅데이터 분석 프로젝트 수행을 위한 소요 비용

    - 수행 인력에 대한 인건비

    - 하드웨어 구입 및 사용 비용

    - 소프트웨어 사용 비용

    - 성과측정비 및 자문료

     

    6. 빅데이터 요건 정의서

    - 빅데이터 분석 과정 중 도메인 이슈 도출 과정에서 작성되는 문서

    - 데이터 분석에 대한 기획 의도와 빅데이터 분석을 통해 개선되는 부분을 작성하는 문서

     

    7. 빅데이터 분석목표정의서에서 작성되는 내용

    - 분석목적, 우선순위, 접근 방안 등의 분석 기본정보

    - 정성 및 정량적 성과측정 방법

    - 실시간, 텍스트 데이터 분석 수행 여부 등의 분석 타당성에 대한 검토 의견

     

    8. 사회조사분석의 과정에서 지켜져야 할 기준

    - 분석가의 연구 가치 중립

    - 설문 대상자의 사전 동의

    - 설문 대상자의 비밀보장

     

    9. 사회조사 분석 시 측정도구의 타당도 평가 방법

    1) 개념 타당도

    - 측정하고자 하는 개념이 실제로 적절하게 측정되었는가를 의미

     

    2) 내용 타당도

    - 점수 또는 척도가 일반화하려고 하는 개념을 어느 정도 잘 반영해 주는 가를 의미

     

    3) Cronbach Alpha(크론바하 알파)값을 이용하여 설문 문항 답변에 대한 신뢰도 평가

    - 신뢰도 계수 또는 Coefficient Alpha라고도 하며 일관성이 있는지 측정

    - 크론바하 알파는 변수들끼리 상관관계가 클수록 항목별 분산들의 차이가 작을수록 크게 계산

     

    10. 프로젝트 계획 수립

    - 빅데이터 분석 프로세스 과정 중에서 작업분할구조도(WBS, Work Breakdown Structure0를 작성하는 단계

     

    11. 빅데이터 플랫폼

    - 다양한 데이터 소스에서 수집한 데이터를 분석, 처리하여 지식을 추출하고, 이를 기반으로 지능화된 서비스를 제공하는 데 필요한 IT 환경

     

    12. 빅데이터 분석 프로젝트 수행을 위한 로드맵 수행 과정

    - 프로젝트 소요 비용 배분 -> 프로젝트 WBS 수립 -> 프로젝트 업무 분장 계획 및 배분

     

    13. 빅데이터 서비스 모델

    - 빅데이터 서비스 제공자(또는 유무선 통신 서비스 제공자)가 단말/장비 공급자와 소프트웨어 공급자로부터 구매한 인프라를 이용하여 고객에게 데이터 처리, 데이터 및 정보 제공, 솔루션 제공, 교육 및 컨설팅 제공 등의 서비스를 제공하는 방법

     

    14. 내부데이터

    - 내부 조직 간 협의를 통한 데이터 수집

    - 주로 수지이 용이한 정형 데이터

    -  비용 및 난이도는 외부 데이터 수집보다 유리

    - 서비스의 수명 주기 관리 용이

    - 서비스 시스템(ERP, CRM, KMD, 포털, 원장정보시스템, 인증과금시스템, 거래시스템 등)

    - 네트워크, VOC 데이터 등

     

    15. 외부데이터

    - 외부 조직과 협의, 데이터 구매, 웹상의 오픈 데이터 등

    - 주로 수집이 어려운 비정형 데이터

    - 비용 및 난이도가 높음

    - 외부 환경에 대한 통제가 어려움에 따른 서비스 관리정책 요구

    - 소셜 데이터, 기관, M2M 센서데이터 등

     

    16. HTML

    - Hypertext Markup Language의 약어로, 웹 페이지를 만들 때 사용되는 문서 형식

    - 텍스트, 태그, 스크립트로 구성

     

    17. XML

    - eXtensible Markup Language의 약어로, 확장 가능한 마크업 언어

    - 데이터를 표현하기 위해서 태그 사용

    - Element, 속성, 처리명령, 엔티티, 주석, CDATA 섹션으로 구성

    18. JSON

    - Javascript Object Notation의 약어로, 자바스크립트를 위해 객체 형식으로 자료 표현

    - 경량의 데이터 교환 방식

     

    19. Python

    - 추상화가 높은 고급언어, 객체 개념 사용, 스크립트 작성에 용이

    - 플랫폼 독립적인 인터프리터 언어

    - 가독성이 뛰어나며, 동적 타이핑, 높은 확장성과 확장 및 내장 기능을 갖고 있음

     

    20. Ruby

    - 동적 객체 지향 스크립트 프로그래밍 언어

    - 간결성과 객체지향 언어이며, 유연성과 블록기능을 갖고 있음

     

    21. 웹마이닝

    - 데이터 수집 프로그램을 이용하여 웹페이지로부터 데이터를 수집하고 분석하는 방법

    - 인터넷을 이용한 웹서비스의 다양한 패턴(특징)을 발견하기 위해 사용되는 기술

    - 웹로그 분석, 웹콘텐츠 마이닝, 웹구조 마이닝 등

     

    22. 데이터 품질 점검 항목

    1) 데이터 분량

    - 테이블 내 필요 칼럼별 확인

    - 칼럼별 데이터 축적 기간 및 분량

     

    2) 데이터 완전성

    - 데이터 내 필요한 대상과 속성을 포함하는지 확인

    - 데이터 누락 또는 결측값의 비율 확인

     

    3) 데이터 일관성

    - 데이터 속성 간 관계

    - 데이터 상위/하위 간 관계에서의 값의 일치

    - 데이터 유형과 값의 일치

     

    4) 데이터 정확성

    - 데이터의 편향과 분산

    - 데이터의 편향이 큰 경우 측정값이 지속적인 영향을 받는 경우로 판단

    - 분산이 큰 경우는 표본의 대표성이 낮을 수 있다는 가능성 고려

     

    23. 데이터 수집 시 고려사항

    1) 내부 데이터

    - 내부 시스템에 원천 데이터 존재

    - 조직 내부의 협의에 따른 수집

    - 데이터 수집 시 기술적 제약 적음

    - 원활한 의사소통을 통한 데이터 수집 가능

     

    2) 외부 데이터

    - 외부 시스템에 원천 데이터 존재

    - 상호 협약에 의한 수집

    - 데이터 수집 시 기술적 제약 많음

    - 의사소통의 어려움으로 데이터 수집이 어려움

     

    24. 데이터 저장

    1) 데이터 저장 시스템

    - 데이터 유형을 고려하여 저장 시스템 선정

    - 정형 데이터 : RDB 시스템에 저장

    - 반정형 데이터 : RDB나 NoSQL 시스템에 저장

    - 비정형 데이터 : NoSQL이나 분산파일 시스템에 저장

     

    25. 데이터웨어하우스

    - 기업의 의사결정 과정을 지원하기 위한 주제 중심적이고 통합적이며, 시간성을 가지는 비휘발성 자료의 집합

    - 기업 내의 의사결정 지원 애플리케이션들을 위한 정보를 제공하는 하나의 통합된 데이터 저장 공간

     

    26. 데이터 마트

    - 전사적으로 구축된 데이터웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 데이터웨어하우스

    - 기업 내 또는 기업들 사이의 이질적인 시스템을 효율적으로 연계하여 메시지를 통합 처리하기 위해 EAI 기술 활용

     

    27. 분산파일시스템

    - 빅데이터를 확장 가능한 분산파일 형태로 저장하는 방법

    - Apache HDFS, Google GFS 등이 있음

     

    28. 데이터베이스 용어

    1) 속성(Attribute)

    - 테이블에서 열을 나타내는 말

    - 필드와 같음

     

    2) 튜플(Tuple)

    - 테이블에서 행을 나타내는 말 

    - 레코드와 같음

    3) 도메인(Domain)

    - 하나의 속성이 취할 수 있는 값의 집합

     

    4) 차수(Degree)

    - 속성의 수

     

    5) 카디널리티(Cardinality)

    - 튜플의 수

     

    29. 분산 컴퓨팅

    - 단일 시스템의 성능 한계

    - 단일 시스템의 성능 향상을 위한 비용증가로 효율성 감소

    - 네트워크로 연결된 시스템에 여러 장치를 분산하여 처리

    - 대형 시스템의 복잡성을 줄이고 다양한 보안 정책 가능

    - 각 시스템의 개별적 독립성 제공

     

    30. 병렬 컴퓨팅

    - 여러 개의 복잡한 연산을 순차적이 아닌 병렬적으로 동시 처리

    - 서로 독립적 결과를 얻는 병렬적 처리 단계로 변환하여 문제 해결

    - 동시에 수행되어도 상관없는 처리 단계들로 구성

    - 어떤 단계의 결과가 다른 단계에 영향을 미치지 않음

    - 병렬화가 가능한 수준만큼 처리시간 단축 가능

    - 특정 데이터가 다른 데이터에 영향을 주지 않는 경우 적용

    - 데이터는 독립적으로 저장, 처리, 분석될 수 있음

    - 병렬컴퓨팅을 통해 한 번에 많은 데이터 처리 가능

     

    31. 병렬화

    - 동시에 처리되는 대상을 찾아 구분하는 작업

     

    32. 클라우드 컴퓨팅

    - 인터넷(웹) 기반의 컴퓨팅 기술

    - 유틸리티 데이터 서버에 프로그램을 두고 필요시 컴퓨터 등에 불러와서 사용

    - 인터넷 IT자원(소프트웨어, 플랫폼, 인프라 등) 사용

    - IT 자원의 소유가 아니라 대여의 개념

    - 보다 많은 IT 자원을 이요할 수 있는 서비스 제공

    - 문서 작성 및 저장장치를 통한 데이터 저장 가능

     

    함께 보면 좋은 글

    2021.03.25 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ①

    2021.03.24 - [IT정보] - 빅데이터(Big Data)란?

    2021.03.24 - [IT정보] - 국내 챗봇 성공 사례 6가지와, 챗봇이 필요한 이유

    2021.03.24 - [IT프로그래밍] - 잘 만들어진 오픈소스 챗봇 KoChat !!

    2021.03.23 - [IT프로그래밍] - 챗봇 만들기

    댓글

    Designed by JB FACTORY