빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ②
- IT정보
- 2021. 3. 25.
1. 빅데이터의 6단계 분석 프로세스
- 데이터 수집 -> 데이터 저장 -> 데이터 처리 -> 데이터 분석 -> 데이터 시각화 -> 데이터 이용 -> 데이터 폐기
1) 문제인식
2) 관련 연구조사
3) 모형화
- 변수 선정 단계
- 복잡한 현상을 문제의 본질과 관련되는 제어 가능한 변수들로 추려 단순화
- 많은 변수들이 포함된 문제로부터 그 특성을 잘 나타내는 결정적인 변수를 추림
- 제어 가능한 변수들을 선정하는 단계
4) 자료수집
5) 자료분석
6) 분석결과 제시
2. 데이터베이스의 주요특징(ACID)
1) 원자성(Atomicty)
- 트랜잭션과 관련된 작업들이 부분적으로 실행되다가 중단되지 않은 것을 보장하는 능력
- 즉, 트랜잭션과 관련된 작업들이 모두 실행되던지 실행되지 않던지 하는 능력
2) 일관성(Consistency)
- 언제나 일관성 있는 데이터베이스 상태로 유지
3) 고립성(Isolation)
- 트랜잭션 수행 시 다른 트랜잭션의 연산 작업이 끼어들지 못하도록 보장하는 능력
4) 지속성(Durability)
- 성공적으로 수행된 트랜잭션은 영원히 반영되어야 함
3. 비즈니스 모델
- 기업이 수익을 얻기 위한 일련의 활동, 수익모델
- 비즈니스 모델의 적합성을 판별하는 기준으로 가장 중요한 기준은 공공성보다 수익성이다.
4. NCS에서 정의하고 있는 빅데이터 분석 절차
- 도메인 이슈 도출 -> 분석목표 수립 -> 프로젝트 계획 수립 -> 보유 데이터 자산 확인 -> 분석 결과 시각화
- 도메인 이슈 도출 단계에서 빅데이터 요건 정의서 작성
- 분석목표 수립 단계에서 빅데이터 분석목표정의서 작성
5. 빅데이터 분석 프로젝트 수행을 위한 소요 비용
- 수행 인력에 대한 인건비
- 하드웨어 구입 및 사용 비용
- 소프트웨어 사용 비용
- 성과측정비 및 자문료
6. 빅데이터 요건 정의서
- 빅데이터 분석 과정 중 도메인 이슈 도출 과정에서 작성되는 문서
- 데이터 분석에 대한 기획 의도와 빅데이터 분석을 통해 개선되는 부분을 작성하는 문서
7. 빅데이터 분석목표정의서에서 작성되는 내용
- 분석목적, 우선순위, 접근 방안 등의 분석 기본정보
- 정성 및 정량적 성과측정 방법
- 실시간, 텍스트 데이터 분석 수행 여부 등의 분석 타당성에 대한 검토 의견
8. 사회조사분석의 과정에서 지켜져야 할 기준
- 분석가의 연구 가치 중립
- 설문 대상자의 사전 동의
- 설문 대상자의 비밀보장
9. 사회조사 분석 시 측정도구의 타당도 평가 방법
1) 개념 타당도
- 측정하고자 하는 개념이 실제로 적절하게 측정되었는가를 의미
2) 내용 타당도
- 점수 또는 척도가 일반화하려고 하는 개념을 어느 정도 잘 반영해 주는 가를 의미
3) Cronbach Alpha(크론바하 알파)값을 이용하여 설문 문항 답변에 대한 신뢰도 평가
- 신뢰도 계수 또는 Coefficient Alpha라고도 하며 일관성이 있는지 측정
- 크론바하 알파는 변수들끼리 상관관계가 클수록 항목별 분산들의 차이가 작을수록 크게 계산
10. 프로젝트 계획 수립
- 빅데이터 분석 프로세스 과정 중에서 작업분할구조도(WBS, Work Breakdown Structure0를 작성하는 단계
11. 빅데이터 플랫폼
- 다양한 데이터 소스에서 수집한 데이터를 분석, 처리하여 지식을 추출하고, 이를 기반으로 지능화된 서비스를 제공하는 데 필요한 IT 환경
12. 빅데이터 분석 프로젝트 수행을 위한 로드맵 수행 과정
- 프로젝트 소요 비용 배분 -> 프로젝트 WBS 수립 -> 프로젝트 업무 분장 계획 및 배분
13. 빅데이터 서비스 모델
- 빅데이터 서비스 제공자(또는 유무선 통신 서비스 제공자)가 단말/장비 공급자와 소프트웨어 공급자로부터 구매한 인프라를 이용하여 고객에게 데이터 처리, 데이터 및 정보 제공, 솔루션 제공, 교육 및 컨설팅 제공 등의 서비스를 제공하는 방법
14. 내부데이터
- 내부 조직 간 협의를 통한 데이터 수집
- 주로 수지이 용이한 정형 데이터
- 비용 및 난이도는 외부 데이터 수집보다 유리
- 서비스의 수명 주기 관리 용이
- 서비스 시스템(ERP, CRM, KMD, 포털, 원장정보시스템, 인증과금시스템, 거래시스템 등)
- 네트워크, VOC 데이터 등
15. 외부데이터
- 외부 조직과 협의, 데이터 구매, 웹상의 오픈 데이터 등
- 주로 수집이 어려운 비정형 데이터
- 비용 및 난이도가 높음
- 외부 환경에 대한 통제가 어려움에 따른 서비스 관리정책 요구
- 소셜 데이터, 기관, M2M 센서데이터 등
16. HTML
- Hypertext Markup Language의 약어로, 웹 페이지를 만들 때 사용되는 문서 형식
- 텍스트, 태그, 스크립트로 구성
17. XML
- eXtensible Markup Language의 약어로, 확장 가능한 마크업 언어
- 데이터를 표현하기 위해서 태그 사용
- Element, 속성, 처리명령, 엔티티, 주석, CDATA 섹션으로 구성
18. JSON
- Javascript Object Notation의 약어로, 자바스크립트를 위해 객체 형식으로 자료 표현
- 경량의 데이터 교환 방식
19. Python
- 추상화가 높은 고급언어, 객체 개념 사용, 스크립트 작성에 용이
- 플랫폼 독립적인 인터프리터 언어
- 가독성이 뛰어나며, 동적 타이핑, 높은 확장성과 확장 및 내장 기능을 갖고 있음
20. Ruby
- 동적 객체 지향 스크립트 프로그래밍 언어
- 간결성과 객체지향 언어이며, 유연성과 블록기능을 갖고 있음
21. 웹마이닝
- 데이터 수집 프로그램을 이용하여 웹페이지로부터 데이터를 수집하고 분석하는 방법
- 인터넷을 이용한 웹서비스의 다양한 패턴(특징)을 발견하기 위해 사용되는 기술
- 웹로그 분석, 웹콘텐츠 마이닝, 웹구조 마이닝 등
22. 데이터 품질 점검 항목
1) 데이터 분량
- 테이블 내 필요 칼럼별 확인
- 칼럼별 데이터 축적 기간 및 분량
2) 데이터 완전성
- 데이터 내 필요한 대상과 속성을 포함하는지 확인
- 데이터 누락 또는 결측값의 비율 확인
3) 데이터 일관성
- 데이터 속성 간 관계
- 데이터 상위/하위 간 관계에서의 값의 일치
- 데이터 유형과 값의 일치
4) 데이터 정확성
- 데이터의 편향과 분산
- 데이터의 편향이 큰 경우 측정값이 지속적인 영향을 받는 경우로 판단
- 분산이 큰 경우는 표본의 대표성이 낮을 수 있다는 가능성 고려
23. 데이터 수집 시 고려사항
1) 내부 데이터
- 내부 시스템에 원천 데이터 존재
- 조직 내부의 협의에 따른 수집
- 데이터 수집 시 기술적 제약 적음
- 원활한 의사소통을 통한 데이터 수집 가능
2) 외부 데이터
- 외부 시스템에 원천 데이터 존재
- 상호 협약에 의한 수집
- 데이터 수집 시 기술적 제약 많음
- 의사소통의 어려움으로 데이터 수집이 어려움
24. 데이터 저장
1) 데이터 저장 시스템
- 데이터 유형을 고려하여 저장 시스템 선정
- 정형 데이터 : RDB 시스템에 저장
- 반정형 데이터 : RDB나 NoSQL 시스템에 저장
- 비정형 데이터 : NoSQL이나 분산파일 시스템에 저장
25. 데이터웨어하우스
- 기업의 의사결정 과정을 지원하기 위한 주제 중심적이고 통합적이며, 시간성을 가지는 비휘발성 자료의 집합
- 기업 내의 의사결정 지원 애플리케이션들을 위한 정보를 제공하는 하나의 통합된 데이터 저장 공간
26. 데이터 마트
- 전사적으로 구축된 데이터웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 데이터웨어하우스
- 기업 내 또는 기업들 사이의 이질적인 시스템을 효율적으로 연계하여 메시지를 통합 처리하기 위해 EAI 기술 활용
27. 분산파일시스템
- 빅데이터를 확장 가능한 분산파일 형태로 저장하는 방법
- Apache HDFS, Google GFS 등이 있음
28. 데이터베이스 용어
1) 속성(Attribute)
- 테이블에서 열을 나타내는 말
- 필드와 같음
2) 튜플(Tuple)
- 테이블에서 행을 나타내는 말
- 레코드와 같음
3) 도메인(Domain)
- 하나의 속성이 취할 수 있는 값의 집합
4) 차수(Degree)
- 속성의 수
5) 카디널리티(Cardinality)
- 튜플의 수
29. 분산 컴퓨팅
- 단일 시스템의 성능 한계
- 단일 시스템의 성능 향상을 위한 비용증가로 효율성 감소
- 네트워크로 연결된 시스템에 여러 장치를 분산하여 처리
- 대형 시스템의 복잡성을 줄이고 다양한 보안 정책 가능
- 각 시스템의 개별적 독립성 제공
30. 병렬 컴퓨팅
- 여러 개의 복잡한 연산을 순차적이 아닌 병렬적으로 동시 처리
- 서로 독립적 결과를 얻는 병렬적 처리 단계로 변환하여 문제 해결
- 동시에 수행되어도 상관없는 처리 단계들로 구성
- 어떤 단계의 결과가 다른 단계에 영향을 미치지 않음
- 병렬화가 가능한 수준만큼 처리시간 단축 가능
- 특정 데이터가 다른 데이터에 영향을 주지 않는 경우 적용
- 데이터는 독립적으로 저장, 처리, 분석될 수 있음
- 병렬컴퓨팅을 통해 한 번에 많은 데이터 처리 가능
31. 병렬화
- 동시에 처리되는 대상을 찾아 구분하는 작업
32. 클라우드 컴퓨팅
- 인터넷(웹) 기반의 컴퓨팅 기술
- 유틸리티 데이터 서버에 프로그램을 두고 필요시 컴퓨터 등에 불러와서 사용
- 인터넷 IT자원(소프트웨어, 플랫폼, 인프라 등) 사용
- IT 자원의 소유가 아니라 대여의 개념
- 보다 많은 IT 자원을 이요할 수 있는 서비스 제공
- 문서 작성 및 저장장치를 통한 데이터 저장 가능
함께 보면 좋은 글
2021.03.25 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ①
2021.03.24 - [IT정보] - 빅데이터(Big Data)란?
2021.03.24 - [IT정보] - 국내 챗봇 성공 사례 6가지와, 챗봇이 필요한 이유
'IT정보' 카테고리의 다른 글
빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ④ (0) | 2021.03.26 |
---|---|
빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ③ (0) | 2021.03.25 |
빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ① (0) | 2021.03.25 |
아하토큰(AHT) 한달 출석체크 만으로 3만원 벌기(+출금하는 방법 / 출석체크 5초도 안걸림) (0) | 2021.03.24 |
페이팔코인 이니셔티브 Q(Initiative Q) 에어드랍 및 가입방법 (2) | 2021.03.24 |