빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ③
- IT정보
- 2021. 3. 25.
1. 그리드 컴퓨팅
- 다수의 컴퓨터를 서로 연결
- 분산처리
- 각 노드에 1개 이상의 CPU, 1,00 ~ 80,000개의 노드로 구성
- 노드마다 RAM 탑재 또는 공유
- 공유 스토리지(Lustre Filesystem) 시스템 사용
- 그리드 구성 노드는 고속 통신 가능
- 장애 발생 시 자체 회복 기능 수행
- 클러스터를 이용하여 대규모 고속 처리 가능
- AWS, GCP 등
2. GPGPU(General Purpose Computing on Graphics Processing Unit)
- 그래픽 가속기의 중심인 화상처리장치의 성능 중요
- 이미지 연산처리에 특화
- 별도의 메모리(VRAM 등)를 사용하기도 함
- CUDA 통합 개발환경 이용
- 머신러닝과 딥러닝을 이용한 이미지 및 음성 인식 등에 사용
3. Many-core CPU
- 수백 개의 코어를 가진 CPU
- 머신러닝과 딥러닝 프로그램 수행을 위해 활용
4. FPGA(Field Programmable Gate Array)
- 하드웨어 설계 시점에서의 고속화 처리 기반
- 회로를 자유롭게 변경 가능
- 스트리밍 데이터 고속 처리
- 비디오 압축과 변환 등 실시간 데이터 처리에 유용
- 프로토타입 구축에 많이 활용
- 소비 전력이 낮아 정밀도를 요구하지 않는 연산처리에 이용
- 고속처리의 소형화, 저전력화 설계용
- 하드웨어와 소프트웨어 모두에 대응됨(편의성)
5. 멀티 프로세스
- 여러 개의 프로세스를 동시에 처리, 멀티태스킹 구조
- 데이터 처리의 효율화 구현(데이터를 나눠서)
- 부모, 자식 프로세스로 구분하여 처리
- MPI(Message Passing Interface) : 여러 CPU에서 프로세스를 병렬 처리하는 표준 규격
- 컴퓨터 내 멀티 프로세스 환경, 컴퓨터 클러스터로 구성한 노드 사이의 병렬 처리에 활용
6. 멀티 스레드
- 프로세스 내 메모리 공간 공유
- 부모 스레드가 자식 스레드 생성 및 호출
- 자식 스레드의 데이터를 받아 부모 스레드가 데이터 처리
7. 아파치 하둡(Hadoop)
- 데이터 배치 처리
- 대규모 분산처리 프레임워크
- Google File System(GFS), MapReduce 기반으로 둔 클론 소프트웨어
- 분산파일시스템(HDFS)과 맵리듀스를 핵심으로 하는 다양한 프로그램으로 구성
- ETL(Extract, Transfrom, Load) 시스템에서 데이터 처리
8. HDFS
- 하둡 분산파일 시스템
- 마스터 노드인 Name node와 슬레이브 노드인 Data node로 구성
- Name node : 파일 이름, 권한 등의 속성 기록
- Data node : 일정한 크기로 나눈 블록 형태로 저장
9. MapReduce
- Key-value 형태의 데이터 처리
- Map : 여러 프로세스가 Key-Value 형태로 데이터 취합
- Shuffle : 데이터 통합 처리
- Reduce : 맵처리된 데이터 정리
- 데이터 처리 과정 : Map -> Shuffle -> Reduce
10. YARN
- Yet - Another - Resource - Negotiator
- 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼
- 마스터 노드 : Resource Manager, 슬레이브 노드 : Node Manager
11. 아파치 Spark
- 스트리밍 데이터, 온라인 머신러닝 등 실시간 데이터 처리
- 하둡 기반 대규모 데이터 분산처리 시스템
- 낮은 지연시간의 인라인 메모리에 저장된 데이터 접근 -> 성능 향상
12. RDD(Resilient Distributed Dataset)
- 작은 배열 구조(파티션)로 분할 처리
- 변환(배열요소 처리)과 액션(카운트, 콜렉트, 리듀스 등) 작업 수행
13. SaaS(Software as a Service)
- 서비스로서의 소프트웨어
- 구글 문서작성기 등
- 오직 소프트웨어만
14. IaaS(Infrastructure as a Service)
- 서비스로서의 인프라
- 서버나 대용량 저장장치 등
15. PaaS(Platform as a Service)
- 서비스로서의 플랫폼
- 사용자가 소프트웨어를 개발할 수 있는 환경
16. 빅데이터 저장 시스템 기능성 분석 항목
1) 데이터 모델
2) 확장성
- 확장성을 위해 Cassandra, HyperTable 등 사용
3) 트랜잭션 일관성
- 데이터 수정, 삭제 등의 작업이 빈번한 경우 중요도 높음
4) 질의 지원
5) 접근성
- 대부분의 라이브러리나 프로그래밍 언어 사용
17. 빅데이터 산업 구조의 구성 요소
- 인프라 : 데이터 수집, 저장, 분석, 관리 등의 기능을 담당하는 컴퓨터, 단말 기 등의 하드웨어와 소프트웨어
- 서비스 : 교육, 컨설팅, 솔루션 등
18. 비즈니스 프로세스(Business Process)
- 다양한 시스템과 비즈니스 요소들에 넓게 분산되어 있고 Customized되어 있는 복잡하고 역동적인 실체
- 고객에게 가치를 전달하는 데 필요한 모든 순차적, 병렬적 활동들의 집합
19. 데이터 수집 작업을 위한 사전에 고려해야 할 요소
- 데이터의 보안
- 데이터의 정확성
- 데이터 수집 가능성
- 데이터 수집 난이도 및 획득 비용
20. 데이터 수집의 난이도
- 데이터의 존재 위치, 유형, 용량, 비용, 정제 과정의 복잡성을 고려한 데이터 탐색 필요
21. 빅데이터 수집 절차
1) 데이터 유형 파악
2) 수집 기술 검토
3) 수집 솔루션 확인
4) 하드웨어 구축
5) 실행환경 검토
22. 텍스트마이닝
- 비정형 텍스트 데이터로부터 유용한 정보를 추출하는 것
- 비정형 데이터들을 자연어 처리를 통해 정보 추출, 연계성 파악하여 분류, 군집화, 요약 등 실시
23. 데이터 측정 척도
1) 명목척도
- 범주형 측정대상이 어느 집단에 속하는지 분류
- 성별, 고객구분 등
2) 서열척도
- 순서형 서열관계를 갖는 척도
- 고객등급, 순위, 직급 등
3) 등간척도
- 상대적 크기 측정 대상이 갖고 있는 속성의 양 측정, 결과는 숫자로 표현
- 온도, 지능 지수 등
4) 비율척도
- 절대 영점 존재
- 두 측정값의 비율이 의미가 있음
- 구간 척도의 성질을 가지면서 척도간의 비도 의미가 있음
- 몸무게, 질량, 개수 등
24. 반정형 및 비정형 데이터를 정형 데이터로 변환하는 과정
- 데이터 구조 정의 -> 수행 코드 정의 -> 프로그램 작성 -> DB 저장
25. 데이터 품질관리 요소
1) 정확성
- 데이터의 사용 목적별로 데이터 정확성의 기준을 다르게 적용
2) 완전성
- 분석에 요구되는 데이터 식별 수준의 적용
3) 적시성
- 소멸성이 높은 데이터에 대한 품질 기준
4) 일관성
- 사용 목적별로 데이터 수집 기준을 설정하여 일관성 유지
26. 정형 데이터 품질 기준
1) 정확성
- 객체의 표현 값이 정확히 반영
2) 완전성
- 필수항목에 누락이 없어야 함
3) 일관성
- 데이터의 구조, 값, 표현 형태가 일관되며 서로 일치
4) 유일성
- 데이터 항목의 유일성, 중복되지 않음
5) 유효성
- 데이터 값은 정해진 유효 범위 및 도메인 값 범위 충족
27. 비정형 데이터 품질 기준
1) 기능성
- 해당 콘텐츠가 특정 조건에서 사용 시, 명시된 요구와 내재된 요구를 만족하는 기능 제공
2) 신뢰성
- 규정된 조건에서 규정된 신뢰수준 유지, 사용자의 오류 방지
3) 사용성
- 사용자에 의해 이해되고, 선호될 수 있는 정도
4) 효율성
- 규정된 조건에서 사용되는 자원의 양에 따라 요구된 성능 제공
5) 이식성
- 다양한 환겨과 상황에서 콘텐츠 실행 가능성
함께 보면 좋은 글
2021.03.25 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ②
2021.03.25 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ①
2021.03.24 - [IT정보] - 빅데이터(Big Data)란?
'IT정보' 카테고리의 다른 글
빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ① (0) | 2021.03.26 |
---|---|
빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ④ (0) | 2021.03.26 |
빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ② (0) | 2021.03.25 |
빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ① (0) | 2021.03.25 |
아하토큰(AHT) 한달 출석체크 만으로 3만원 벌기(+출금하는 방법 / 출석체크 5초도 안걸림) (0) | 2021.03.24 |