1. 데이터 검증 절차 1) 데이터 품질 - 정확성 - 완전성 - 적시성 - 일관성 2) 데이터 무결성 - 개체 무결성 - 참조 무결성 - 속성 무결성 - 키 무결성 - 도메인 무결성 - 사용자 정의 무결성 3) 데이터 비식별화 - 가명 처리 - 총계 처리 - 데이터 값 제거 - 범주화 - 데이터 마스킹 2. 데이터 품질 - 데이터 분석의 목적을 달성하고, 최종 사용자의 기대를 만족시키기 위해 데이터가 확보하고 있어야 할 성질 3. 데이터 품질보증 - 데이터 품질검증 계획을 수립하고, 품질검증 지표를 선정하여 품질검증 활동을 함으로 분석목적에 적합한 품질의 데이터를 이용하여 최상의 분석결과를 얻도록 함 4. 수집된 데이터의 효율적인 검증 절차 - 데이터 품질관리 요소 검증 -> 데이터 무결성 검증 -> ..
1. KNN 분류 - 최근접 이웃 분류 - 임의의 입력 텍스트를 정의도니 카테고리로 분류한 데이터들과 유사도를 측정하고 가장 비슷한 카테고리로 입력 텍스트를 분류 - 유클리디안 거리를 측정하여 분류 1) 장점 - 간단하고 효과적으로 입력 값 분류 - 데이터에 대한 기본적인 분포 가정 없음 - 학습 과정이 빠름 2) 단점 - 모델을 생성하지 않기 때문에 클래스 간의 관계를 이해하는 능력이 제약 - 적절한 K의 선택이 필요 - 분류 시간이 오래 걸림 2. 의사결정나무 - 가장 널리 사용되는 머신러닝에서 대표적인 지도 학습 방법 - 의사결정 트리 모델을 생성하는 입력 데이터에 대한 값을 예측하는 방법 - 분류함수를 의사결정 규칙으로 표현할 때 타원, 직선, 사각형을 이용해 나무형태로 그려서 분석 1) 장점 -..
1. 빅데이터분석 주제 유형 분석대상(WHAT) - Known 분석대상(WHAT) - UnKnown 분석방법(HOW) - Known Optimization Insight 분석방법(HOW) - UnKnown Solution Discovery 2. 요약변수 - 기본 정보를 aggregation한 변수로 세분화나 행동 예측이 가능 3. 파생변수 - 특정의미를 갖는 작위적 의미의 변수 4. reshape - melt()와 cast()을 이용해 데이터를 재구성하거나 재정렬하기 위한 기법으로 밀집화된 데이터를 유연하게 생성해 줌 1) melt() - 선택한 id 변수를 이용해 나머지 변수를 variable이란 이름의 데이터로 만드는 것 - 모델링할 때의 데이터 구조에 적합 2) cast() - 원하는 형태와 함수를..
1. ARIMA 모델 - 데이터에 나타나는 자기상관을 표현하는 것을 목적으로 사용하며 시계열에서 가장 많이 사용 - 비계절성 ARIMA 모델은 자기회귀와 이동평균모델을 결합한 것 2. 비모수검정 - 모집단의 분포가 알려져 있지 않는 경우 적용 - 관찰된 값이 실제 자료가 아닌 순위 등의 형태로 주어져 있을 때 적용 - 모집단 분포에 대한 가정이 필요 없어서 어떤 형태의 모집단이라 해도 비교 가능 - 평균보다는 중앙값이나 자료의 순위값을 이용하므로 이상값에 영향을 받지 않음 - 자료의 관찰된 형태가 순위로 주어져도 검정 가능 - 하지만, 모집단 분포가 어느 정도 가정이 된 경우 비모수검정 사용시 검정력 약해짐 - 실제 관측값이 아닌 순위를 사용하므로 정보량 감소 - 모수검정보다 계산과정이 더 복잡 3. 비..
1. 빅데이터 분석처리과정 - 데이터 소스 -> 수집 -> 저장 -> 처리 -> 분석 -> 표현 2. 데이터 모델링을 위한 단계 - 모델링 마트 설계와 구축단계 -> 탐색적 분석과 유의변수 도출단계 -> 모델링 성능평가단계 3. 빅데이터 전처리 1) 데이터 필터링 - 분석목적에 맞는 데이터만 추출하는 과정 - 비정형 데이터는 데이터마이닝을 통해 오류나 중복을 제거 - 저품질 데이터에 대해 개선하는 과정 2) 데이터 유형 변환 - 분석목적에 맞게 데이터 형태를 변환하는 과정 3) 데이터 정제 - 데이터의 결측치를 처리하거나 불일치를 교정, 노이즈 데이터를 처리하는 과정 4. 빅데이터 후처리 1) 데이터 변환 - 수집된 데이터를 일관성 있는 형식으로 변환하는 것 - 평활화, 집계, 일반화, 정규화, 속성 생..
1. 통계학의 분류 1) 기술통계학 - 자료의 특성을 쉽게 파악할 수 있도록 자료의 대푯값을 구하고 자료를 간단히 그래프로 표현하여 분석하는 것 2) 추측통계학 - 자료에 있는 불확실한 사실에 대한 추론을 하는 것 - 모집단에서 표본을 선출해서 선출된 표본으로 모집단의 특성 파악하는 것 3) 모수통계학 - 모집단의 분포 특성을 알고 모집단의 특성을 선출된 표본으로부터 추청하는 것 4) 비모수통계학 - 모집단의 특성에 대한 분포의 특성을 가정하지 않은 상태에서 모집단의 특성을 추정하는 것 5) 모집단 - 관심의 대상이 되는 전체 집합 6) 표본집단 - 모집단에서 선출된 일부 7) 모수 - 모집단의 특성을 수치로 나타낸 것 8) 통계량 - 표본집단의 특성을 수치로 나타낸 것 2. 자료의 분류 1) 독립변수와..
1. 결측치(Missing Value) - 측정된 샘플에서 누락된 변숫값 - 결측치 처리 방법은 샘플 제거, 해당 변수 제거, 결측치 무시, 결측치 추정(평균, 중앙값 등의 통계량 또는 회귀분석을 통한 값 추정) 2. 잡음(Noise) - 데이터를 측정하는 데 있어서 여러 가지 이유로 개입되는 임의적인 요소로 변숫값을 본래의 참값에서 벗어나게 하는 오류 - 잡음을 제거하기 위해 구간화, 군집화, 회귀모형 변환 등의 방법 사용 3. 구간화 - 연속 변수를 다수의 작은 구간으로 나누고, 동일한 구간에 속한 변숫값들을 하나의 변수값으로 변환하는 방법 4. 군집화 - 데이터 집합을 수 개의 군집으로 묶은 뒤 동일 군집의 데이터들을 그것의 대푯값으로 치환하는 방법 5. 레거시 데이터(Legacy Data) - 과..
1. 그리드 컴퓨팅 - 다수의 컴퓨터를 서로 연결 - 분산처리 - 각 노드에 1개 이상의 CPU, 1,00 ~ 80,000개의 노드로 구성 - 노드마다 RAM 탑재 또는 공유 - 공유 스토리지(Lustre Filesystem) 시스템 사용 - 그리드 구성 노드는 고속 통신 가능 - 장애 발생 시 자체 회복 기능 수행 - 클러스터를 이용하여 대규모 고속 처리 가능 - AWS, GCP 등 2. GPGPU(General Purpose Computing on Graphics Processing Unit) - 그래픽 가속기의 중심인 화상처리장치의 성능 중요 - 이미지 연산처리에 특화 - 별도의 메모리(VRAM 등)를 사용하기도 함 - CUDA 통합 개발환경 이용 - 머신러닝과 딥러닝을 이용한 이미지 및 음성 인식..
1. 빅데이터란? - 대량의 정형 또는 비정형 데이터로부터 가치를 추출하고 결과를 분석하는 기술 - 빅데이터 분석 및 시각화 기술도 포함 2. 빅데이터의 특징 1) Volume(규모) - 기술적 발전과 IT 서비스의 일상화로 디지털 정보량의 증가 - 데이터 규모 증가 - ROI 관점에서 빅데이터의 핵심 특징에서 투자 비용 요소 - 데이터의 대용량성 확보 2) Variety(다양성) - 정형, 반정형, 비정형 데이터처럼 데이터의 다양성이 높아짐 - 오디어, 비디오, 상품평, SNS, 텍스트, 멀티미디어 등 비정형화된 데이터의 증가 - ROI 관점에서 빅데이터의 핵심 특징에서 투자 비용 요소 - 데이터 측면의 적응성 확보 3) Velocity(처리속도) - 사물 및 스트리밍 정보 등 실시간성 정보 증가 - ..