빅데이터분석기사 필기 3과목 요약 - 빅데이터 모델링 ①

    1. 빅데이터분석 주제 유형

      분석대상(WHAT) - Known 분석대상(WHAT) - UnKnown
    분석방법(HOW) - Known Optimization Insight
    분석방법(HOW) - UnKnown Solution Discovery

     

    2. 요약변수

    - 기본 정보를 aggregation한 변수로 세분화나 행동 예측이 가능

     

    3. 파생변수

    - 특정의미를 갖는 작위적 의미의 변수

     

    4. reshape

    - melt()와 cast()을 이용해 데이터를 재구성하거나 재정렬하기 위한 기법으로 밀집화된 데이터를 유연하게 생성해 줌

    1) melt()

    - 선택한 id 변수를 이용해 나머지 변수를 variable이란 이름의 데이터로 만드는 것

    - 모델링할 때의 데이터 구조에 적합

     

    2) cast()

    - 원하는 형태와 함수를 이용해서 데이터를 요약

    - 그래프를 시각화할 때의 데이터 구조에 적합

     

    5. sqldf

    - sqldf() 함수를 이용하여 데이터 조회를 실행

    - SQL 명령이 주어지면 자동으로 스키마를 생성하고 데이터를 테이블로 로드한 뒤 SQL문을 수행하며 SQL 실행 결과를 다시 R로 로드하는 것

    - 데이터를 불러올 때 select()를 이용해 데이터 추출

     

    6. plyr

    - 두 개 이상의 데이터 프레임을 병합하거나 분리해서 요약하고 집계할 때 사용되는 패키지

    - 데이터를 분리하고 처리한 다음, 다시 결합하는 가장 필수적인 데이터 처리 기능 제공하고 있으며 한꺼번에 여러 개의 통계치를 구할 수 있음

     

    7. 시뮬레이션

    - 상황을 컴퓨터상에 모델로 재현해서 현상을 더 잘 이해하도록 하고 미래의 변화에 따른 결과를 예측하기 위한 것

     

    8. 최적화

    - 목적함수 값을 최대화, 최소화하는 것을 목표로 하는 방법

    - 제약조건 하에서 목푯값을 개선하는 방식

    - 목적함수와 제약조건을 정의하고 문제를 해결하는 것

     

    9. 평균제곱오차(Mean Square Error)

    - 수치 예측 목적의 지도학습일 경우 평균제곱오차를 사용해 예측도 또는 정확도를 측정

     

    10. 회귀분석 가정

    - 회귀분석결과를 활용하기 위해서는 총 4가지를 만족해야 한다.

    1) 선형성

    - 독립변수와 종속변수 간에는 선형적인 관계가 존재해야 한다.

     

    2) 등분산성

    - 회귀식의 잔차는 등분산성을 만족해야 함

    3) 독립성

    - 회귀식의 잔차는 독립성을 만족해야 함

     

    4) 정규성

    - 회귀식의 잔차는 평균이 0이고 정규분포를 따라야 함

     

    11. 다중회귀분석 독립변수 선택방법

    1) 변수모두선택

    - 독립변수로 사용된 모든 변수를 이용해 회귀식을 세우는 방법

     

    2) 후진제거법

    - 회귀분석을 위해 모든 독립변수들을 이용해서 회귀식을 세우고 가장 유의하지 않은 독립변수를 제거하면서 적합한 회귀식을 찾는 방법

     

    3) 전진선택법

    - 사용된 독립변수 중에서 가장 유의한 변수를 선택해서 하나씩 회귀식에 추가하는 방법

     

    4) 단계별선택법

    - 전진선택법과 후진제거법을 동시에 이용하는 통계적 기법으로 단계별로 변수를 선택하는 방법

     

    12. 분산분석

    - 세 개 이상의 집단 간 평균에 대한 검정을 위해 사용되는 기법

    - 분산을 기반으로 하여 통계적인 평균을 비교하는 기법

    - 집단 간 분산과 집단 내 분산을 이용하여 집단 간 평균차이가 통계적으로 유의한지를 알아보기 위한 검정 방법

    - 집단 내 분산과 집단 간 분산비를 구해 통계적인 차이가 있는지 검정

    - 집단 내 분산과 집단 간 분산비를 통해 F검정통계량을 산출하게 되고, 이 값을 기반으로 하여 집단 간에 평균의 차이가 유의한지를 검정

     

    13. 주성분분석

    - 차원축소 방법

    - 많은 변수의 분산방식의 패턴을 간결하게 표현하여 주성분 변수를 변수의 선형결합으로서 추출하는 통계적 기법

     

    14. 상관관계분석

    1) 피어슨상관계수

    - 수치형 데이터에 대해서 두 변수 간의 연관성을 파악하기 위해 사용

     

    2) 스피어만 상관계수

    - 명목형 자료 또는 순서형 자료인 두 변수의 상관성 분석을 위해 교차분석 실시

    - 교차분석은 카이제곱 통계량을 계산해 두 변수 간의 독립성 검정

     

    15. 결정계수 R^2

    - R^2 = SSR/SST

    - SSR은 회귀, SSE는 잔차

    - SST = SSR + SSE

    - R^2 = SSR/(SSR+SSE)

    - 독립변수의 수가 많아질수록 결정계수는 증가

    - 종속변수와 관계가 없는 독립변수가 추가되어도 결정계수는 증가

     

    16. 수정된결정계수 adjR^2

    - 종속변수와 관계가 없는 독립변수가 추가되어 결정계수가 증가하는 단점을 보완하기 위해 만든 것.

    - 종속변수와 관계가 없는 독립변수가 추가하면 결정계수는 떨어진다.

     

    17. ANOVA 분석(분산분석)

    - 3개 이상의 집단에 대한 평균차이 검정을 위한 것

    - 집단 내 분산과 집단 간 분산 그리고 총분산과 F 통계량을 구해 집단 간의 평균차이를 검정하는 방법

    - 분산분석에 사용되는 독립변수는 범주형 변수, 종속변수는 등간 척도나 비율 척도 자료

    - 각 표본은 독립적, 모집단의 분산은 동일해야 함

    - 집단 간 차이가 커지면 F 값이 커짐

     

    18. 자기회귀모형

    - AR(Auto Regression)

    19. Apriori 알고리즘

    - 최소 지지도 이상의 빈발항목집합을 찾은 후 그것들에 대해서만 연관규칙을 계산하는 것

    - 어떤 항목집합이 빈발하다면, 그 항목집합의 모든 부분집합도 빈발하다는 원리로 연관 규칙 알고리즘 중에서 가장 먼저, 많이 사용되고 있는 알고리즘

     

    20. 독립변수, 종속변수 유형에 따른 통계분석방법

      종속변수
    연속형 범주형
    독립변수 연속형 - 회귀분석
    - 상관분석
    - 인공신경망분석
    - 로지스틱 회귀분석
    - 판별분석
    범주형 - 회귀분석
    - 인공신경망분석
    - 로지스틱 회귀분석
    - 분류트리기법

     

    21. 과적합(Overfitting)

    - 제한된 훈련 데이터셋에 과하게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 것

     

    22. 평균절대오차

    - 예측오차의 절댓값들의 평균을 나타내는 방법으로 오차를 산출

     

    23. 평균제곱오차

    - 실제값과 예측값의 예측오차를 제곱하여 합해 평균한 오차를 계산하는 방법

     

    24. 표준오차

    - 실제값과 예측값의 평균제곱오차 계산값의 제곱근 값

     

    25. 평균절대백분오차비율

    - 실제 종속변수값 대비 예측오차 비율의 절댓값을 평균하여 계산한 값

    - 오차의 발생 비율을 확인하는 방법

     

    26. 추적오차

    - 일반적으로 추적오차는 0 부근이 정상

    - -4와 4를 벗어나면 예측모델의 성능이 저하되는 것을 의미하고 점검이 필요

     

    27. 머신러닝 분류

    1) 지도학습

    - 독립변수와 종속변수 간의 상관관계를 파악해서 미래를 예측해내는 것

    - SVM, 회귀분석, 신경망 등

     

    2) 비지도학습

    - 사전정보가 없는 상태에서 유용한 정보나 패턴을 탐색적으로 발견하고자 하는 학습

    - 군집화기법, 차원축소기법, 연관관계분석기법 등

     

    3) 준지도학습

    - 목푯값이 표시된 데이터와 목푯값이 표시되지 않은 데이터 모두를 훈련에 사용하는 것

     

    4) 강화학습

    - 상과 벌이라는 보상을 주어 상을 최대화하고 벌을 최소화하도록 학습하는 방식

    - 보상의 가중치를 최대화하는 것이 목표

    - 게임이론, 제어이론, 시뮬레이션기반 최적화 등에 사용

     

    함께 보면 좋은 글

    2021.03.27 - [IT정보] - 빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ③

    2021.03.26 - [IT정보] - 빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ②

    2021.03.26 - [IT정보] - 빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ①

    2021.03.26 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ④

    2021.03.25 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ③

    댓글

    Designed by JB FACTORY