빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ①

    1. 통계학의 분류

    1) 기술통계학

    - 자료의 특성을 쉽게 파악할 수 있도록 자료의 대푯값을 구하고 자료를 간단히 그래프로 표현하여 분석하는 것

     

    2) 추측통계학

    - 자료에 있는 불확실한 사실에 대한 추론을 하는 것

    - 모집단에서 표본을 선출해서 선출된 표본으로 모집단의 특성 파악하는 것

     

    3) 모수통계학

    - 모집단의 분포 특성을 알고 모집단의 특성을 선출된 표본으로부터 추청하는 것

     

    4) 비모수통계학

    - 모집단의 특성에 대한 분포의 특성을 가정하지 않은 상태에서 모집단의 특성을 추정하는 것

     

    5) 모집단

    - 관심의 대상이 되는 전체 집합

     

    6) 표본집단

    - 모집단에서 선출된 일부

     

    7) 모수

    - 모집단의 특성을 수치로 나타낸 것

     

    8) 통계량

    - 표본집단의 특성을 수치로 나타낸 것

     

    2. 자료의 분류

    1) 독립변수와 종속변수

    ㄱ) 독립변수

    - 영향을 주는 변수

    - 설명변수라고도 함

     

    ㄴ) 종속변수

    - 영향을 받는 변수

    - 반응변수라고도 함

     

    2) 질적자료와 양적 자료

    ㄱ) 질적자료

    - 범주형 자료가 포함된 자료

    - 명목 척도 자료, 서열 척도 자료

     

    ㄴ) 양적자료

    - 자료의 속성을 그대로 반영하여 분석하는 자료

    - 구간척도 자료, 비율 척도 자료

    3. 이외 변수

    1) 통제변수

    - 독립변수와 종속변수 간에 영향을 미칠 수 있는 제 3의 변수

    - 독립변수와 종속변수의 영향 파악을 위해 통제해야 하는 변수

     

    2) 매개변수

    - 독립변수와 종속변수 간에 직접적인 관련은 없으나 중간에서 매개자 역할을 하여 두 변수간 간접적인 영향을 맺도록 하는 변수

     

    3) 외생변수

    - 독립변수와 종속변수 간에 상관관계가 있는 것처럼 보이지만 실제로는 관계가 없는데 제 3의 변수에 의해 가상적 관계가 성립되어 있는 것처럼 보이도록 만드는 변수

    - 외생변수의 통제를 통해 가식적 관계 제거

     

    4) 억압변수

    - 독립변수와 종속변수 간에 상관관계가 있는데 없는 것처럼 보이도록 만드는 변수

    - 가식적 영관계라고 함

     

    4. 이산변수

    - 하나하나 셀 수 있는 변수

     

    5. 연속변수

    - 등간 척도 자료나 비율 척도 자료에 해당

    - 키나 몸무게 등

     

    6. 더미변수

    - 주로 회귀분석을 할 때 명목형 변수를 독립변수로 사용하고자 할 때 더미 변수화해서 사용

     

    7. 이상치

    - 분석하고자 하는 변수의 분포에서 비정상적으로 벗어난 데이터값을 확인 -> 박스플롯 등을 통해 확인

    - 이상치가 존재한다고 하여 무조건 지우면 안된다.

    - 이상치 처리 방법은 대체 또는 삭제.

     

    8. 이상치 구하는 방법

    - Q1 - 1.5(Q3-Q1) < data < Q3 + 1.5(Q3-Q1)

     

    9. 결측치 처리

    - 결측치가 있는 경우 제거, 대체, 평균값, 최빈값 등으로 대체

     

    10. 대푯값

    1) 산술평균

    - n개의 수가 있을 때 이들 자료의 합을 개수로 나눈 것을 의미

     

    2) 기하평균

    - 변화율 등을 구할 때 사용되는 대푯값

     

    3) 조화평균

    - 시간적으로 계속되는 형태의 속도 등을 계산할 때 사용

     

    4) 중위수

    - 자료를 크기순으로 나열했을 때 중가에 오는 값

    - 분포의 모양이 대칭일 경우 중위수, 최빈값, 산술평균이 동일

    - 극단값에 영향을 받지 않기 때문에 극단치가 있는 경우 자료의 대푯값으로 이용

    - 분포의 모양이 비대칭인 경우 자료의 대푯값으로 사용하기에 적합

     

    5) 최빈수

    - 빈도가 가장 많은 값

    - 최빈수는 이상값에 영향을 받지 않음

    - 최빈수는 없을 수도 있고 여러 개 있을 수도 있음

    6) 사분위수

    - 자료를 크기순으로 나열했을 때 4등한 위치의 값을 의미

    - 1사분위수(Q1) 25% 위치값

    - 2사분위수(Q1) 50% 위치값

    - 3사분위수(Q1) 75% 위치값

    - 4사분위수(Q1) 100% 위치값

     

    7) 범위(Range)

    - 가장 큰 값에서 가장 작은 값을 뺀 값

    - 범위 = 최댓값 - 최솟값

     

    8) 분산(Variance)

    - 자료가 평균으로부터 흩어진 정도를 계산할 수 있는 값

     

    9) 표준편차

    - 분산의 제곱근 값을 의미

     

    10) 사분위 범위

    - 사분위범위 : 제3사분위수 - 제1사분위수

     

    11) 변동계수(Coefficient of Variance)

    - 단위가 다른 변수에 대해서 산포를 비교하고자 할 때 사용되는 값

     

     

    11. 데이터 분석 기법

    1) 교차분석

    - 두 변수 모두가 범주형인 명목 척도와 서열 척도의 성격을 가진 자료에 대해 두 변수의 연관성을 검정하거나 적합도 판정, 관련성을 알아보는 독립성 판정할 때 사용

    - 카이제곱 검정 사용

     

    2) 분산분석

    - 세 집단 이상의 평균 차이가 통계적으로 유의한지를 검정하고 할 때 실시

    - 독립변수는 범주형, 종속변수는 등간 척도나 비율 척도 자료인 경우 평균에 대한 차이검정을 위해 사용되는 분석기법

     

    3) 회귀분석

    - 독립변수가 종속변수에 미치는 영향력을 알아보기 위해서 분석하는 방법

    - 독립변수가 두 개 이상인 경우 다중회귀분석으로 나뉨

     

    4) 로지스틱회귀분석

    - 종속변수가 범주형으로 주어졌으며, 0, 1로서 명목 척도로  측정된 경우 사용되는 회귀분석

     

    5) 상관분석

    - 두 개의 변수가 얼마나 밀접하게 관련되어 있는지를 검정하고자 할 때 사용

    - 상관계수를 구해서 두 변수의 선형적 상관성 파악

     

    6) 판별분석

    - 독립변수들의 특성에 따라서 종속변수에 어떤 영향을 미치는가를 분석하기 위한 방법

    - 독립변수를 바탕으로 판별식을 구하고 판별식을 이용해 종속변수의 집단을 구분하여 판별하는 통계적 기법

     

    7) 요인분석

    - 상관관계를 이용해서 서로 유사한 변수들끼리 묶어서 변수를 축소하기 위한 통계분석기법

    - 상관관계가 높은 변수들끼리 요인으로 묶기 위해서 사용하는 기법

     

    8) 군집분석

    - 어떤 객체나 대상들이 지니고 있는 다양한 특성의 유사성을 바탕으로 동질적인 몇 개의 군집으로 집단화하는 통계분석기법

     

    9) 시계열 분석

    - 시간의 순서에 따라 관측된 시계열 데이터가 어떤 추이를 보이면서 변화하는지를 알아보는 통계분석기법

     

    12. 표본조사설계

    - 표집 : 표본을 선택하는 과정

    - 목적은 노력과 비용을 최소화하면서 정확한 추정을 위한 것으로 표본크기를 결정하고 나면 통계적 추정을 진행

    13. 표본조사

    1) 장점

    - 모집단을 조사하면서 소요되는 시간과 경비 절감

    - 자료수집과 분석과정이 신속하게 진행

    - 모집단 전체를 조사하기 불가능한 경우에 적용 가능

    - 비표본오차의 감소로 전수조사보다 더 정확한 자료를 얻을 수 있음

     

    2) 단점

    - 표본의 대표성 문제로 인해 일반화 어려움

    - 모집단의 크기가 작은 경우에는 표본 자체가 무의미

    - 표본 설계를 위한 전문지식 필요

    - 표본설계가 복잡한 경우 시간과 비용이 많이 소요

     

    14. 확률표본 추출방법

    1) 단순무작위표본추출

    - 난수의 추출방법을 이용해 표본을 추출하는 것->단순무작위표본 추출이라 함

    - 모집단의 요소가 표본으로 선출될 확률이 동일

    - 표본오차의 계산 용이

     

    2) 층화표본 추출

    - 모집단을 몇 개의 집단으로 나누고 각 층별로 단순무작위 추출방법

     

    3) 계통표본 추출

    - 일정한 순서에 따라 표본을 추출하는 방법

     

    4) 집락표본 추출

    - 개별적 표본이 아닌 집락을 먼저 추출한 후 개별적 표본을  추출

    - 집락의 성격과 모집단 성격 파악 가능

     

    15. 비확률표본 추출

    1) 할당표본 추출

    - 연구자의 사전지식을 기초로 하여 모집단의 특성을 나타내는 하위 집단을 기준으로 표본수를 할당하고 추출하는 방법

    - 모집단 분류 시 조사자의 편견이 개입될 가능성 높음

    - 일반화 어려움

     

    2) 유의표본 추출(판단표본 추출)

    - 연구자가 모집단에 대한 정보가 많은 경우에 사용하는 방법

    - 예비조사나 시험조사 등에 사용되는 표본추출 방법

     

    3) 임의표본 추출(편의표본 추출)

    - 연구자가 표본 선정에 편리성을 두고 표본을 선정할 수 있는 방법

     

    4) 누적표본 추출(눈덩이표본 추출)

    - 응답자의 사생활이 보호되는 상태에서 조사가 이루어져야 한다는 것

     

    16. 확률표본 추출과 비확률표본 추출 비교

    확률표본 추출 비확률표본 추출
    무작위 표본 추출 작위적 표본 추출
    모수추정에 편의가 없음 모수추정에 편의가 있음
    분석 모델에 일반화 가능 분석 모델에 일반화에 문제가 있을 수 있음
    시간과 비용 많이 든다. 시간과 비용 적게 든다.
    표본오차 추정 가능 표본오차 추정 불가능
    단순무작위추출, 층화표본추출, 계통표본추출, 집락표본 추출 할당표본추출, 유의표본추출, 임의표본추출, 누적표본추출등

     

    17. 데이터 처리 프로세스

    1) ETL(Extraction, Tranformation, Loading)

    2) CDC(Change Data Capture)

    - 데이터베이스 내에 데이터 변경에 대한 것을 식별해서 필요한 후속처리를 자동화하는 기술 또는 설계기법

     

    3) EAI(Enterprise Application Integration)

    - 기업정보 시스템의 데이터를 연계하고 통합하는 소프트웨어 및 정보시스템 아키텍쳐 프레임워크

    - 기업 간의 이질적 정보 시스템의 데이터를 연계함으로 상호 융화와 동기화를 통해 동작하도록 하는 것

     

    18. 상관분석

    - 두 개의 연속형 변수에 대해 두 변수 간에 관계가 있는지 상관계수로 확인하는 것

    - 상관계수 범위는 -1 <= r <=1

    - -1 <= r <0 : 음의 상관관계

    - 0 < r <= 1 : 양의 상관관계

     

    19. 거리 개념 분석

    1) 유클리디안 거리

    - 두 점 사이의 거리 계산에 흔히 사용되는 좌표 간의 거리

    2) 쳬비셰프 거리

    - 모든 축에 따른 거리 중 최대를 구한 거리

     

    3) 맨해튼 거리

    - 단위 사각형이 있는 도시의 한 지점에서 다른 지점으로 이동하는 거리

     

    4) 민코프스키 거리

    - m차원 민코프스키 공간에서의 거리를 의미

    - m=1이면 맨해튼 거리와 같다.

    - m=2이면 유클리디안 거리와 같다.

     

    20. 왜도

    - 자료의 형태가 어느 쪽으로 기울어져 있는지를 나타내는 통계량

    - 왜도값이 0인 경우 : 평균 = 중앙값 = 최빈값

    - 왜도값이 +인 경우 : 평균 >= 중앙값 >= 최빈값

    - 왜도값이 -인 경우 : 평균 <= 중앙값 <= 최빈값

     

    21. 첨도

    - 자료의 모양이 얼마나 중심에 집중되어 있는지를 나타내는 값

    - 분포가 중심에서 얼마나 뾰족한지를 나타내는 통계량

    - 3을 기준으로 3보다 크면 정규분포보다 뾰족한 모양, 3보다 작으면 정규분포보다 완만한 모양

     

    22. 정규분포의 왜도와 첨도

    - 왜도 : 0

    - 첨도 : 3

     

    23. 다중공선성

    - 독립변수들 간에 강한 상관관계가 나타나는 문제를 의미

    - 독립변수 간에 상관관계가 존재해서 회귀분석을 할 경우 회귀계수의 분산을 크게 하여 회귀 계수에 대한 추정에 문제가 발생할 수 있음

    - 다중공선성을 측정하기 위해 분산팽창지수(VIF, Variance Inflation Factor)를 계산하거나, 공차 한계등을 통해서 확인

    - 다중공선성 문제를 일으키는 설명변수를 제거

     

    함께 보면 좋은 글

    2021.03.26 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ④

    2021.03.25 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ③

    2021.03.25 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ②

    2021.03.25 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ①

    2021.03.24 - [IT정보] - 빅데이터(Big Data)란?

    댓글

    Designed by JB FACTORY