빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ①
- IT정보
- 2021. 3. 26.
1. 통계학의 분류
1) 기술통계학
- 자료의 특성을 쉽게 파악할 수 있도록 자료의 대푯값을 구하고 자료를 간단히 그래프로 표현하여 분석하는 것
2) 추측통계학
- 자료에 있는 불확실한 사실에 대한 추론을 하는 것
- 모집단에서 표본을 선출해서 선출된 표본으로 모집단의 특성 파악하는 것
3) 모수통계학
- 모집단의 분포 특성을 알고 모집단의 특성을 선출된 표본으로부터 추청하는 것
4) 비모수통계학
- 모집단의 특성에 대한 분포의 특성을 가정하지 않은 상태에서 모집단의 특성을 추정하는 것
5) 모집단
- 관심의 대상이 되는 전체 집합
6) 표본집단
- 모집단에서 선출된 일부
7) 모수
- 모집단의 특성을 수치로 나타낸 것
8) 통계량
- 표본집단의 특성을 수치로 나타낸 것
2. 자료의 분류
1) 독립변수와 종속변수
ㄱ) 독립변수
- 영향을 주는 변수
- 설명변수라고도 함
ㄴ) 종속변수
- 영향을 받는 변수
- 반응변수라고도 함
2) 질적자료와 양적 자료
ㄱ) 질적자료
- 범주형 자료가 포함된 자료
- 명목 척도 자료, 서열 척도 자료
ㄴ) 양적자료
- 자료의 속성을 그대로 반영하여 분석하는 자료
- 구간척도 자료, 비율 척도 자료
3. 이외 변수
1) 통제변수
- 독립변수와 종속변수 간에 영향을 미칠 수 있는 제 3의 변수
- 독립변수와 종속변수의 영향 파악을 위해 통제해야 하는 변수
2) 매개변수
- 독립변수와 종속변수 간에 직접적인 관련은 없으나 중간에서 매개자 역할을 하여 두 변수간 간접적인 영향을 맺도록 하는 변수
3) 외생변수
- 독립변수와 종속변수 간에 상관관계가 있는 것처럼 보이지만 실제로는 관계가 없는데 제 3의 변수에 의해 가상적 관계가 성립되어 있는 것처럼 보이도록 만드는 변수
- 외생변수의 통제를 통해 가식적 관계 제거
4) 억압변수
- 독립변수와 종속변수 간에 상관관계가 있는데 없는 것처럼 보이도록 만드는 변수
- 가식적 영관계라고 함
4. 이산변수
- 하나하나 셀 수 있는 변수
5. 연속변수
- 등간 척도 자료나 비율 척도 자료에 해당
- 키나 몸무게 등
6. 더미변수
- 주로 회귀분석을 할 때 명목형 변수를 독립변수로 사용하고자 할 때 더미 변수화해서 사용
7. 이상치
- 분석하고자 하는 변수의 분포에서 비정상적으로 벗어난 데이터값을 확인 -> 박스플롯 등을 통해 확인
- 이상치가 존재한다고 하여 무조건 지우면 안된다.
- 이상치 처리 방법은 대체 또는 삭제.
8. 이상치 구하는 방법
- Q1 - 1.5(Q3-Q1) < data < Q3 + 1.5(Q3-Q1)
9. 결측치 처리
- 결측치가 있는 경우 제거, 대체, 평균값, 최빈값 등으로 대체
10. 대푯값
1) 산술평균
- n개의 수가 있을 때 이들 자료의 합을 개수로 나눈 것을 의미
2) 기하평균
- 변화율 등을 구할 때 사용되는 대푯값
3) 조화평균
- 시간적으로 계속되는 형태의 속도 등을 계산할 때 사용
4) 중위수
- 자료를 크기순으로 나열했을 때 중가에 오는 값
- 분포의 모양이 대칭일 경우 중위수, 최빈값, 산술평균이 동일
- 극단값에 영향을 받지 않기 때문에 극단치가 있는 경우 자료의 대푯값으로 이용
- 분포의 모양이 비대칭인 경우 자료의 대푯값으로 사용하기에 적합
5) 최빈수
- 빈도가 가장 많은 값
- 최빈수는 이상값에 영향을 받지 않음
- 최빈수는 없을 수도 있고 여러 개 있을 수도 있음
6) 사분위수
- 자료를 크기순으로 나열했을 때 4등한 위치의 값을 의미
- 1사분위수(Q1) 25% 위치값
- 2사분위수(Q1) 50% 위치값
- 3사분위수(Q1) 75% 위치값
- 4사분위수(Q1) 100% 위치값
7) 범위(Range)
- 가장 큰 값에서 가장 작은 값을 뺀 값
- 범위 = 최댓값 - 최솟값
8) 분산(Variance)
- 자료가 평균으로부터 흩어진 정도를 계산할 수 있는 값
9) 표준편차
- 분산의 제곱근 값을 의미
10) 사분위 범위
- 사분위범위 : 제3사분위수 - 제1사분위수
11) 변동계수(Coefficient of Variance)
- 단위가 다른 변수에 대해서 산포를 비교하고자 할 때 사용되는 값
11. 데이터 분석 기법
1) 교차분석
- 두 변수 모두가 범주형인 명목 척도와 서열 척도의 성격을 가진 자료에 대해 두 변수의 연관성을 검정하거나 적합도 판정, 관련성을 알아보는 독립성 판정할 때 사용
- 카이제곱 검정 사용
2) 분산분석
- 세 집단 이상의 평균 차이가 통계적으로 유의한지를 검정하고 할 때 실시
- 독립변수는 범주형, 종속변수는 등간 척도나 비율 척도 자료인 경우 평균에 대한 차이검정을 위해 사용되는 분석기법
3) 회귀분석
- 독립변수가 종속변수에 미치는 영향력을 알아보기 위해서 분석하는 방법
- 독립변수가 두 개 이상인 경우 다중회귀분석으로 나뉨
4) 로지스틱회귀분석
- 종속변수가 범주형으로 주어졌으며, 0, 1로서 명목 척도로 측정된 경우 사용되는 회귀분석
5) 상관분석
- 두 개의 변수가 얼마나 밀접하게 관련되어 있는지를 검정하고자 할 때 사용
- 상관계수를 구해서 두 변수의 선형적 상관성 파악
6) 판별분석
- 독립변수들의 특성에 따라서 종속변수에 어떤 영향을 미치는가를 분석하기 위한 방법
- 독립변수를 바탕으로 판별식을 구하고 판별식을 이용해 종속변수의 집단을 구분하여 판별하는 통계적 기법
7) 요인분석
- 상관관계를 이용해서 서로 유사한 변수들끼리 묶어서 변수를 축소하기 위한 통계분석기법
- 상관관계가 높은 변수들끼리 요인으로 묶기 위해서 사용하는 기법
8) 군집분석
- 어떤 객체나 대상들이 지니고 있는 다양한 특성의 유사성을 바탕으로 동질적인 몇 개의 군집으로 집단화하는 통계분석기법
9) 시계열 분석
- 시간의 순서에 따라 관측된 시계열 데이터가 어떤 추이를 보이면서 변화하는지를 알아보는 통계분석기법
12. 표본조사설계
- 표집 : 표본을 선택하는 과정
- 목적은 노력과 비용을 최소화하면서 정확한 추정을 위한 것으로 표본크기를 결정하고 나면 통계적 추정을 진행
13. 표본조사
1) 장점
- 모집단을 조사하면서 소요되는 시간과 경비 절감
- 자료수집과 분석과정이 신속하게 진행
- 모집단 전체를 조사하기 불가능한 경우에 적용 가능
- 비표본오차의 감소로 전수조사보다 더 정확한 자료를 얻을 수 있음
2) 단점
- 표본의 대표성 문제로 인해 일반화 어려움
- 모집단의 크기가 작은 경우에는 표본 자체가 무의미
- 표본 설계를 위한 전문지식 필요
- 표본설계가 복잡한 경우 시간과 비용이 많이 소요
14. 확률표본 추출방법
1) 단순무작위표본추출
- 난수의 추출방법을 이용해 표본을 추출하는 것->단순무작위표본 추출이라 함
- 모집단의 요소가 표본으로 선출될 확률이 동일
- 표본오차의 계산 용이
2) 층화표본 추출
- 모집단을 몇 개의 집단으로 나누고 각 층별로 단순무작위 추출방법
3) 계통표본 추출
- 일정한 순서에 따라 표본을 추출하는 방법
4) 집락표본 추출
- 개별적 표본이 아닌 집락을 먼저 추출한 후 개별적 표본을 추출
- 집락의 성격과 모집단 성격 파악 가능
15. 비확률표본 추출
1) 할당표본 추출
- 연구자의 사전지식을 기초로 하여 모집단의 특성을 나타내는 하위 집단을 기준으로 표본수를 할당하고 추출하는 방법
- 모집단 분류 시 조사자의 편견이 개입될 가능성 높음
- 일반화 어려움
2) 유의표본 추출(판단표본 추출)
- 연구자가 모집단에 대한 정보가 많은 경우에 사용하는 방법
- 예비조사나 시험조사 등에 사용되는 표본추출 방법
3) 임의표본 추출(편의표본 추출)
- 연구자가 표본 선정에 편리성을 두고 표본을 선정할 수 있는 방법
4) 누적표본 추출(눈덩이표본 추출)
- 응답자의 사생활이 보호되는 상태에서 조사가 이루어져야 한다는 것
16. 확률표본 추출과 비확률표본 추출 비교
확률표본 추출 | 비확률표본 추출 |
무작위 표본 추출 | 작위적 표본 추출 |
모수추정에 편의가 없음 | 모수추정에 편의가 있음 |
분석 모델에 일반화 가능 | 분석 모델에 일반화에 문제가 있을 수 있음 |
시간과 비용 많이 든다. | 시간과 비용 적게 든다. |
표본오차 추정 가능 | 표본오차 추정 불가능 |
단순무작위추출, 층화표본추출, 계통표본추출, 집락표본 추출 | 할당표본추출, 유의표본추출, 임의표본추출, 누적표본추출등 |
17. 데이터 처리 프로세스
1) ETL(Extraction, Tranformation, Loading)
2) CDC(Change Data Capture)
- 데이터베이스 내에 데이터 변경에 대한 것을 식별해서 필요한 후속처리를 자동화하는 기술 또는 설계기법
3) EAI(Enterprise Application Integration)
- 기업정보 시스템의 데이터를 연계하고 통합하는 소프트웨어 및 정보시스템 아키텍쳐 프레임워크
- 기업 간의 이질적 정보 시스템의 데이터를 연계함으로 상호 융화와 동기화를 통해 동작하도록 하는 것
18. 상관분석
- 두 개의 연속형 변수에 대해 두 변수 간에 관계가 있는지 상관계수로 확인하는 것
- 상관계수 범위는 -1 <= r <=1
- -1 <= r <0 : 음의 상관관계
- 0 < r <= 1 : 양의 상관관계
19. 거리 개념 분석
1) 유클리디안 거리
- 두 점 사이의 거리 계산에 흔히 사용되는 좌표 간의 거리
2) 쳬비셰프 거리
- 모든 축에 따른 거리 중 최대를 구한 거리
3) 맨해튼 거리
- 단위 사각형이 있는 도시의 한 지점에서 다른 지점으로 이동하는 거리
4) 민코프스키 거리
- m차원 민코프스키 공간에서의 거리를 의미
- m=1이면 맨해튼 거리와 같다.
- m=2이면 유클리디안 거리와 같다.
20. 왜도
- 자료의 형태가 어느 쪽으로 기울어져 있는지를 나타내는 통계량
- 왜도값이 0인 경우 : 평균 = 중앙값 = 최빈값
- 왜도값이 +인 경우 : 평균 >= 중앙값 >= 최빈값
- 왜도값이 -인 경우 : 평균 <= 중앙값 <= 최빈값
21. 첨도
- 자료의 모양이 얼마나 중심에 집중되어 있는지를 나타내는 값
- 분포가 중심에서 얼마나 뾰족한지를 나타내는 통계량
- 3을 기준으로 3보다 크면 정규분포보다 뾰족한 모양, 3보다 작으면 정규분포보다 완만한 모양
22. 정규분포의 왜도와 첨도
- 왜도 : 0
- 첨도 : 3
23. 다중공선성
- 독립변수들 간에 강한 상관관계가 나타나는 문제를 의미
- 독립변수 간에 상관관계가 존재해서 회귀분석을 할 경우 회귀계수의 분산을 크게 하여 회귀 계수에 대한 추정에 문제가 발생할 수 있음
- 다중공선성을 측정하기 위해 분산팽창지수(VIF, Variance Inflation Factor)를 계산하거나, 공차 한계등을 통해서 확인
- 다중공선성 문제를 일으키는 설명변수를 제거
함께 보면 좋은 글
2021.03.26 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ④
2021.03.25 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ③
2021.03.25 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ②
'IT정보' 카테고리의 다른 글
빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ③ (0) | 2021.03.27 |
---|---|
빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ② (0) | 2021.03.26 |
빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ④ (0) | 2021.03.26 |
빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ③ (0) | 2021.03.25 |
빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ② (0) | 2021.03.25 |