빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ③
- IT정보
- 2021. 3. 27.
1. ARIMA 모델
- 데이터에 나타나는 자기상관을 표현하는 것을 목적으로 사용하며 시계열에서 가장 많이 사용
- 비계절성 ARIMA 모델은 자기회귀와 이동평균모델을 결합한 것
2. 비모수검정
- 모집단의 분포가 알려져 있지 않는 경우 적용
- 관찰된 값이 실제 자료가 아닌 순위 등의 형태로 주어져 있을 때 적용
- 모집단 분포에 대한 가정이 필요 없어서 어떤 형태의 모집단이라 해도 비교 가능
- 평균보다는 중앙값이나 자료의 순위값을 이용하므로 이상값에 영향을 받지 않음
- 자료의 관찰된 형태가 순위로 주어져도 검정 가능
- 하지만, 모집단 분포가 어느 정도 가정이 된 경우 비모수검정 사용시 검정력 약해짐
- 실제 관측값이 아닌 순위를 사용하므로 정보량 감소
- 모수검정보다 계산과정이 더 복잡
3. 비모수검정의 종류
1) 부호검정
- 자료가 정확하지 않거나 순위로 주어진 경우 평균에 대한 검정을 실시할 수 없음
2) 윌콕슨 순위합검정
- 윌콕슨에 의해서 도입되고 맨-휘트니에 의해서 발전되어 맨-휘트니 검정이라고도 함
- 두 모집단에 대한 분포의 가정이 어렵거나 표본이 순위로밖에 표현될 수 없을 때, 두 모집단의 확률분포가 같은지에 대한 가설을 검정할 수 있음
3) 크루스칼왈리스 순위검정
- 몇 개의 모집단에 대한 펴균 검정을 하는 경우 모집단이 정규분포를 따른다는 가정을 할 수 없을 때 비모수적 검정을 하여야 하는데 이 경우에 사용하는 방법
4) 런검정
- 표본의 독립성 검정을 위해서 사용되는 검정 방법
- 연속적인 관찰치가 무작위적으로 나타난 것인지 앞으로 관찰치가 뒤의 관찰치에 어떤 영향을 미치는지를 검정하기 위해 사용
4. 산점도 분석
- 두 연속형 변수관계
- 두 변수 사이의 관계를 파악하기 위해 그림으로 표현한 것
5. 상관관계
- 수치를 이용한 두 연속형 변수의 분석
- 두 변수의 관계를 그림을 표현하고 나면 두 변수의 관계가 곡선관계인지, 직선관계인지를 파악할 수 있다.
- 상관계수 : 어느 정도 직선관계 성향을 나타내는지를 수치로 표현한 것
6. 다변량 통계분석
- 차원을 줄이고자 하는 분석과 많은 수의 케이스를 그 특성이 비슷한 몇 가지 집단으로 분류하여 전체 케이스가 가지고 있는 의미를 분류된 몇 개의 집단으로 설명하고자 할 때 사용
7. 변수의 차원을 줄이는 분석
- 다변량 회귀분석
- 다변량 분산분석
- 주성분분석
- 요인분석
- 정준상관분석
8. 요인분석
- 많은 변수가 상호연관성을 가지고 소수의 요인으로 분석되는 경우에 사용되고 해당되는 요인을 찾아서 변수를 줄이는 방법
- 상호 연관성이 있는 변수의 수를 하나의 요인으로 통계량을 알아 볼 수 있도록 하는 분석
- 여러 개의 변수들을 작은 수의 요인으로 줄이기 위해 사용
- 유효성 있는 변수를 선정하는 데 사용
- 적은수의 변수를 새롭게 만들기 위해 사용
- 각 변수가 정규분포를 따라야 함
- 표본의 수는 최소한 50 이상이어야 하며 100 이상이어야 정상적이고 분석하려는 변수의 4~5배 정도 되어야 함
9. 요인추출방법
- 주성분분석법, 최소제곱요인추출법, 최대우도요인추출법, 주축요인추출법, 알파요인추출법, 이미지요인추출법
- 주성분분석법 : 데이터의 총분산을 이용해서 구하는 방법
- 최소제곱요인추출법 : 사용되는 변수가 모집단이고 대상자가 표본이라 할 때 사용
10. 군집분석
- 객체들을 일정한 속성에 따라 몇 개의 군집으로 분류하고, 같은 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체들의 상이성을 알아내고자 하는 분석기법
11. 군집화방법
- 최단연결법 : 어느 한 객체와 가장 가까운 객체부터 군집에 포함시켜서 군집화하는 방법
- 최장연결법 : 군집 간의 거리를 각 군집에 속해있는 객체 간에 가장 먼 거리로 산정하여 비교하는 방법
- 중심연결법 : 각 군집의 중심들 사이의 거리를 사용하는 것으로 새로운 객체 포함 시에도 군집의 중심과의 거리가 가장 가까운 군집에 객체를 포함시키는 방법
12. 판별분석
- 결과가 다르게 나타난 개체들의 집단 간의 유사성과 차이점을 기준으로 아직 결과를 알 수 없는 개체에 대해서 결과를 예측하는 방법
- 판별분석에 사용되는 집단변수는 범주형 변수
- 판별변수는 연속형 변수
13. 다차원척도법(MDS, Multidimensional Scaling)
- 개체들의 특성을 측정하고 이 특성을 이용해서 개체들 사이의 유사성과 비유사성을 측정하여 다차원공간상에 점으로 표현하는 방법
- 다차원 공간상에서 유사성이 큰 대상들은 가깝게 유사성이 작은 대상들은 상대적으로 멀게 위치시킨 결과를 얻게 되는 것
함께 보면 좋은 글
2021.03.26 - [IT정보] - 빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ②
2021.03.26 - [IT정보] - 빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ①
2021.03.26 - [IT정보] - 빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ④
'IT정보' 카테고리의 다른 글
빅데이터분석기사 필기 3과목 요약 - 빅데이터 모델링 ② (0) | 2021.03.27 |
---|---|
빅데이터분석기사 필기 3과목 요약 - 빅데이터 모델링 ① (0) | 2021.03.27 |
빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ② (0) | 2021.03.26 |
빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ① (0) | 2021.03.26 |
빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ④ (0) | 2021.03.26 |