최근 세계의 관심사는 단연 미국 대통령 선거였습니다. 선거 이전에 바이든이 큰 표 차이로 이길 것이라는 내용이 제법 있었지만, 과거 힐러리 클린턴 우세 여론을 뒤집고 당선된 트럼프였기에 결과를 예측하기 어려웠습니다. 최종적으로는 바이든이 당선됐지만요. 이처럼 결과 예측이 어려운 상황에서, 오늘날에는 선거 활동에도 빅데이터가 활용됩니다. 과거 2012년 재선에 성공했던 오바마는 당시 전략적인 선거 활동을 펼치기 위해 데이터마이닝 전문가를 모집했습니다. 데이터마이닝은 통계학과 관련이 있는데요, 데이터마이닝과 그 사례를 요약했습니다. 사진=Becoming Human 데이터마이닝이란? 데이터마이닝의 사전적인 의미는 "대용량의 데이터 안에서 체계적이고 자동적으로 통계적인 규칙이나 패턴을 발굴하는 것" 입니다. 마..
"이제는 빅데이터 시대"라는 말, 많이 들어보셨을 텐데요! 그만큼 빅데이터란 무엇이고, 빅데이터 전문가는 무슨 일을 하는 직업인지 궁금했던 친구들이 많을 것 같습니다. 한번 자세히 알아볼까요? ▒ 빅데이터 전문가의 전망은 어떤가요? '데이터'라고 하면 보통 숫자로 된 각종 수치 자료들을 떠올리게 될 텐데요. '빅데이터'는 그 이름 'Big'처럼 숫자뿐 아니라 문자와 영상 등 모든 형식의 데이터를 다 포괄하는 대규모 데이터입니다. 지금 이 순간에도 엄청난 데이터가 생성되므로 빅데이터는 규모도 방대하고 생성 주기도 짧죠. 이 거대한 정보의 바다에서 필요한 데이터를 찾아내 분석하는 직업이 바로 '빅데이터 전문가'입니다. 해결해야 할 문제가 발생하면, 그에 활용할 수 있는 적합한 데이터를 찾고, 찾은 데이터를 ..
빅데이터를 활용하지 않는 곳이 별로 없습니다. 하지만 빅데이터를 성공적으로 활용하는 곳은 드뭅니다. 이번 글에서는 빅데이터를 성공적으로 활용한 5가지 최신 사례를 알아보려 합니다. 최신 빅데이터 활용사례 1. 아마존 2. 할리우드 3. 스타벅스 4. 넷플릭스 5. 자라 6. 서울시 7. 미국 보스턴시 8. 미국판 배달의 민족, Doordash 1. 아마존 빅데이터 활용사례에서 아마존을 언급하지 않는 것은 어불성설입니다. 아마존만큼 적극적이고, 성공적으로 빅데이터를 활용하는 기업도 없기 때문이죠. 특히 아마존은 고객들의 쇼핑 경험을 향상시키는데 빅데이터를 적극 활용하고 있습니다. 예를 들어, 아마존은 빅데이터 분석 시스템을 통해 "18세에서 45세의 남성이면서, 외국 영화를 즐겨 보며, 3,000달러 이상..
빅데이터는 위키피디아에 따르면 일반적인 데이터 관리 및 처리 소프트웨어에서 다루기 어려울 정도로 거대하고 복잡한 데이터의 집합을 나타내는 용어입니다. 빅데이터 활용에 의해, 새로운 발견이 되어 안고 있는 과제의 해결과 업무 운영의 효율화가 기대되므로, 기업이나 조직의 일하는 방식을 완전히 바꾸어 여러 가지 업계에 혁명을 일으켰다고 말할 수 있습니다. 이 문장에서는 업계별로 빅데이터 활용 사례를 해설함으로써 그 장점과 활용 방법을 알려드리고자 합니다. 참고: 본문에서 나타내는 빅데이터 활용사례 Demo는 FineReport로 제작한 것입니다. 필요하시면 다운로드하여 빅데이터 데모를 만들어 보세요. FineReport는 빅데이터 통합부터 빅데이터 전시까지 기업의 의사결정을 도와주는 데이터 통합 대시보드 솔루..
1. 데이터 검증 절차 1) 데이터 품질 - 정확성 - 완전성 - 적시성 - 일관성 2) 데이터 무결성 - 개체 무결성 - 참조 무결성 - 속성 무결성 - 키 무결성 - 도메인 무결성 - 사용자 정의 무결성 3) 데이터 비식별화 - 가명 처리 - 총계 처리 - 데이터 값 제거 - 범주화 - 데이터 마스킹 2. 데이터 품질 - 데이터 분석의 목적을 달성하고, 최종 사용자의 기대를 만족시키기 위해 데이터가 확보하고 있어야 할 성질 3. 데이터 품질보증 - 데이터 품질검증 계획을 수립하고, 품질검증 지표를 선정하여 품질검증 활동을 함으로 분석목적에 적합한 품질의 데이터를 이용하여 최상의 분석결과를 얻도록 함 4. 수집된 데이터의 효율적인 검증 절차 - 데이터 품질관리 요소 검증 -> 데이터 무결성 검증 -> ..
1. KNN 분류 - 최근접 이웃 분류 - 임의의 입력 텍스트를 정의도니 카테고리로 분류한 데이터들과 유사도를 측정하고 가장 비슷한 카테고리로 입력 텍스트를 분류 - 유클리디안 거리를 측정하여 분류 1) 장점 - 간단하고 효과적으로 입력 값 분류 - 데이터에 대한 기본적인 분포 가정 없음 - 학습 과정이 빠름 2) 단점 - 모델을 생성하지 않기 때문에 클래스 간의 관계를 이해하는 능력이 제약 - 적절한 K의 선택이 필요 - 분류 시간이 오래 걸림 2. 의사결정나무 - 가장 널리 사용되는 머신러닝에서 대표적인 지도 학습 방법 - 의사결정 트리 모델을 생성하는 입력 데이터에 대한 값을 예측하는 방법 - 분류함수를 의사결정 규칙으로 표현할 때 타원, 직선, 사각형을 이용해 나무형태로 그려서 분석 1) 장점 -..
1. 빅데이터분석 주제 유형 분석대상(WHAT) - Known 분석대상(WHAT) - UnKnown 분석방법(HOW) - Known Optimization Insight 분석방법(HOW) - UnKnown Solution Discovery 2. 요약변수 - 기본 정보를 aggregation한 변수로 세분화나 행동 예측이 가능 3. 파생변수 - 특정의미를 갖는 작위적 의미의 변수 4. reshape - melt()와 cast()을 이용해 데이터를 재구성하거나 재정렬하기 위한 기법으로 밀집화된 데이터를 유연하게 생성해 줌 1) melt() - 선택한 id 변수를 이용해 나머지 변수를 variable이란 이름의 데이터로 만드는 것 - 모델링할 때의 데이터 구조에 적합 2) cast() - 원하는 형태와 함수를..
1. ARIMA 모델 - 데이터에 나타나는 자기상관을 표현하는 것을 목적으로 사용하며 시계열에서 가장 많이 사용 - 비계절성 ARIMA 모델은 자기회귀와 이동평균모델을 결합한 것 2. 비모수검정 - 모집단의 분포가 알려져 있지 않는 경우 적용 - 관찰된 값이 실제 자료가 아닌 순위 등의 형태로 주어져 있을 때 적용 - 모집단 분포에 대한 가정이 필요 없어서 어떤 형태의 모집단이라 해도 비교 가능 - 평균보다는 중앙값이나 자료의 순위값을 이용하므로 이상값에 영향을 받지 않음 - 자료의 관찰된 형태가 순위로 주어져도 검정 가능 - 하지만, 모집단 분포가 어느 정도 가정이 된 경우 비모수검정 사용시 검정력 약해짐 - 실제 관측값이 아닌 순위를 사용하므로 정보량 감소 - 모수검정보다 계산과정이 더 복잡 3. 비..
1. 빅데이터 분석처리과정 - 데이터 소스 -> 수집 -> 저장 -> 처리 -> 분석 -> 표현 2. 데이터 모델링을 위한 단계 - 모델링 마트 설계와 구축단계 -> 탐색적 분석과 유의변수 도출단계 -> 모델링 성능평가단계 3. 빅데이터 전처리 1) 데이터 필터링 - 분석목적에 맞는 데이터만 추출하는 과정 - 비정형 데이터는 데이터마이닝을 통해 오류나 중복을 제거 - 저품질 데이터에 대해 개선하는 과정 2) 데이터 유형 변환 - 분석목적에 맞게 데이터 형태를 변환하는 과정 3) 데이터 정제 - 데이터의 결측치를 처리하거나 불일치를 교정, 노이즈 데이터를 처리하는 과정 4. 빅데이터 후처리 1) 데이터 변환 - 수집된 데이터를 일관성 있는 형식으로 변환하는 것 - 평활화, 집계, 일반화, 정규화, 속성 생..
1. 통계학의 분류 1) 기술통계학 - 자료의 특성을 쉽게 파악할 수 있도록 자료의 대푯값을 구하고 자료를 간단히 그래프로 표현하여 분석하는 것 2) 추측통계학 - 자료에 있는 불확실한 사실에 대한 추론을 하는 것 - 모집단에서 표본을 선출해서 선출된 표본으로 모집단의 특성 파악하는 것 3) 모수통계학 - 모집단의 분포 특성을 알고 모집단의 특성을 선출된 표본으로부터 추청하는 것 4) 비모수통계학 - 모집단의 특성에 대한 분포의 특성을 가정하지 않은 상태에서 모집단의 특성을 추정하는 것 5) 모집단 - 관심의 대상이 되는 전체 집합 6) 표본집단 - 모집단에서 선출된 일부 7) 모수 - 모집단의 특성을 수치로 나타낸 것 8) 통계량 - 표본집단의 특성을 수치로 나타낸 것 2. 자료의 분류 1) 독립변수와..
1. 결측치(Missing Value) - 측정된 샘플에서 누락된 변숫값 - 결측치 처리 방법은 샘플 제거, 해당 변수 제거, 결측치 무시, 결측치 추정(평균, 중앙값 등의 통계량 또는 회귀분석을 통한 값 추정) 2. 잡음(Noise) - 데이터를 측정하는 데 있어서 여러 가지 이유로 개입되는 임의적인 요소로 변숫값을 본래의 참값에서 벗어나게 하는 오류 - 잡음을 제거하기 위해 구간화, 군집화, 회귀모형 변환 등의 방법 사용 3. 구간화 - 연속 변수를 다수의 작은 구간으로 나누고, 동일한 구간에 속한 변숫값들을 하나의 변수값으로 변환하는 방법 4. 군집화 - 데이터 집합을 수 개의 군집으로 묶은 뒤 동일 군집의 데이터들을 그것의 대푯값으로 치환하는 방법 5. 레거시 데이터(Legacy Data) - 과..
1. 그리드 컴퓨팅 - 다수의 컴퓨터를 서로 연결 - 분산처리 - 각 노드에 1개 이상의 CPU, 1,00 ~ 80,000개의 노드로 구성 - 노드마다 RAM 탑재 또는 공유 - 공유 스토리지(Lustre Filesystem) 시스템 사용 - 그리드 구성 노드는 고속 통신 가능 - 장애 발생 시 자체 회복 기능 수행 - 클러스터를 이용하여 대규모 고속 처리 가능 - AWS, GCP 등 2. GPGPU(General Purpose Computing on Graphics Processing Unit) - 그래픽 가속기의 중심인 화상처리장치의 성능 중요 - 이미지 연산처리에 특화 - 별도의 메모리(VRAM 등)를 사용하기도 함 - CUDA 통합 개발환경 이용 - 머신러닝과 딥러닝을 이용한 이미지 및 음성 인식..