본문 바로가기

EDU

10차시. 빅데이터 분석 - 데이터 탐색 기획

차시목표
1. 확보된 데이터에 대한 기술적 통계 분석 계획을 수립할 수 있다
2. 확보된 변수 간 관계 분석을 계획하고, 통계 기반의 데이터 탐색 방안을 수립할 수 있다
3. 머신 러닝 기반의 데이터와 비정형 데이터 기반의 데이터 탐색 방안을 수립할 수 있다
4. 탐색적 자료 분석 결과에 대한 보고서를 정의할 수 있다
주요내용
1. 탐색적 데이터 분석(EDA)에 대한 이해 학습하기
2. 머신 러닝 기반의 데이터 탐색 기법 학습하기
3. 빅데이터의 기술적 통계 분석 기법의 이해

 

 

 

■ 빅데이터 분석 - 데이터 탐색 기획

1. 탐색적 데이터 분석(EDA: Exploratory Data Analysis)에 대한 이해

- 데이터를 가공하지 않고 있는 그대로 보여 주는 것을 핵심으로 삼아 데이터를 분석하는 기법입니다. 주로 있는 그대로의 현실상황을 나타내기 위해 빅데이터 분석에서 자주 사용하는 데이터 분석 기법입니다. 

가. 탐색적 데이터 분석의 개념 데이터가 가진정보를 데이터의 탐색만으로 얻는 기법으로 이미 수집된 데이터로부터 정보를 얻어 내는 일련의 데이터 분석 기법입니다. 

 

① 탐색적 데이터 분석의 특징
- 탐색적 데이터 분석은 데이터의 정보를 분석하여 연관성(패턴, 규칙)을 분석하는 빅데이터 분석에 주로 활용됩니다. 

• 정보의 정확도: 탐색적 분석을 통해 얻은 정보를 이용해 통계적 가설 또는 모형을 선정하여 연구합니다. 

• 페이퍼 펜슬 방법(Paper-Pencil Method): 수학적 그래프 또는 통계량을 직접 계산할 수 있는 방법입니다. 

• 데이터 마이닝(Data Mining): 대용량 데이터의 패턴(pattern)이나 규칙(rules)을 발견하는 방법입니다. 

 

② 데이터 분석 방법과 그 설명
• 기술 통계학(Descriptive Statistics): 데이터가 가진 정보를 데이터 탐색만으로 얻는 방법
• 결론 유추 분석 방법: 기술 통계량(tools), 그래프, 데이터 분석 경험(know-how)을 이용
• 데이터 분석: 데이터로부터 정보를 도출하기 위한 다양한 방법을 시도

 

③ 탐색적 데이터 분석의 필요성
• 잠재적 문제의 발견 - 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해합니다. 

- 데이터의 잠재적 문제를 발견할 수 있습니다. 

- 본격적 분석에 앞서 수집에 대한 의사결정을 지원합니다. 

• 가설의 설정
- 다양한 각도의 분석 과정에서 문제의 정의 단계에서 미처 발견하지 못한 패턴의 발견이 가능합니다. 

- 기존의 가설을 수정하거나 새로운 가설을 설정할 수 있습니다. 

 

● 탐색적 데이터 분석 기법
- 수집한 데이터를 다양한 각도로 관찰하여 데이터를 분석하기 전에 그래프나통계적인 방법을 동원하여 자료를 탐색하고 분석하는 과정입니다. 

 

① 탐색적 데이터 분석의 절차
- 문제의 정의 단계에서 설정한 분석의 주제와 가설을 바탕으로 분석 계획을 세웁니다. 이후의 분석 계획에는 어떤 속성 및 속성 간의 관계를 집중적으로 관찰해야 하는지를, 이를 위한 최적의 방법은 무엇인지를 도출합니다. 

 

② 탐색적 데이터 분석의 주요 기법


● 탐색적 분석을 통한 이상값 발견 기법
- 데이터를 수집한 뒤에 이상값이 발생했을 경우에는 발생한 원인에 대해 파악한 다음, 파악한 결과에 대한 대처 방법을 판단하여 탐색적 데이터 분석의 기획을 합니다. 

• 개별 데이터의 관찰: 전체 데이터의 추이나 특이 사항을 관찰합니다. 전체 데이터 중에서 무작위로 표본을 추출한 뒤에 관찰 합니다. 

• 통곗값: 통계 지표 데이터를 활용(평균, 중앙값, 최빈값)하거나 데이터의 분산도 탐색을 활용(범위, 분산)합니다. 

• 시각화: 데이터의 가시화를 통해 지표를 확인합니다. 

• 머신 러닝 기법: 데이터의 군집화를 통해 이상값을 탐색합니다.

 

● 군집 분석 알고리즘의 분류
• 분할 방법
• 계층 방법
• 모델 기반 방법


● 탐색적 데이터 분석의 의사결정 요소 기술
① 분석 요소 기술
- 효과적인 데이터의 탐색을 위해 활용 시나리오에 따라 분석 요소 기술을 적용하고, 탐색적 데이터 분석을 수행합니다. 빅데이터
 통계 분석, 데이터 마이닝, 텍스트 마이닝, 예측 분석, 최적화, 평판 분석, 소셜 네트워크 분석 등이 있습니다. ② 시각화 요소 기술
- 탐색적 분석을 위해 데이터의 상관관계를 그래프, 차트 등의 시각화 도구를 통해 확인하고 분석 결과를 예측할 수 있습니다.
 시간, 분표, 관계, 비교, 공간의 시각화와 인포그래픽이 있습니다. 

 

2. 머신 러닝 기반의 데이터 탐색 기법

• 통계 기반 분류: 로지스틱 회귀 분석, 베이지안(Bayesian) 등
• 트리 기반 분류: 의사결정 트리
• 비선형 함수 기반: SVM(Support Vector Machine) • 기계 학습 기반: 심층 신경망 학습(RBM, RNN, DNN, CNN 등)


● 머신 러닝 기반의 탐색적 분석 알고리즘에서 머신 러닝 학습의 탐색 유형에 의한 분류 3가지
• 지도 학습: 유형을 구분 짓는 속성을 가지는 주어진 데이터 집합으로부터 함수적 모델을 찾아 데이터를 분석하는 기술입니다. • 비지도 학습: 유형을 구분 짓는 속성을 가지지 않는 데이터 집합으로부터 데이터 자체의 상호 유사성을 분석하는 기법입니다. • 강화 학습: 데이터의 상태를 인식하고, 이에 반응한 행위에 대해 환경으로부터 받는 리워드를 학습하며 분석하는 기술입니다

 

3. 빅데이터의 기술적 통계 분석 기법의 이해

● 빅데이터 분석 기법을 위한 데이터 마이닝의 이해
- 다양한 데이터에 대한 인과관계와 상관관계 분석 및 의미 있는 관계 분석을 위해 목표에 맞는 가장 적합한 분석 기법을 선택해야 합니다. 

이것을 위해 의사결정 규칙을 도표화하여 관심 대상 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 계량적 분
 석 방법입니다. 

① 데이터 마이닝에 대한 개념: 대용량 데이터 간의 관계, 패턴, 추세를 발견하고, 이를 의미 있는 정보로 변환하여 기업의 의사결정에 활용하는 기술입니다. 

② 데이터 마이닝 프로세스: 데이터 분석에 필요한 변수를 식별하고 데이터 전처리 과정을 통해 다양한 모형을 도출하여 결과를 분류하고 예측하는 기법입니다. 

③ 데이터 마이닝의 상세 수행 절차: 데이터를 선택하고 정제하여 데이터를 보완한 뒤에 변환과 모델링 과정을 거쳐 마이닝을 수행 합니다. 

• 데이터 마이닝의 상세 수행 절차
- 선택(Sampling Selecting): 빅데이터로부터 모집단의 유형과 유사한 소규모의 데이터를 추출합니다. 

- 정제 및 보완(Data Cleaning, Preprocessing): 확보한 데이터의 정확성을 높이기 위해 모호한 값과 중복된 레코드를 제거하고, 오류값을 보정하며, 데이터의 양과 깊이를 늘리는 과정입니다. 

- 변환(Transformation): 불필요한 레코드와 항목을 삭제하고, 파생 항목을 만들거나 항목의 값을 세분화 또는 그룹핑하는 작업입니다. 

- 모델링(Modeling): 이전 단계에서 선정된 주요 변수를 사용해 다양한 모형을 조합합니다. 데이터 마이닝 기술을 적용하여 결과를 해석합니다. 

- 리포팅 및 가시화(Reporting, Visualization): 사용자들에게 보기 편하고 이해하기 쉬운 형태로 제공합니다.

 ● 빅데이터 분석 주요 기법의 상세 유형
① 텍스트 마이닝(Text Mining) : 텍스트 마이닝은 비정형 및 반정형 텍스트 데이터에서 자연어 처리 기술을 기반으로 유용한 정보를 추출하고 가공하는 것을 목적으로 하는 기술이다. 

② 클러스터 분석(Cluster Analysis) : 군집 분석은 비슷한 특성을 가진 개체를 합하면서 최종적으로 유사한 특성의 군집을 발굴하는 데에 사용된다. 

③ 분류 분석(Classification) : 다수의 속성 또는 변수를 가지는 객체를 사전에 정해진 그룹 또는 범주(Class, Category) 중의 하나로 분류하는 분석 기법


● 빅데이터 분석 주요 기법의 상세 유형
① 텍스트 마이닝(Text Mining) - 텍스트 마이닝은 비정형 및 반정형 텍스트 데이터에서 자연어 처리 기술을 기반으로 유용한 정보를 추출하고 가공하는 것을 목목적으로 하는 기술입니다. 

 

● 텍스트 마이닝의 주요 알고리즘 TF-IDF(Term Frequency - Inverse Document Frequency) 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치를 나타냅니다. 

 

● TF-IDF의 활용
- 특정한 단어가 문서 내에서 얼마나 자주 등장하는지를 나타내는 값을 통계적 수치로 계산한 것입니다.

값이 높을수록 문서에서 좀 더 중요성을 가진다고 판단할 수 있습니다. 

 

② 소셜 분석(SNA: Social Network Analysis) 

- 소셜 네트워크 분석은 수학의 그래프 이론에 기반을 두고 있는 방법입니다. 소셜 네트워크의 연결 구조 및 연결 강도 등을 바탕으로 사용자의 명성이나 영향력을 측정합니다. 

● SNA의 정의
- 사람, 그룹, 조직, 컴퓨터, 데이터 등의 객체 간의 관계 및 네트워크의 특성과 구조를 분석하고 시각화하는 분석 방법론입니다. 

● SNA의 속성 및 측정 지표
- SNA는 응집력, 구조적 등위성, 명성, 범위, 중계의 다섯 가지 속성을 가지며, 이러한 속성을 기반으로 사회 연결망 분석을 수행합니다. 

 

③ 클러스터 분석(Cluster Analysis) - 군집 분석은 비슷한 특성을 가진 개체를 합하면서 최종적으로 유사한 특성의 군집을 발굴하는 데에 사용됩니다. 

● 클러스터 분석의 정의
- 몇 개의 집단으로 그룹화하는 군집 분류(Clustering)를 하여 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대한 이해를 도출하는 분석 기법입니다. 

● 클러스터 분석 알고리즘
- 군집 분석은 프로토타입 기반의 군집 분석, 계층적 기법, 밀도 기반의 군집 기법, 그리드 기반의 기법으로 구분이 가능합니다. 프로토타입은 클러스터의 특징(중심점)을 의미합니다. 

 

④ 분류 분석(Classification) - 다수의 속성 또는 변수를 가지는 객체를 사전에 정해진 그룹 또는 범주(Class, Category) 중의 하나로 분류하는 분석 기법입니다. 

● 데이터 분류 프로세스
- 객체와 변수를 분류 알고리즘을 활용하여 반복적으로 범주화하여 분류합니다. 

● 분류 기법 및 분석 과정
- 로지스틱 회귀 분석, 의사결정 트리 등이 대표적인 분류 기법으로 활용됩니다. 

머신 러닝 기법은 데이터의 패턴을 기반으로 탐색적 분석 및 통계적 분석 기법 등을 활용하여 학습하고 인공지능 신경망을 구축하는 기법이다. O
[해설]
데이터의 패턴을 기반으로 탐색적 분석 및 통계적 분석 기법 등을 활용하여 학습하고 인공지능 신경망을 구축하는 기법입니다.
• 통계 기반 분류: 로지스틱 회귀 분석, 베이지안(Bayesian) 등
• 트리 기반 분류: 의사결정 트리 • 비선형 함수 기반: SVM(Support Vector Machine)
• 기계 학습 기반: 심층 신경망 학습(RBM, RNN, DNN, CNN 등)
탐색적 데이터 분석은 데이터를 가공하는 것을 핵심으로 삼아 데이터를 분석하는 기법이다. X
[해설]
탐색적 데이터 분석(EDA: Exploratory Data Analysis)는 데이터를 가공하지 않고 있는 그대로 보여 주는 것을 핵심 으로 삼아 데이터를 분석하는 기법입니다.
주로 있는 그대로의 현실 상황을 나타내기 위해 빅데이터 분석에서 자주 사용 하는 데이터 분석 기법입니다.
다양한 데이터에 대한 인과관계와 상관관계 분석 및 의미 있는 관계 분석을 위해 목표에 맞는 가장 적합한 분석 기법을 선택해야 한다. O
[해설]
다양한 데이터에 대한 인과관계와 상관관계 분석 및 의미 있는 관계 분석을 위해 목표에 맞는 가장 적합한 분석 기법을 선택해야 합니다.
이것을 위해 의사결정 규칙을 도표화하여 관심 대상 집단을 몇 개의 소집단으로 분류하거나 예측을 수 행하는 계량적 분석 방법입니다.