본문 바로가기

EDU

11차시. 빅데이터 분석 - 모델링 기획과 결과 적용

차시목표
1. 탐색적 분석 보고서를 바탕으로 분석 주제에 적합한 분석 기법을 선정하고 선정된 분석 기법을 순차 연계하여 개발할 분석 모델을 정의할 수 있다
2. 분석 모델과 분석 활용 시나리오를 바탕으로 분석 정의서를 작성하여 정의된 분석 모델에 대한 성능을 평가할 기준을 정의할 수 있다
3. 협의를 위하여 분석 결과 시각화 방안을 정의할 수 있다
4. 분석 결과에 대한 응용 프로그램 적용 방안을 수립할 수 있다
주요내용
1. 일반적인 데이터 모델링에 대한 이해 학습하기
2. 빅데이터 분석 모델링에 대한 이해 학습하기
3. 실시간 빅데이터 분석의 모델링 아키텍처 학습하기
4. 빅데이터 시각화에 대한 이해 학습하기
5. 분석 결과를 적용하기 위한 빅데이터 큐레이션에 대한 이해

 

 

 

■ 빅데이터 분석 - 모델링 기획과 결과 적용

1. 일반적인 데이터 모델링에 대한 이해

- 현실 상황에 따른 과정과 그 결과들을 활용 가능한 데이터로 변환하는 일련의 과정을 일반적인 데이터 모델링(Data Mideling) 이라고 합니다. 

 

가. 데이터 모델링의 개념 현실 세계에서 업무 프로세스를 추상화하여 데이터베이스의 데이터로 표현하기 위한
 설계 과정입니다. 

 

● 데이터 모델링의 방법
- 요구 사항 분석을 통해 핵심 주제의 영역을 정의하고, 데이터의 집합을 도출하여 추상화와 단순화 과정을 거쳐 데이터를 설계합니다. 

① 개념적 데이터 모델링: 조직의 업무 요건의 충족을 위해 주제 영역과 핵심데이터 집합 간의 관계를 정의하고 설계하는 모델링 기법입니다. 

② 논리적 데이터 모델링: 업무의 모습을 모델링 표기법으로 형상화하여 사람이 이해하기 쉽게 표현하는 절차입니다. 

③ 물리적 데이터 모델링: 일괄 전환, 구조 조정, 성능 향상의 작업을 위해 논리 데이터 모델을 특정 DBMS의 특성에 맞게 성능을 고려하여 물리적 스키마를 만드는 일련의 과정입니다


2. 빅데이터 분석 모델링에 대한 이해

- 현실 상황의 과정과 결괏값이 완성된 단계 이후에 복잡한 데이터를 새롭게 정의합니다. 그리고 기업이나 공공기관에서 새로운 서비스나 신사업의 전략적 의사결정에 중요한 가치를 창출하기 위한 전략적 모델링 과정입니다. 

 

가. 빅데이터 모델링의 개념
 빅데이터를 근거로 새로운 사업과 서비스의 가치 모형을 만들어 내는 의사결정 구조의 설계 과정입니다. 

 

● 빅데이터 분석 모델링의 분석 방법론
- 분석용 데이터를 이용하여 목표 달성을 위한 가설을 설정하고, 통계 모델을 만듭니다. 기계 학습을 이용한 데이터를 분석하고 예측하는 기능을 수행하는 모델을 만드는 방법입니다. 

① 계층적 프로세스 모델: 분석 모델링 단계를 3계층으로 분류하여 단계적으로 분석, 보완, 반복이 이루어집니다. 빅데이터의 탐색적 분석을 수행하는 방법론입니다. 

- 최상위 계층(Phase): 각 단계별 산출물의 생성과 단계별 기준선을 설정하여 관리 합니다. 버전 관리 등을 통해 통제합니다. 

- 태스크(Task): 각 단계를 구성하는 단위 활동입니다. 물리적 또는 논리적 단위로 품질을 검토합니다. 

- 마지막 계층(Step): WBS의 워크 패키지와 같은 계층입니다. 입력 자료, 처리 및 도구, 출력 자료로 구성된 단위 프로세스입니다. 

② KDD(Knowledge Discovery in Database) 분석 방법론: 데이터베이스에서 의미 있는 지식을 탐색하는 데이터 마이닝부터 머신러닝, 인공지능, 패턴의 인식, 데이터의 시각화 등에 활용할 수 있는 분석 방법론입니다. 

 

3. 실시간 빅데이터 분석의 모델링 아키텍처

- 전통적인 배치를 통해 데이터를 저장한 후 분석하는 방식의 한계를 개선하고 자 실시간으로 수행하며 처리 속도를 향상하기 위한 람다와 카파 아키텍처가 등장했습니다. 

데이터 분석을 요청받았을 때 모든 데이터를 대상으로 기능을 수행할 수 있도록 배치-스피드-서빙 레이어로 구성된 실시간 빅데이터 분석 아키텍처입니다. 

 

● 빅데이터의 주요 특징에는 대규모,, 다양성, 속도가 있어 처리 속도에 대한 한계가 존재한다. 

● 실시간 빅데이터 분석과 처리 아키텍처, 람다와 카파 아키텍처의 등장 배경 빅데이터의 주요 특징에는 대규모(Volume), 다양성(Variety), 속도(Velocity)가 있어 처리 속도에 대한 한계가 존재합니다. 

이에 따라 기업 또는 현장에서 개선을 요구하는 목소리가 증가하게 되었으며, 이를 해결하기 위해 실시간으로 빅데이터의 수집과 처리가 가능한 아키텍처를 개발하게 되었습니다. 

● 실시간 빅데이터 분석 아키텍처의 각 레이어별 요소 기술
- 람다와 카파 아키텍처를 구성하는 각 레이어별 빅데이터 분석에 활용되는 오픈소스 또는 처리 도구를 활용해 구성할 수 있습니다
- 배치 레이어: 모든 데이터 마스터 데이터 세트를 저장합니다. 

- 스피드 레이어: 지연 시간을 최소화합니다. 

- 서빙 레이어: 분석 결과를 저장하고 사용자 인터랙션을 수행합니다. 

 

1. 빅데이터 시각화에 대한 이해

- 빅데이터의 시간적 변화, 관계, 분포 등의 분석 결과를 직관적 시각 디자인으로 표현하여 사용자의 빠른 의사결정을 지원하는 기법입니다. 

● 빅데이터 시각화의 개념
- 빅데이터 분석 결과를 분석하고 신속한 의사결정을 지원하기 위해 데이터와 정보를 통계적 기법을 통해 시각화하는 기술입니다. 

● 빅데이터 시각화의 프로세스와 요소 기술
① 빅데이터 분석의 시각화 프로세스: 데이터 분석 결과를 도출한 뒤에 다양한 관점의 결과 분석을 위해 그래프, 차트, 지도 등을 이용한 시각화 구성 방법입니다. 

② 빅데이터 시각화 분석 기법: 확률 기반, 시간 및 공간 기반의 시각화 분석 알고리즘을 활용합니다. 이를 통해 분석 결과를 그래프, 데이터, 분포도, 산점도 등으로 표현할 수 있습니다. 

● 빅데이터 시각화 분석 기법
- 텍스처 기반의 유동 시각화
- 2D Flow 패턴의 시각화
- 2차원 지형 공간의 이벤트 정보

 

2. 분석 결과를 적용하기 위한 빅데이터 큐레이션에 대한 이해

● 빅데이터 큐레이션
- 고객 맞춤형 서비스를지원하여 비즈니스를 지원하고 발전시키는 데 목적이 있는 빅데이터에서의 분야
- 숨겨진 요구 사항을 발견하고, 비즈니스 프로세스 또는 응용 프로그램에 적용하기 위한 빅데이터 분석의 결과에 대한 활용을지휘하는 활동입니다. 

● 빅데이터 큐레이션의 개념
- 빅데이터 전략을 제시하고 최적의 빅데이터 구축에서 분석 및 결과의 활용까지의 전 과정을 지휘하는 활동입니다. 

● 빅데이터 큐레이션의 역할
- 빅데이터 큐레이션의 핵심 역할은 실시간으로 경영상의 기회와 위기 요인을 정확히 분석하고, 즉시 대응할 수 있는 체계를 구축 할 수 있습니다. 예를 들어, 다음과 같은 사례에 활용할 수 있습니다. 

- 실시간 변화 정보
- 노이즈를 제거한 핵심 정보 

- 현실에 대한 인사이트의 도출
● 빅데이터 큐레이션 분야
- 빅데이터 큐레이션의 목적은 예측하고 요구 사항을 발견하며 고객맞춤형 서비스를 제공하여 비즈니스를 지원하고 발전시키는 것입니다. 

이를 위해 인과관계의 분석, 데이터의 숨은 패턴을 발견하기 위한 마이닝과 데이터의 시각화, 맞춤형 서비스를 위한 우선순위 선별 작업 등을 수행합니다

개념적 데이터 모델링은 조직의 업무 요건의 충족을 위해 주제 영역과 핵심 데이 터 집합 간의 관계를 정의하고 설계하는 모델링 기법이다. O
[해설]
데이터 모델링의 방법
-개념적 데이터 모델링: 조직의 업무 요건의 충족을 위해 주제 영역과 핵심 데이터 집합 간의 관계를 정의하고 설계하는 모델링 기법입니다.
-논리적 데이터 모델링: 업무의 모습을 모델링 표기법으로 형상화하여 사람이 이해하기 쉽게 표현하는 절차입니다.
-물리적 데이터 모델링: 일괄 전환, 구조 조정, 성능 향상의 작업을 위해 논리 데이터 모델을 특정 DBMS의 특성에 맞게 성능을 고려하여 물리적 스키마를 만드는 일련의 과정입니다.
빅데이터 큐레이션의 목적은 기존 문제 해결을 위해 일반화된 서비스를 제공하여 비즈니스를 지원하고 발전시키는 것이다 X
[해설]
빅데이터 큐레이션의 목적은 예측하고 요구 사항을 발견하며 고객맞춤형 서비스를 제공하여 비즈니스를 지원하고 발전 시키는 것입니다.
이를 위해 인과관계의 분석, 데이터의 숨은 패턴을 발견하기 위한 마이닝과 데이터의 시각화, 맞춤형 서비스를 위한 우선순위 선별 작업 등을 수행합니다.
전통적인 배치를 통해 데이터를 저장한 후 분석하는 방식의 한계를 개선하고자 실시간으로 수행하며 처리 속도를 향상하기 위한 람다와 카파 아키텍처가 등장 했다. O
[해설]
전통적인 배치를 통해 데이터를 저장한 후 분석하는 방식의 한계를 개선하고자 실시간으로 수행하며 처리 속도를 향상 하기 위한 람다와 카파 아키텍처가 등장했습니다.
데이터 분석을 요청받았을 때 모든 데이터를 대상으로 기능을 수행할 수 있도록 배치-스피드-서빙 레이어로 구성된 실시간 빅데이터 분석 아키텍처입니다.