본문 바로가기

EDU

9차시. 빅데이터 분석 - 데이터 확보 기획

차시목표
1. 분석 활용 시나리오에 필요한 분석 변수를 정의하고 정의된 분석 변수에 대한 데이터의 출처를 확인하여 변수 생성 프로세스를 정의할 수 있다
2. 생성된 변수 데이터 정제를 위해 변수에 대한 점검 항목을 정의할 수 있다.
3. 생성된 변수에 대한 데이터 전처리와 검증 방안을 수립할 수 있다.
주요내용
1. 분석 데이터의 확보에 대한 이해 학습하기
2. 빅데이터 분석 데이터에 대한 이해 학습하기
3. 분석 데이터를 확보할 때의 유의 사항

 

■ 빅데이터 분석 - 데이터 확보 기획

1. 분석 데이터의 확보에 대한 이해

- 분석 데이터의 확보를 위해 우선으로 고려해야 할 사항은 수집 대상 데이터의 유형입니다. 분석 요건의 정의를 통해 목표를 도출하고, 도출된 목표를 어떤 데이터를 가지고 수행할 것인지에 대한 분석 기법을 결정합니다. 이와 같이 수립한 계획에 따라 데이터 유형을 선택하고 분석 변수를 정의합니다. 가. 분석 데이터의 유형 데이터의 형태에 따라 유형을 분류하면 전통적 정보 시스템에서 활용하는 정형 데이터와 모든 비즈니스 분야의 디지털화로 비정형과 반정형 데이터로 분류할 수 있습니다. 

① 정형 데이터의 개념

- 정형 데이터는 관계형 데이터베이스 시스템의 테이블과 같이 고정된 필드에 저장되어 활용되는 구조화된(Structured) 데이터입니다. 

● 정형 데이터의 특징
- 정형 데이터)는 관계형 데이터베이스 시스템의 테이블과 같이 고정된 필드에 저장되어 활용되는 구조화된(Structured)
 데이터이다. 

● 정형 데이터의 구조
- 정형 데이터는 칼럼(Column)과 로우(Row) 구조를 가집니다. 

설계된 구조 기반 목적에 맞는 정보들( 구매, 판매 및 사용자의 정보, 인기 품목 등)을 저장하고 분석하는 데 사용할 수 있습니다. 

② 반정형 데이터의 개념

- 반정형 데이터는 데이터 내부에 정형 데이터의 스키마에 해당하는 메타데이터(Metadata)를 포함한 반구조적(semi-structured) 형태를 가지는 데이터입니다. 

고정된 필드에 저장된 정보는 아닙니다. 

● 반정형 데이터의 특징과 사례
- 반정형 데이터의 증가는 인터넷의 발달과 비즈니스 대 비즈니스, 비즈니스 대프로세스, 프로세스 대 프로세스 간의 상호 정보교환의 증가가 그 배경이 됩니다. 

반정형 데이터는 일정 규약을 가지는 XML이나 HTML 형태로 방대하게 존재합니다. 

이를 통한 정보 분석의 요구 사항이 빅데이터 분석의 중요한 요건입니다. 

• 특징
- 데이터 내부에는 데이터의 구조에 해당하는 메타데이터를 가집니다. 

- 관계형 데이터처럼 데이터 또는 스키마 간의 엄격한 제약 관계를 가지지만 일반적으로 체계적인(Well-Formed) 디자인을 따릅니다. 

• 유형
- Key: Value 구조를 기반으로 데이터를 구성하며, 파일 형태입니다.

- HTML(HyperText Markup Language), XML(eXtensible Markup Language), JSON(JavaScript Object Notation), NoSQL 데이터 등이 있습니다. 

- 웹 로그, IoT에서 제공하는 센서 데이터 등입니다. 

● 반정형 데이터의 구조
- 반정형 데이터는 데이터 내부의 메타 정보에 대해 어떤 형태로 구성되어 있는 데이터인지를 파악한 뒤에 규칙에 따라 데이터를 추출할 수 있는 파싱 규칙을 적용합니다. 

• 노드형: XML, HTML과 같은 웹 데이터가 노드 형태의 구조입니다. 

• Key-Value형: 최근 웹 간의 통신에 주로 사용되는 JSON 데이터가 Key-Value 형태의 구조입니다. NoSQL 데이터도 Key-Value 형태를 기반으로 하는 Directory 구조입니다.

③ 비정형 데이터의 개념

- 비정형 데이터는 고정된 필드가 아닌 구조화되지 않은(Unstructured) 데이터 입니다. 데이터 세트가 아니라 하나의 데이터가 수집 데이터로 객체화되어 있습니다. 

● 비정형 데이터의 유형
- 이진 파일 동영상, 문서, 음원, 이미지 파일 등이 있습니다. 

- 스크립트 파일 SNS(Social Network Service) 또는 포털 사이트에 등록된 텍스트 데이터입니다. 

● 비정형 데이터와 반정형 데이터의 유사성
- SNS, 포털 등의 웹에 존재하는 데이터는 HTML 또는 XML 형태로 구성되어 있어 반정형 데이터로 분류할 수 있습니다. 

- 체계적(Well-Formed)이지 않은 데이터의 유형도 많아 특정한 경우에는 마이닝 기법(텍스트, 데이터 등)을 통해 수집되는 경우도있어 명확하게 구분하기 어렵습니다.

 

2. 빅데이터 분석 데이터에 대한 이해

- 효과적 빅데이터 분석을 위해서는 요구 정의에 의해 도출된 활용 시나리오에 적용할 수 있는 다양한 분석 데이터 세트를 수집하여 분석에 활용해야 합니다. 

이러한 과정을 통해 의미 있는 분석 결과를 도출할 수 있도록 준비합니다. 

● 빅데이터 분석 데이터 세트의 개념

- 빅데이터 분석을 위한 분석 변수 데이터들과 분석한 결과를 검증하기 위한 데이터 집합입니다. 

① 분석 데이터 세트
- 빅데이터 분석은 일반적으로 2개의 데이터 집합을 통해 분석하고 결과를 검증 합니다. 빅데이터 분석의 인공지능 학습과 융합하여 사용할 때 트레이닝 세트 (Training Set)를 함께 활용합니다. 

② 분석 데이터 세트의 활용
- 분석 결과의 일반화에 따르는 오류를 예방하기 위해 교차검증(Cross Validation) 기법을 적용하여 테스트 세트(Test Set), 밸리데이션 세트(Validation Set), 트레이닝 세트(Training Set)를 혼합하여 빅데이터 분석 변수로 활용합니다. 

● 빅데이터 분석 데이터의 수집 기법

- 빅데이터 분석 데이터는 단순 데이터베이스 데이터 추출 외에 데이터 트래킹, 데이터 조합 등을 활용한 수집 기법을 사용합니다. 

① 데이터의 유형별 수집 기법
 소스 데이터의 유형에 따라 수집 기술을 선정하여 분석 데이터를 수집하면 데이터를 수집할 때 다음과 같은 내용을 반영하여 수집합니다. 데이터 수집의 검토 항목은 다음과 같습니다. 

- 데이터의 퀄리티, 수집 기술, 데이터의 보안, 개인정보 보호 문제의 검토
- 분석에 필요한 데이터는 반드시 포함될 수 있도록 구성
- 다양한 유형의 데이터 수집을 위한 확장성, 안정성, 실시간성 및 유연성을 확보
② 빅데이터의 수집 기법에 대한 설명
- 크롤링: SNS, 웹, 뉴스 정보 등의 인터넷상에 제공하는 웹 문서 정보를 수집한다. 

- 스크래핑: 인터넷 웹 사이트에 보이는 내용 중에서 특정 정보만을 추출하고 모든 동작을 자동으로 수행한다. 

- 스트리밍(Streaming): 인터넷에서 음성, 오디오, 비디오 등의 멀티미디어 데이터를 송수신하는 기술이다. 

③ 빅데이터 분석의 데이터 확보 기획 단계에서 데이터 전처리 수립
- 데이터 전처리의 수행
- 빅데이터 분석 프로세스의 수행
- 데이터 정처리 방안의 수립


3. 분석 데이터를 확보할 때의 유의 사항

- 수집되는 많은 데이터에는 산업 기밀이나 개인정보 등 비밀이 보장되어야 하는 데이터가 다수 포함되어 있습니다. 이러한 데이터는 사전에 비식별 조치를 거쳐 정보의 유출을 방지할 수 있도록 계획해야 합니다

● 데이터 비식별화의 개요

- 정보의 일부 또는 전체를 삭제하거나 대체할 때 다른 정보에 쉽게 결합하지 못하도록 하는 특정 정보 비식별 조치 방법입니다. 

① 비식별화의 개념도
- 민감 또는 기밀 데이터에 대해 식별이 불가능하도록 처리합니다. 또 재식별되지 않도록 비식별 데이터에 다양성을 적용하여 보안사고를 사전에 방지하는 기법입니다. 

② 비식별화 기법
- 프라이버시의 보호, 식별성을 제거하여 누구의 어떤 정보인지 모르게 함으로써 어느 정보가 처리되는지 구분할 수 없도록 하는 데이터 보호 기법입니다. 

● 비식별화 처리 후의 사후 관리 방안

- 시간의 경과에 따른 재식별 위험이 증가하여 ‘모니터링 → 위험 발견 → 비식별보완 조치’의 단계를 순서대로 거치도록 하여 지속적으로 보완 조치를 수행합니다.

분석 데이터의 확보를 위해 우선으로 고려해야 할 사항은 수집 대상 데이터의 유형이다. O
[해설]
분석 데이터의 확보를 위해 우선으로 고려해야 할 사항은 수집 대상 데이터의 유형입니다.
분석 요건의 정의를 통해 목표를 도출하고, 도출된 목표를 어떤 데이터를 가지고 수행할 것인지에 대한 분석 기법을 결정합니다.
이와 같이 수립한 계획에 따라 데이터 유형을 선택하고 분석 변수를 정의합니다.
반정형 데이터는 관계형 데이터베이스 시스템의 테이블과 같이 고정된 필드에 저장되어 활용되는 구조화된(Structured) 데이터이다. X
[해설]
분석 데이터의 유형
- 정형 데이터는 관계형 데이터베이스 시스템의 테이블과 같이 고정된 필드에 저장되어 활용되는 구조화된(Structured) 데이터입니다.
- 반정형 데이터는 데이터 내부에 정형 데이터의 스키마에 해당하는 메타데이터(Metadata)를 포함한 반구조적(semistructured) 형태를 가지는 데이터입니다.
- 비정형 데이터는 고정된 필드가 아닌 구조화되지 않은(Unstructured) 데이터입니다
수집되는 많은 데이터에는 산업 기밀이나 개인정보 등 비밀이 보장되어야 하는 데이터가 다수 포함되어 있다. O
[해설]
수집되는 많은 데이터에는 산업 기밀이나 개인정보 등 비밀이 보장되어야 하는 데이터가 다수 포함되어 있습니다.
이러한 데이터는 사전에 비식별 조치를 거쳐 정보의 유출을 방지할 수 있도록 계획해야 합니다.

 

반응형