본문 바로가기

EDU

8차시. 빅데이터 핵심! 빅데이터 관리와 분석 기술

차시목표
1. 분석 관련 기술 변화의 동향을 살펴보고 데이터 분석의 양상에 따른 최근의 주요 변화를 살펴본다
2. 오픈소스 분석 도구의 변화와 머신러닝 활용 증가에 따른 기술 발전 동향에 대해 분석한다
3. 데이터 경제 시대에서 사용자 중심의 데이터 관리 기술을 설명할 수 있다
주요내용
1. 고객 만족의 핵심 동인 학습하기
2. 데이터 거버넌스로의 변화 학습하기
3. 데이터 분석 기술의 개요 학습하기
4. 데이터 분석 기술 관련 동향 학습하기
5. 지능화 및 자동화되는 데이터베이스 관리 학습하기
6. 탐색적 데이터 분석의 활용 증가 학습하기
7. 머신 러닝 프레임워크의 보급 확대

 

■ 빅데이터 핵심! 빅데이터 관리와 분석 기술

1. 고객 만족의 핵심 동인

- 더 많은 데이터가 더 나은 분석을, 더 나은 분석이 더 나은 제품을 만들 수 있으므로 데이터는 고객 만족의 핵심 동인으로 평가됩니다. 데이터를 각종 서비스의 자원으로 활용하면서 고객 개인의 요구 수준을 예측해 만족도를 높일 수 있게 되었습니다.
데이터가 비즈니스에 미치는 영향은 이러한 선순환 고리를 이용하여 경쟁 업체보다 우월한 위치에 자리매김할 수 있다는 것입니다. 

데이터 경제 시대에서는 기존 경제의 가치사슬을 더욱 복잡하게 만들 것으로 예상되고 있습니다. 

기업이나 정부는 데이터로 부터 얻는 가치의 비율을 높일 수 있는 수집 기술과 관리 방법에 대해 지속적인 고민과 개발이 필요합니다. 

2. 데이터 거버넌스로의 변화

● 데이터 거버넌스의 확장
- 데이터 거버넌스란, 전사적으로 보유하고 있는 데이터에 대한 관리 체계를 의미합니다.

데이터에 대한 관리나 정책, 지침, 표준, 전략 및 방향 수립을 포함하며, 데이터를 관리할 수 있는 조직이나 서비스의 정의도 포함하는 의미입니다. 

조직 내에 거버넌스가 확립되지 못하면 품질이 낮은 데이터를 사용하게 되고 이에 따라 오류가 생성되거나 규제에 직면할 수 있습니다. 

또 개인정보 관련 데이터가 유출되는 사태가 발생하여 한순간에 고객의 신뢰를 잃을 수도 있습니다. 

데이터 거버넌스는 고품질의 데이터를 확보하고 적극적인 활용을 통해 조직의 가치 창출에 지속적으로 기여하는 것을 목표로 합니다. 

데이터를 통해 위험을 예측하고, 관리비용을 최적화하며, 데이터의 활용이 촉진됨으로써 데이터의 가치가 향상됩니다. 

이는 곧 비즈니스 목적에 부합하는 서비스가 지속될 수 있는 힘을 가지게 합니다.

 

 ■ 데이터 거버넌스와 구성 요소

① 사용자 중심

- 데이터 환경의 분석은 기존의 IT 전문가에서 셀프 분석으로 변화하고 있습니다.

따라서 데이터 거버넌스의 변화도 불가피해졌음을 알 수 있습니다. 

거버넌스의 변화는 데이터가 더 많은 사용자에게 개방되어야 한다는 전제 조건을 내걸어야 함을 의미합니다.
 그러므로 보안과 권한 정책이 다양해지고 수많은 분석 데이터 세트에 대한 수명 주기 및 자원 관리가 필요합니다. 

예를 들어, 샌드박스와 같은 분석 환경을 통해 안전한 상태에서 데이터를 쉽게 탐색하고 분석할 수 있게 제공합니다. 

이러한 환경에서 분석된 데이터는 비즈니스 측면에서 유용한 정보로 다시 공유될 수 있습니다. 

이 과정에서 데이터의 탐색을 원활하게 수행할 수 있도록 다음과 같은 기능이 요구됩니다. 

- 비즈니스 사용자 관점의 메타데이터 관리
- 샌드박스에서 테스트한 뒤에 분석 결과를 공유하기 위해 운영 환경으로 옮기기 위한 검토 프로세스
- 조직의 역할과 같은 새로운 데이터 거버넌스의 절차와 기능

② 연계와 시각화

㉮ 데이터 거버넌스의 구현
- 효과적인 데이터 거버넌스의 구현을 위해서는 데이터의 생성부터 폐기까지 관리되어야 합니다. 

대부분의 조직은 데이터 거버넌스의 구현을 위해 다양한 관리 시스템을 활용하지만 시스템 간의 프로세스가 미흡하거나 일부 영역이 통합되지 않은 상태로 운영되고 있습니다. 

단위 데이터 거버넌스 프로세스의 연계, 빅데이터 환경에 적합한 다양한 데이터 소스의 수집과 자동화는 이러한 제약을 극복하기 위한 진화의 방향입니다. 
㉯ 데이터 거버넌스의 기능
- 각각의 단위 거버넌스 프로세스와 관리 기능은 서로 연계될 때 더욱 효과적으로 사용할 수 있습니다.

예를 들어, 데이터의 품질 관리를 통해 오류가 예상되는 데이터 항목을 식별했다면 다음에는 메타데이터를 통해 해당 정보를 확인 하고 오류 여부를 판단하는 것이 가능합니다. 

또 오류 데이터가 발견되었다면 데이터 리니지를 확인하여 해당 데이터가 생성된 지점이나 다른 데이터와의 연관 관계를 파악할 수 있으며, 사용 프로그램 및 수정 현황 등을 추적할 수 있습니다. 

이 과정에서 사용자는 연계된 프로세스와 기능을 통해 데이터를 관리할 수 있습니다. 

 

■ 문화로서의 데이터 거버넌스

① 데이터 거버넌스의 중요성

- 데이터의 활용이 강조되고 이에 따라 데이터의 유형이 다양화되면 데이터 거버넌스의 중요성은 그에 비례하여 부각될 것이다. 

- 데이터의 활용을 촉진하고 동시에 위험을 감소하기 위한 사람과 조직 및 기술의 총합이 바로 데이터 거버넌스인 것이다. 

- 데이터 거버넌스 시스템의 도입은 한 번에 이루어질 수 없고, 관련자 모두의 의지와 노력을 통해 문화로서 정착할 수 있어야 한다. 

② 데이터 거버넌스의 역할 변화

- 데이터 거버넌스는 기술적인 도구에서 비즈니스 애플리케이션으로 기능과 역할이 변화하고 있습니다. 

데이터의 이해와 분석의 중요성이 커지는 것은 전사적인 지원의 역할이 필요하다는 의미입니다. 

또 데이터의 품질 및 데이터 거버넌스의 접근 방식이 포함되도록 인지하는 것과 보장하는 역할이 점차 더욱 강조될 것입니다. 

③ 데이터 거버넌스에 대한 설명

- 데이터 거버넌스는 고품질의 데이터를 확보하고 적극적인 활용을 통해 조직의 가치 창출에 지속적으로 기여하는 것을 목표

- 데이터를 통해 위험을 예측하고, 관리 비용을 최적화하며, 데이터의 활용이 촉진됨으로써 데이터의 가치가 향상된다. 

- 인정보 관련 데이터가 유출되는 사태가 발생하여 한순간에 고객의 신뢰를 잃을 수도 있다. 

 

■ 데이터 분석 기술의 개요

① 데이터 분석 기술

- 데이터 분석 기술은 크게 전체 데이터 분석의 일부분인 단순 집계와, 전문적인 도구가 필요한 고급 분석으로 구분됩니다.

단순집계는 중요성이 매우 높아 고급 분석에도 단순 집계가 전후 단계에서 함께 수행되면서 시너지 효과를 내고 있습니다.

많은 소프트웨어 도구들이 신축적인 단순 집계가 가능하도록 발전하고 있으며, 융합이 더욱 손쉽게 가능하도록 고급 분석을 지원하는 기능들이 점점 더 다양하게 제공되고 있습니다. 

② 단순 집계

- 단순 집계는 다양한 방식으로 가능합니다. 

SQL과 같은 전통적 수단이나 다차원 분석, 최근에 등장한 데이터 시각화(Data Visuali zation) 도구 등의 방식이 사용됩니다. 

흔히 이 영역을 비즈니스 인텔리전스라고 부르며, 분석에 대한 별도의 전문 지식이 없더라도 일반 사용자들이 쉽게 수행할 수 있어 널리 사용되어 왔습니다. 

또 결과를 직관적으로 이해할 수 있다는 장점이 있습니다. 

③ 고급 분석

- 고급 분석은 통계적 분석과 머신 러닝을 포함합니다.

전문적인 도구가 필요하고 보급 자체가 한정적이며 유용성과 활용 방법 부분에서도 한정적이어서 본격적인 활용이 지연되어 왔습니다. 

빅데이터의 개념이 전파되면서 머신 러닝과 인공지능에 대한 일반인들의 이해가 높아졌고 오픈소스 소프트웨어가 보편화되기 시작했습니다. 

이러한 발달의 과정은 고급 분석이 도입되고 실무 활용이 본격화되는 기반이 되었습니다.

 

■ 데이터 분석 기술 관련 동향

- 데이터 분석 결과물을 만드는 것은 분석 외에도 데이터의 수집이나 저장, 전송, 변환 등과 같은 사전 작업이 필요합니다. 

또 보고서 작성이나 중간 분석 결과를 저장하고 공유하며 사후 업무들도 있어 다양한 사항들이 요구됩니다. 

그런 이유로 이를 종합적으로 지원할 수 있는 통합적 소프트웨어 도구와 방법론들이 발전하는 추세입니다. 

데이터 분석 과정에서는 인력과 시간이 부족합니다. 

이를 해결하기 위해서는 데이터 분석의 생산성 향상과 분석 결과의 품질을 높여야 합니다. 

따라서 이러한 문제점을 해결하기 위한 데이터 분석 기술의 키워드는 크게 ‘통합’과 ‘자동화’로 요약될 수 있습니다. 

 

■ 지능화 및 자동화되는 데이터베이스 관리

- 4차산업혁명 시대의 대표적인 키워드에는 모두 데이터가 포함되어 있습니다. 

- ABCD(AI, Blockchain, Cloud, Data) - ICBM(IoT, Cloud, Big Data, Mobile) 데이터 기반의 실시간 의사결정은 불확실성이 커지는 비즈니스 환경에서 설득력이 있는 통찰력을 가질 수 있게 합니다. 

하지만 기업이 데이터를 관리하는 환경은 전통적인 RDB(Relational DataBase)뿐만 아니라 하둡, NoSQL을 모두 사용하는 환경으로 복잡해지고 다양화되고 있습니다. 

인프라 환경 또한 온프레 미스와 클라우드를 혼용하는 경우가 많아지고 있습니다. 

따라서 데이터베이스 관리자는 기존의 유지 관리 업무와 함께 정보의 유형, 중요성, 규제 대상의 여부, 가용성의 수준, 관리 비용 등을 고려할 수 있어야 합니다. 

데이터 관리를 효과적으로 대응하기 위해 데이터베이스 시장도 지속적으로 변화하고 있는데, 대표적인 것이 바로 클라우드 환경으로의 전환입니다. 

AWS,MS,Oracl e과 같은 클라우드 사업자는 클라우드상에서 안정적으로 운영될 수 있도록 확보된 데이터 서비스를 제공하기 위해 사용자의 개입을 최소화합니다. 

또 데이터베이스 관리의 기능을 자동화하여 서비스를 제공합니다. 

 

■ 탐색적 데이터 분석의 활용 증가

- 탐색적 데이터 분석(Exploratory Data Analysis) 개념은 오래전부터 사용되어 왔지만 보편화되기 시작한 배경에는 소프트웨어의 발달과 데이터 분석에 대한 이해도가 높아졌기 때문입니다. 

탐색적 데이터 분석은 분석 대상의 전반적인 구조와 특징을 파악하여 예비 가설들을 설정하고, 설정된 가설을 확인하며 분석할 문제를 구체화하는 용도로 수행합니다. 

이러한 반복적인 분석 기능을 활용하여 R이나 파이썬과 같은 오픈소스 언어들이 시각화 데이터를 분석할 때 매우 신축적으로 수행할 수 있게합니다. 

 

■ 머신 러닝 프레임워크의 보급 확대

- 머신 러닝 프레임워크(Machine Learning Framework)는 인터페이스와 라이브러리, 툴 등의 머신 러닝 모델의 개발을 지원하는것을 뜻합니다. 

가장 많이 사용되는 대표적인 프레임워크는 구글브레인이 개발한 텐서플로우(Tensorflow)입니다. 

파이썬 기반의 딥러닝 라이브러리로 여러 CPU 및 GPU와 플랫폼에서 사용이 가능합니다. 

또 케라스(Keras)는 딥러닝 신경망의 구축을 위해 단순화된 인터페이스를 가진 라이브러리입니다.

몇 줄의 코드만으로 딥러닝 모델의 개발이 가능합니다.

 

■ 딥러닝

● 생성적 적대 네트워크(GAN: Generative Adversarial Networks)

GAN은 2개의 인공신경망으로 구성된 딥러닝 이미지 생성 알고리즘입니다. 

생성자가 가짜 사례를 생성하면 감별자가 진위를 판별할 수 있도록 구성합니다. 

이후 이들이 적대적 관계 속에서 공방전을 반복하도록 하여 가짜 사례의 정밀도를 점점 더 진짜 사례와 구별하기 어려운 수준으로 높입니다. 

새로운 합성 이미지를 생성하는 분석에 많이 적용되었으며, 다른 분야에 대한 응용이 늘어나고 있는 추세입니다. 

● 오토인코더(Autoencoder) 

- 라벨이 설정되어 있지 않은 학습 데이터로부터 더욱 효율적인 코드로 표현하도록 학습하는 신경망을 오토인코더라고 합니다. - 

- 입력 데이터의 차원을 줄여 모델을 단순화하기 위해 폭넓게 활용되고 있습니다.

데이터 거버넌스란, 전사적으로 보유하고 있는 데이터에 대한 관리 체계를 의미한다. O
[해설]
데이터 거버넌스란, 전사적으로 보유하고 있는 데이터에 대한 관리 체계를 의미합니다. 데이터에 대한 관리나 정책, 지침, 표준, 전략 및 방향 수립을 포함하며, 데이터를 관리할 수 있는 조직이나 서비스의 정의도 포함하는 의미입니다. 조직 내에 거버넌스가 확립되지 못하면 품질이 낮은 데이터를 사용하게 되고 이에 따라 오류가 생성되거나 규제에 직면할 수 있습니다. 또 개인정보 관련 데이터가 유출되는 사태가 발생하여 한순간에 고객의 신뢰를 잃을 수도 있습니다.
데이터는 실시간으로 분석되기 때문에 이를 통한 예측은 어렵다. X
[해설]
데이터는 실시간으로 분석될 수 있어야 하며, 이를 통해 예측할 수 있어야 합니다. 의사결정에 활용되는 데이터는 품질이 보장되어 있어야 하며, 프라이버시의 보호와 데이터의 수명 관리, 데이터의 소유와 관리 권한의 명확화 등이 함께 이루어 져야 하기 때문입니다.
데이터 분석 기술은 크게 전체 데이터 분석의 일부분인 단순 집계와, 전문적인 도구가 필요한 고급 분석으로 구분된다. O
[해설]
데이터 분석 기술은 크게 전체 데이터 분석의 일부분인 단순 집계와, 전문적인 도구가 필요한 고급 분석으로 구분됩니다. 단순 집계는 중요성이 매우 높아 고급 분석에도 단순 집계가 전후 단계에서 함께 수행되면서 시너지 효과를 내고 있습니 다. 많은 소프트웨어 도구들이 신축적인 단순 집계가 가능하도록 발전하고 있으며, 융합이 더욱 손쉽게 가능하도록 고급 분석을 지원하는 기능들이 점점 더 다양하게 제공되고 있습니다.