빅데이터 개요

View Comments

  IBM의 2013년 연례보고서에서는 매일 250억 기가바이트의 데이터가 생성되고 있으며, 이중 80% 이상은 오디오, 비디오 및 소셜미디어 등의 비정형 데이터라고 분석했습니다. 이처럼 매일 방대하게 생산되는 데이터를 빅데이터라 할 수 있는데, 2001년 가트너(Gartner)의 애널리스트였던 Doug Laney는 세가지 측면에서 빅데이터를 정의하였습니다.

 

  빅데이터는 데이터의 양(volume), 데이터의 형태와 생성원천의 다양성(variety) 그리고 데이터의 생성과 유동의 속도(velocity)를 뜻하는 3V로 말이죠. 첫번째 volume(데이터의 양)은 데이터의 크기는 점차 증가하고 있으며, 이 중 소셜관련 데이터나 웹상의 클릭스트림 그리고 전자기기의 센서 등에서 수집되는 비정형 데이터가 생성되는 양은 매우 크며, 이외의 데이터까지 고려할 경우 생성되는 데이터의 양은 매우 큽니다. 따라서 현재 데이터를 분석하는 분석가들은 테라급의 데이터를 분석에 사용하고 있습니다. 두번째는 variety(유통속도데이터의 형태와 원천의 다양성)입니다. 즉, 수집되는 간단하게 정형데이터 및 비정형데이터로 구분할 수 있으며, 다양한 데이터 원천에서 생성되며 이러한 데이터 수집경로는 점차 증가하고 있습니다. 마지막으로 velocity(데이터의 생성과 처리)입니다. 수많은 원천에서 생성되는 대용량 데이터의 처리는 일반적으로 하루 또는 일주일 단위로 정해진 시점에 배치작업을 통해 처리하는 방식이 일반적입니다. 그러므로 새롭게 입수된 데이터를 통해 데이터베이스를 갱신하는데는 어느정도의 시간간격이 발생하게 됩니다. 따라서 생성된 데이터를 저장하고, 분석하여 결과를 시각화까지 이루어지는 과정이 얼마나 빠르게 이루어지는지, 즉 실시간 정보를 얼마나 빠르게 분석하여 의사결정에 반영하는지에 대한 사항은 너무나 중요한 측면이 되었습니다.

 

  현재에는 이외에도 추가적인 4V가 빅데이터 정의에 사용되고 있습니다. 1) value(가치, 빅데이터가 충분한 가치를 가져올 수 있는가)는 빅데이터를 활용하여 가치를 창출할 있는가에 대한 질문에서 출발합니다. 즉, 기업의 입장에서 빅데이터 분석을 위한 인프라를 갖추려면 많은 비용이 들어가므로, 대규모 인프라 투자를 통해 창출할 수 있는 이익이 뭔지를 먼저 고려한다는 것입니다. 2) veracity(신뢰성, 진실성)는 기본적인 통계학의 개념에서 시작하는 것입니다. 실제 대용량의 데이터가 고객의 성향을 반영할 수 있는 것인지, 이를 통해 분석할 경우 올바른 예측을 수행할 수 있는지 고려해야 하는 것이죠. 대수의 법칙으로만 본다면 표본의 크기가 커질수록 모집단의 특성과 유사해지기 마련인데, 실제 분석을 해보면 대용량 데이터라 하더라고 분석목적에 따라 다른 결과가 도출되기도 합니다. 3) variability(가변성, 데이터의 의미가 수시로 변함)은 veracity의 연장선상에 있는 것이라 생각할 수 있습니다. 어떤 목적에 따라 데이터를 세분화하고 표본을 설정하는가에 따라 표본의 특성은 바뀌게 됩니다. 특히 비정형 데이터로 분석하는 텍스트 마이닝의 경우 어구, 어절을 어떻게 정의했느냐에 따라 결과는 다르게 산출됩니다. 4) visualization(시각화, 사용대상자의 이해 필요)입니다. 빅데이터를 통한 분석은 다양한 방법이 사용됩니다. 특히 복잡한 알고리즘에 의해 산출된 결과는 의사결정을 하는 사람들에게 쉽게 이해할 수 있어야 한다는 것이죠. 분석가의 입장에서는 자신이 만든 알고리즘에 의해 분석되었으므로, 결과에 대해 쉽게 이해할 수 있겠지만, 결과만을 보고 의사결정을 하는 계층에서는 분석 알고리즘을 이해하기도 어려울 것이며, 이를 통한 결과도출에도 문제를 겪게 될 것입니다. 따라서 분석을 수행한 후 분석목적에 따라 정보의 사용자가 쉽게 이해할 수 있도록 해야 합니다. 그렇지 못할 경우 기업의 경영진이나 의사결정 계층은 데이터 분석을 위해 사용된 시간적, 경제적 비용에 대해 회의적인 입장을 갖게 될 것입니다.

Comments (+add yours?)

Tracbacks (+view to the desc.)