'profiling'에 해당되는 글 1건

  1. 2013.01.05 데이터 마이닝(Data Mining)의 6가지 기법

데이터 마이닝(Data Mining)의 6가지 기법

View Comments

데이터 마이닝(Data Mining)은 크게 목표지향(defined)와 목표불명(undefined)의 두 가지로 구분될 수 있다. 


목표지향(defined) 데이터 마이닝은 몇 개의 특정 대상(target field)에 대해서 설명하거나 구분을 하는 것이며,  목표불명(undefined) 데이터 마이닝은 데이터에서 단순히 있을 법한 패턴이나 유사성을 찾는 것으로 소규모 그룹에 대한 구분이라고 할 수 있다. 또한, 목표지향(defined)와는 다르게 특정 대상(target field)과 같은 것을 사용하지는 않는다. 데이터 마이닝의 주요 6가지 기법 중에서 Classification(분류), Estimation(추정), Prediction(예측) 등이 목표지향(defined) 방법이며, Grouping(유사행태 집단화) or Association Rules, Clustering(군집화) 등은 목표불명(undefined) 방법이다. 마지막으로 Profiling(서술/설명 등의 기초분석) 은 목표지향(defined)과 목표불명(undefined)에 모두 해당한다고 할 수 있다.


데이터 마이닝을 수행하는 기법은 크게 6가지로 구분되는데, 이는 Classification(분류), Estimation(추정), Prediction(예측), Affinity Grouping(유사행태 집단화) or Association Rules(연관 규칙), Clustering(군집화), Profiling(서술/설명 등의 기초분석) 등 이다.


첫 번째로 '분류(Classification)'는 데이터 마이닝의 가장 기본적인 기법중의 한가지로 성별, 인종 등의 우리가 생활하면서 흔하게 구분하는 방법이다. 이는 범주형 자료(Categorical data) 이거나 이산형 자료(Discrete data) 에 사용된다. 가령, 신용평점자들에 대해서 저신용, 중간, 고신용 등과 같은 분류, 웹페이지에 표시할 컨텐츠, 사기보험 청구를 찾는 것, 산업코드의 지정 등 이산형으로 구분되거나 범주형으로 구분된다. 


두 번째는 '추정(Estimation)'으로 연속형(Continuous) 이나 수치형(Numerical) 으로 결과를 규정한다는 점에서 '분류(Classification)'와 구분된다. 이러한 추정 기법은 추정된 값에 순위와 같은 것을 사용할 수 있다는 커다란 잇점을 갖는데, 이는 CRM(Customer Relationship Management)에서도 많이 사용되는 것이다.  예를 들면, 고객 프로모션을 위해 할당된 예산은 500,000명에 해당하는데, 어떠한 고객에게 프로모션을 하겠는가? 이럴 경우에 '분류' 기법을 사용하여 500,000명의 프로모션 고객이 구분된다면 다행이지만, 그 보다 많은 1,500,000(1.5 million)명이 선별되었다면 이를 랜덤 샘플링이나, 기타 추출법을 사용하여 500,000명에 해당하는 프로모션 고객을 선정할 것이다. 하지만 '추정'은 추정된 점수에 대해 순위를 사용하여 상위부터 500,000의 고객을 선별하여 프로모션 고객으로 적용할 수 있다.


세 번째로는 '예측(Prediction)' 기법이다. 예측 기법은 미래의 행동이나 미래 추정치의 예측에 따라 구분되는 것을 제외하고는 '분류(Classification)'나 '추정(Estimation)'의 기법과 동일하다. 즉, '예측' 기법은 입력변수들에 대한 관계나 타겟변수에 대한 예측을 통해 예측모델링(Predictive Modeling)을 한다는 것이다. 가령 현재시점 이후 6개월 동안 고객의 이탈이나 추가적인 서비스를 신청할 수 있는 고객들의 예측에 사용될 수 있다. 


네 번째로는 '유사행태 집단화(Affinity Grouping)'이다. 영어로는 'Affinity Groping'로 유사행태 집단화 또는 유사 집단화로 불리며, 흔히들 연관규칙(Association Rules)로 통용되기도 한다. '유사 집단화(Affinity Grouping)'의 간단한 접근방법은 데이터로 부터의 규칙을 만드는 것이다. 만일 고양이 음식과 'kitty litter'사의 제품이 있다고 하자. 이를 고양이 사료를 사고 고양이 제품을 사는 확률을 P1, 고양이 제품을 사고 고양이 사료를 사는 확률을 P2로 가정하고 확률을 통해 연관규칙을 구하는 것이다. 이러한 기법을 통해 소매점은 효율적인 매장진열, 패키지 상품의 개발, 교차판매(Cross Selling) 등의 전략을 수행할 수 있다.


다섯 번째로 여러 종류의 집단을 같은 성질의 작은 그룹으로의 구분을 하게되는 '군집화(Clustering)'는 이미 정의된 집단으로 구분하는 분류(classification) 와는 구분된다. 군집화(Clustering)는 우선 각각의 유사한 성질의 집단으로 구분되고, 이에 따라 구분된 집단의 성질이 결정되는 것이다. 즉, 전체 고객을 각각의 같은 성질의 고객군으로 분류하고, 이 중 상위집단을 선택하여 마케팅이나 프로모션을 행하거나, 각각의 집단에 알맞는 프로모션을 수행하는 등의 전략을 설정할 수 있다.


마지막으로 서술이나 설명등을 사용하는 '자료(정보)수집(Profiling)'이다. 이는 복잡하게 구성된 데이터 베이스를 간단하게 묘사하고 서술하는 것이다. 즉, 고객에 대한 이해나, 상품 등에 대한 이해를 증가시켜 고객이 무엇을 하는 사람이며, 무엇을 원하는 사람이냐를 파악하고 제품이나 서비스를 사용하는 비율은 어느 정도이며, 이를 통해 만족하고자 하는 욕구와 같은 니즈(needs) 를 파악하여 제품이나 서비스의 개발 또는 사람들에게 정보를 어떻게 전달해 줄 수 있는지를 고려하는 것이다. 의사결정 나무(Decision Tree) 나 연관규칙(Association Rule) 등은 고객들에 대한 프로파일 등을 구성하는데 휼륭한 도구이다.

Comments (+add yours?)

Tracbacks (+view to the desc.)

Newer Entries Older Entries