DT, "빅데이터"의 Synonym

Big Data에 대한 강의를 하고 나면 Six Sigma 또는 Data Mining 업무를 했던 분들이 늘 하는 이야기가 있다.
"신경망, SVM, RMSE...기존에 했던 분석방법과 똑 같은데, 뭐가 다른거지?"
Data Mining과 Big Data를 구분하려는 의도의 이러한 질문에 답을 하고 공감을 얻기까지는 많은 시간이 걸린다. 그렇다고 SNS분석, Text분석으로만 Big Data를 정의한다면 이런 분들과 쉽게 공감할 수 있지만, 이 또한 Big Data를 정확하게 설명한다고 할 수 없다. 

그럼 Big Data라는 용어를 Data Mining의 小史를 통하여 이해하면 어떨까?

먼저, 
몇 년 전까지만 해도 BT, NT, CT 등 산업과 정보기술을 융합한 이러한 단어들이 많이 회자 되었다. 정보기술과 생명공학을 융합한 Bio Technology, 나노공학과 융합한 Nano Technology, 문화컨텐츠와 융합한 Contents Technology.
그럼 데이터 분석과 정보기술을 융합한 Data Technolgy, 즉 DT를 지금의 Big Data의 Synonym으로 보면 어떠할지? 
디지털 사회로 변화되면서 나타나는 엄청난 양의 Data와 이를 분석하기 위한 진보된 Data Mining, 그리고 Hadoop Ecosystem으로 대변되는 IT의 결합.
이것이 지금의 Big Data를 이야기 하고 있다면 무리는 아닐 것이다.

그럼 Big Data를 데이터의 분석 측면에서 발전 과정을 정리해 보자.
통계학의 기본은 확률에서 시작하는데 이는 파촐리, 파스칼에서 콜모고르프로 이어지는 500여년이 넘는 역사를 갖고 있고 혹자는 기원전으로 확률의 역사를 넓히기도 한다.
확률에 기반한 통계는 기술과 추론으로 나뉘어 발전하면서 표본을 이용한 모수를 찾는 학술적 접근이였다. 이러한 통계학은 기업에서 발생되는 Data를 분석하기 위한 도구로 활용되면서 Data Mining, 이를 응용한 Six Simga 등으로 발전하여 업무에 적용되었다. 그러나 일부 산업 및 특정 업무를 제외하고는 의미 있는 Data를 확보할 수 있는 IT의 지원이 적어 큰 반향을 이루지 못했다.

그런데, Google과 Yahoo 등의 등장과, 3V로 대별되는 엄청나고 다양한 형태의 Data를 신속하게 처리하려는 요구를 새로운 IT 기술이 가능하게 했으며, SNS 등의 비정형 Data를 분석 할 수 있는 Data Mining의 진보가 지금의 Big Data라는 용어를 등장하게 했다.

따라서 Big Data를 분석 측면으로만 본다면 Data Mining과 기본적으로 다르지 않으며 더 나아가 Big Data 를 Data Mining 버전 2.0이라고 해석해도 무리는 없을 것이다.

이러한 발전 과정을 살펴봤을때 Big Data를 Data Mining과 다른 존재로 보기 보다는 Data Mining의 발전적 모습에 새로운 IT 기술이 접목된 Data Technology 즉 DT로 이해한다면 조금은 Big Data라는 용어에서 오는 오해를 해결할 수 있을 것이다.

댓글

이 블로그의 인기 게시물

맥에서 여러 버전의 R을 사용하기

오즈와 오즈비, 왜 사용하지?

Raspberry PI에 R을 설치하여 빅데이터 분석