7월, 2014의 게시물 표시

DT, "빅데이터"의 Synonym

Big Data에 대한 강의를 하고 나면 Six Sigma 또는 Data Mining 업무를 했던 분들이 늘 하는 이야기가 있다. "신경망, SVM, RMSE...기존에 했던 분석방법과 똑 같은데, 뭐가 다른거지?" Data Mining과 Big Data를 구분하려는 의도의 이러한 질문에 답을 하고 공감을 얻기까지는 많은 시간이 걸린다. 그렇다고 SNS분석, Text분석으로만 Big Data를 정의한다면 이런 분들과 쉽게 공감할 수 있지만, 이 또한 Big Data를 정확하게 설명한다고 할 수 없다.  그럼 Big Data라는 용어를 Data Mining의  小史 를 통하여 이해하면 어떨까? 먼저,  몇 년 전까지만 해도 BT, NT, CT 등 산업과 정보기술을 융합한 이러한 단어들이 많이 회자 되었다. 정보기술과 생명공학을 융합한 Bio Technology, 나노공학과 융합한 Nano Technology, 문화컨텐츠와 융합한 Contents Technology. 그럼 데이터 분석과 정보기술을 융합한 Data Technolgy, 즉 DT를 지금의 Big Data의 Synonym으로 보면 어떠할지?  디지털 사회로 변화되면서 나타나는 엄청난 양의 Data와 이를 분석하기 위한 진보된 Data Mining, 그리고 Hadoop Ecosystem으로 대변되는 IT의 결합. 이것이 지금의 Big Data를 이야기 하고 있다면 무리는 아닐 것이다. 그럼 Big Data를 데이터의 분석 측면에서 발전 과정을 정리해 보자. 통계학의 기본은 확률에서 시작하는데 이는 파촐리, 파스칼에서 콜모고르프로 이어지는 500여년이 넘는 역사를 갖고 있고 혹자는 기원전으로 확률의 역사를 넓히기도 한다. 확률에 기반한 통계는 기술과 추론으로 나뉘어 발전하면서 표본을 이용한 모수를 찾는 학술적 접근이였다. 이러한 통계학은 기업에서 발생되는 Data를 분석하기 위한 도구로 활용되면서 Data Mining, 이를...