6월, 2015의 게시물 표시

이제는 빅데이터 전문가(Data Scientist) 개인의 역량이 아닌 조직의 역량이 필요

이미지
국내에 빅데이터가 알려진지도 수년이 훨 넘었고, 공공 및 기업에서도 나름 다수의 프로젝트들이 진행되거나 완료되어 성과를 내고 있다.    그런데 아직도 많은 프로젝트들이 전문가(Data Scientist)의 개인 역량에만 의존하다 보니 중간 산출물과 최종 분석모델 그리고 빅데이터 구현 시스템에 대한 품질 분산이 너무 크고 프로젝트의 성공과 실패를 가늠하기 쉽지 않은게 현실이다. 이제 빅데이터도 Data Scientist 개인역량으로만 좌지우지되는 프로젝트가 되어서는 않된다.   빅데이터 프로젝트를 진행하는 조직의 성숙도가 객관적으로 측정되고 프로젝트의 성패를 예측할 수 있는 완성도 높은 방법론이 필요한 시점이다. 얼마전 한국데이터베이스진흥원에서 진행하고 있는 빅데이터 전문가 양성과정 교육에서 "빅데이터 방법론과 기계학습"을 강의하면서 느낀점은 통계와 R문법, 시각화 도구 사용법과 Hadoop 등 기술에만 치우친 교육보다는 프로젝트를 기획하고 실제로 진행할 수 있는 Path를 알려주는 것도 이제는 빅데이터 교육의 한 섹션으로 자리를 잡아야 할 것 같다는 생각이 들었다.

빅데이터 활성화를 위한 다섯 종류의 데이터와 데이터 거래

기업섹터뿐만 아니라 공공섹터에서도 데이터 분석을 위해서는 외부데이터와의 Mashup이 대단히 중요하고 의미있는 결과를 도출하기 위해서는 필수라고도 말할 수도 있다. 이러한 데이터는 크게 다섯 종류가 있다.    1. 거래정보    2. 위치정보    3. 날씨정보    4. 뉴스정보    5. SNS정보 거래정보는 주로 카드사용이나 금융 • 상품거래와 관련된 데이터이고, 위치정보는 교통 및 이동 등에 대한 데이터로 구성될 수 있으며, 날씨정보는 시계열성의 위치별 다양한 기상 데이터이고, 뉴스와 SNS정보는 뉴스 기사와 인터넷 커뮤니케이션 데이터 등이다. 물론 이 다섯가지 이외에도 더 많은 정보들이 필요할 수 있다. 그러나 개인정보보호법과 데이터 거래에 대한 비즈니스 모델이 아직 명확하게 형성되지 못해 현재 몇몇 자료는 데이터 획득에 어려움을 격고 있어 빅데이터산업 활성화에 지장을 주고 있다. 얼마전 모 지자체에서 위치정보를 활용한 빅데이터 프로젝트가 오픈되었는데, 이 정보를 갖고 있는 대기업과 손을 잡지 못하면 제안도 할 수 없는 이해하기 어려운 헤프닝이 있었다.  물론 그 기업이 갖고 있는 자료도 전체 수집해야 될 모집단의 50%도 못되는 데이터였다. 개인정보보호법을 위반하면서 정보를 오픈하거나 불법 데이터 거래가 되어서는 절대 않되지만, 개인식별이 되지 않도록 변경된 정보는 거래가 될 수 있도록 방안을 찾아야 할 것이고 스타트업을 위해서는 샘플 데이터를 빨리 오픈하는 것이 필요하다고 생각된다. 그러한 관점에서 아래 기사는 시사하는 바가 있다. http://media.daum.net/economic/stock/market/newsview?newsid=20150603204413318