2015의 게시물 표시

오즈와 오즈비, 왜 사용하지?

로지스틱 회귀분석등 범주형 데이터를 이용한 분석에서 오즈(odds)와 오즈비(odds ratio)라는 용어를 자주 접하게 된다. 어려운 계념이 아니지만 조금 혼란스러워하는 부분이 있어 간단하게 정리를 해본다. 먼저, 오즈는 p/(1-p)로써 실패할 확률대비 성공확률로 (또는 실패 횟수대비 성공횟수) 계산이 된다.    즉 실패대비 성공의 비율을 말한다. 오즈비는 두 방법, 즉 방법 1과 방법 2의 각 오즈의 비율로 계산된다.  {p1/(1-p1)} / {p2/(1-p2)} 이렇게 계산된 오즈비로 성공은 실패대비 방법 1이 몇배 더 효과적인가를 알 수 있다. 그런데 왜 이런 조금은 복잡해(?) 보이는  오즈비를 사용하는가? 그 이유는 예를 들어 방법 1과 방법 2를 적용할때 일반적으로 모집단 크기를 알 수 없고, 단지 표본의 크기를 선택하여 성공과 실패 횟수를 얻을 수 있기때문에 통계처리시 많이 이용하게 된다.  

이제는 빅데이터 전문가(Data Scientist) 개인의 역량이 아닌 조직의 역량이 필요

이미지
국내에 빅데이터가 알려진지도 수년이 훨 넘었고, 공공 및 기업에서도 나름 다수의 프로젝트들이 진행되거나 완료되어 성과를 내고 있다.    그런데 아직도 많은 프로젝트들이 전문가(Data Scientist)의 개인 역량에만 의존하다 보니 중간 산출물과 최종 분석모델 그리고 빅데이터 구현 시스템에 대한 품질 분산이 너무 크고 프로젝트의 성공과 실패를 가늠하기 쉽지 않은게 현실이다. 이제 빅데이터도 Data Scientist 개인역량으로만 좌지우지되는 프로젝트가 되어서는 않된다.   빅데이터 프로젝트를 진행하는 조직의 성숙도가 객관적으로 측정되고 프로젝트의 성패를 예측할 수 있는 완성도 높은 방법론이 필요한 시점이다. 얼마전 한국데이터베이스진흥원에서 진행하고 있는 빅데이터 전문가 양성과정 교육에서 "빅데이터 방법론과 기계학습"을 강의하면서 느낀점은 통계와 R문법, 시각화 도구 사용법과 Hadoop 등 기술에만 치우친 교육보다는 프로젝트를 기획하고 실제로 진행할 수 있는 Path를 알려주는 것도 이제는 빅데이터 교육의 한 섹션으로 자리를 잡아야 할 것 같다는 생각이 들었다.

빅데이터 활성화를 위한 다섯 종류의 데이터와 데이터 거래

기업섹터뿐만 아니라 공공섹터에서도 데이터 분석을 위해서는 외부데이터와의 Mashup이 대단히 중요하고 의미있는 결과를 도출하기 위해서는 필수라고도 말할 수도 있다. 이러한 데이터는 크게 다섯 종류가 있다.    1. 거래정보    2. 위치정보    3. 날씨정보    4. 뉴스정보    5. SNS정보 거래정보는 주로 카드사용이나 금융 • 상품거래와 관련된 데이터이고, 위치정보는 교통 및 이동 등에 대한 데이터로 구성될 수 있으며, 날씨정보는 시계열성의 위치별 다양한 기상 데이터이고, 뉴스와 SNS정보는 뉴스 기사와 인터넷 커뮤니케이션 데이터 등이다. 물론 이 다섯가지 이외에도 더 많은 정보들이 필요할 수 있다. 그러나 개인정보보호법과 데이터 거래에 대한 비즈니스 모델이 아직 명확하게 형성되지 못해 현재 몇몇 자료는 데이터 획득에 어려움을 격고 있어 빅데이터산업 활성화에 지장을 주고 있다. 얼마전 모 지자체에서 위치정보를 활용한 빅데이터 프로젝트가 오픈되었는데, 이 정보를 갖고 있는 대기업과 손을 잡지 못하면 제안도 할 수 없는 이해하기 어려운 헤프닝이 있었다.  물론 그 기업이 갖고 있는 자료도 전체 수집해야 될 모집단의 50%도 못되는 데이터였다. 개인정보보호법을 위반하면서 정보를 오픈하거나 불법 데이터 거래가 되어서는 절대 않되지만, 개인식별이 되지 않도록 변경된 정보는 거래가 될 수 있도록 방안을 찾아야 할 것이고 스타트업을 위해서는 샘플 데이터를 빨리 오픈하는 것이 필요하다고 생각된다. 그러한 관점에서 아래 기사는 시사하는 바가 있다. http://media.daum.net/economic/stock/market/newsview?newsid=20150603204413318

맥에서 여러 버전의 R을 사용하기

데이터 분석을 위한 R은 버전에 따라 패키지 설치나 업데이트가 되지 않는 경우가 있다. 특히 맥에서 seewave, tuneR 등의 멀티미디어 분석용 패키지는 버전을 많이 탄다. 맥에 여러 버전의 R을 설치하고, 필요시 쉽게 버전을 변경할 수 있는 Script를 소개합니다. 1. cran 사이트에서 필요한 버전의 R을 다운받아 설치하면     /Library/Frameworks/R.framwork/Versions 에 버전별로 Directory 생성 2. 같은 Directory에 Current라는 Link파일이 현재 사용중인 R 버전을 Pointing 3. 현재 사용중인 R 버전을 확인하려면 ./getR  버전을 변경하려면 ./setR 버전번호 getR     ls -l /Library/Frameworks/R.framework/Versions setR     RPATH=/Library/Frameworks/R.framework/Versions     ln -sfn $RPATH/$1 $RPATH/Current     ./getR

[데이터사이언티스트를 찾아서] “한국형 빅데이터 찾아야”

[2015.3 컴퓨터월드]  ‘빅데이터’라는 개념이 국내에 알려지고 인구에 회자되기 시작한지도 어느덧 수년이 흘렀다. 미국을 위시한 소프트웨어(SW) 선진국들의 빅데이터 산업이 성장단계에 진입한 사이, 국내 빅데이터 산업은 정체된 채 새로운 기회를 창출하지 못하고 있다는 우려가 일고 있다. 전문인력과 성공사례의 부족은 세간의 부분적으로 왜곡된 인식과 맞물려, 일각에서는 ‘빅데이터는 한물갔다’고 언급되기도 한다. 이 가운데 윤석용 포스코경영연구소 빅데이터TF팀 부장은 “국내 빅데이터 산업의 성공을 위해 ‘한국형 빅데이터’를 찾아야 한다”고 주장한다. 이를 위해 ‘빅데이터 방법론’이라는 새로운 돌파구를 제시하는 그의 이야기에 귀기울여본다. http://m.comworld.co.kr/news/articleView.html?idxno=48706

Raspberry PI에 R을 설치하여 빅데이터 분석

IoT 구현을 위한 플랫품으로 요즘 Open Source Hardware가 많이 이야기되고 있다. 명함 크기만한 라즈베리파이(Raspberry PI) 보드에 빅데이터 분석을 위한 R을 올려보고 싶다는 모순된(?) 생각에서 시작했지만, 빅데이터의 기계학습을 통해 만들어진 모델을 Open Source Hardware에 적용할 수 있는 연결고리를 찾을 수 있어 의미가 있었다. 자, 그럼 Tiny 보드 와 Big 패키지 의 연결을 시작해 봅시다. 1. Raspberry PI 2에 라즈비안을 설치     (이 부분은 별도 포스팅 예정, GPIO를 이용한 재미난(?) 디바이스 컨트롤을 포함하여) 2. 외부에서 CUI로 접속을 위해서는 $ sudo raspi-config 를 실행하여      Advanced Options 메뉴를 선택하여 sshd를 Enable 상태로 설정 3. 외부에서 GUI로 접속하기 위해서는 $ sudo apt-get install tightvncserver 설치후      $ vncserver를 실행 4. 설치된 라즈비안은 데비안의 wheezy 버전이라, R을 설치하면 2.x 버전이 설치됨     $ sudo apt-get install r-base     (라즈비안을 jessie 버전으로 업그레이드하면 R을 3.1.1버전으로 설치 가능) 5. debian과 ubuntu 버전을 참조하여 sources.list를 수정하여 설치해도 에러발생 jessie (vivid, utopic, trusty) wheezy (saucy, raring, quantal, precise, oneiric) squeeze (natty, maverick, lucid)   6. 시간이 좀 걸리지만 R 최신버전의 소스를 다운로드하고 컴파일 $ wget http :// cran.nexr.com / src / base / R -3 / R -3.1.2 .tar.gz $ tar xvfz R -3.1.2 .tar.gz