2014의 게시물 표시

빅데이터 구성에서 분석까지 - ssh key 설치

Big Data Ecosystem & Analysis - Setup SSH KEY Hadoop 서버는 1대로 설치가 가능하지만 보통은 3대 이상으로 구성을 한다. 이렇게 함으로써 HDFS의 특성중의 하나인 서비스의 Availablility를 높일 수 있다. 그리고 Hadoop은 Scale Out 방식으로 시스템을 확장할 수 있기에 실 운영시 많은 서버들이 연결된다. 이렇게 연결된 서버는 Name Node 역할, Data Node 역할, Yarn 지원, 그리고 Hadoop Ecosystem 간의 다양한 프로세스간 통신이 이루어 져야 하는데 이를 ID/Password 방식으로 사용할 수는 없기에 개인Key와 공개Key를 이용한 인증방식인 SSH를 사용하게 된다. 다음은 서버에 ssh를 구성하는 방법을 설명한다. 각 서버에 ssh client와 ssh server를 설치한다. # yum -y install openssh-server openssh-clients 그리고 각 서버에서 sshd 서비스를 시작한다. # chkconfig sshd on # service sshd start 한 대의 서버에서 ssh-keygen을 이용하여 public key와 private key 생성한다. # ssh-keygen -t rsa RSA 암호화 방식으로 생성된 파일은 ~/.ssh 폴더에 다음과 같은 파일이 만들어진다. id_rsa id_rsa.pub 만들어진 public key를 다른 서버에서 사용할 수 있는 파일로 만든다. # cp id_rsa.pub authorized_keys 이렇게 만들어진 3개의 파일을 Hadoop 시스템 각 서버에 복사한다. # scp ~/.ssh/*   user@server:~/.ssh/ 동일한 Key를 갖고 있는 서버들이므로 ssh를 이용하면 ID와 Password 없이 접속이 되는 것을 확인 할 수 있다. 구성시 유의사항    1. 서버관리 및 Hadoop 설정을 위하여 /etc/hosts 파일

가트너의 2015년 10대 전략기술

Top 10 Strategic Technology Trends for 2015 가트너에서 발표한 2015년 10대 전략기술은 아래와 같다.  (Orlando, Fla., Oct 8, 2014)   1. Computer Everywhere 2. The Internet of Things 3. 3D Printing 4. Advanced, Pervasive and Invisible Analytics 5. Contect-Rish Systems 6. Smart Machines 7. Cloud/Client Computing 8. Software-Defined Applications and Infrastructure 9. Web-Scale IT 10. Risk-Based Security and Self-Protection 기술 항목을 살펴보면, 전반적으로 Cloud와 IoT가 큰 흐름을 형성하는 것 같다. 또한 Analytics, Smart Machine, Security 등은 Big Data를 아우르는 항목이고 IoT의 Backend에는 Big Data 인프라와 Data Mining을 기본으로 하기에 Big Data는 2015년에도 전략기술에 Base를 형성하고 있다고 해석된다. Gartner Paper

빅데이터 구성에서 분석까지 - 가상머신 설치

Big Data Ecosystem & Analysis - Setup Virtual Machine   빅데이터 분석을 위한 데이터 수집 • 저장 인프라는 RDBMS, ETL, Data Warehouse 등을 서로 연동하여 구성할 수도 있지만 지금의 대세는 Hadoop Ecosystem이 아닌가 생각된다. 그런데 Hadoop은 Apache 오픈 시스템으로 구성되어 있어 복잡도가 매우 높고 설치 및 운영이 쉽지 않아 Hortonworks, MapR, Cloudera 등에서 패키지로 묶어 무료 또는 제품으로 판매하고 있다. 본 연재는 Hadoop 인프라 구성에서부터, 데이터 수집 • 저장, 빅데이터 분석 등 일련의 과정을 실습을 통하여 살펴보려고 한다. 그 첫 주제로 한 대의 PC에 가상머신을 구성하고 Guest OS인 VM을 만들어 복제하는 과정을 살펴본다. 한 대의 PC에서 여러 개의 Hadoop 서버가 운영되기 위해서는 먼저 가상머신을 구성해야 한다. Vmware, Citrix 등 여러 회사의 제품들이 있지만 무료에 성능도 좋은 Oracle의 VirtualBox를 선택하였다. VirtualBox는 Mac, Linux, Windows 등 모든 PC OS에서 구성이 가능하므로  http://www.virtualbox.org/wiki/Downloads 에서 PC에 맞는 최신 버전으로 다운로드하여 설치한다. Guest OS는 Ubuntu, SUSE 등 여러 Linux 패키지가 있으나 서버 OS로 많이 사용되고 있는 Centos를 VM으로 구성한다. Centos는 http://ftp.daum.net/centos/6.5/isos/x86_64 에서 iso 파일로 다운로드 하여 VirtualBox에서 VM으로 구성한다.    VM의 Main Memory와 HDD 등은 PC 환경에 맞게 설정하고 네트워크 Adapter는 인터넷 연결을 위한 NAT용과 VM간 연결을 위한 Host전용 이렇게 2개로 구성한다. CentOS설치가 완료되면 VM을 가

품질관리의 한계비용체증의 법칙과 빅데이터 활용

글로벌 기업으로 성장한 국내 제조업체는 제품의 품질향상을 위하여 그 동안 많은 노력을 기울여 왔고, 현재는 99%를 넘어 99.99% 이상의 품질 목표를 달성하기 위하여 피나는 노력을 경주하고 있다. 이는 상공정, 하공정을 포함한 모든 내외부 프로세스가 극한의 노력을 기울여야 얻을 수 있는 결과일 것이다. 우리는 Input과 Output의 관계를 선형적으로 해석하려는 경향이 있다. 10의 노력으로 100을 얻었다면, 20의 노력으로 200을 얻을 수 있다는 생각이다. 물론 맞는 논리이고 쉽게 나타나는 사회 현상이기도 하다. 그러나 여기서 한계비용체증의 법칙 을 이해할 필요가 있다. 생산단위가 증가함에 따라 같은 비용을 투입해도 생산증가율이 감소하면서 수렴되는 현상을 말한다. Middle 이나 Low Tier를 형성하는 기업은 선형관계의 품질관리를 할 수 있지만, Top Tier에 있는 기업은 한계비용체증의 법칙에 따른 품질관리를 해야 한다. 기존의 방법으로는 품질 비용이 너무 크거나 품질 목표의 달성이 불가능 할 수 있다. 그러나 그 동안 쌓아 놓은 많은 데이터와 내외부 데이터를 연결하여 입체적으로 분석하는, 즉 빅데이터 방법 을 활용한다면 한계비용체증의 법칙을 벗어나 품질관리의 새로운 돌파구가 될 수 있다.

빅데이터 프로젝트 추진시 고민들

최근 IDG 에서, 빅데이터 프로젝트 추진시 어려운 점에 대한 설문조사 결과를 발표했다. 64%의 응답자가 신뢰할 수 있는 데이터 확보에 대한 어려움을 다음으로 57%의 응답자가 분석역량을 가지 Data Scientist의 부족을 꼽았다. 그리고 다양한 데이터의 확보, 시스템 통합에 대한 고민 순 이었다. 빅데이터 추진을 위해서는 데이터의 양도 중요하지만, 의미가 있는 양질의 데이터 확보가 무엇보다 중요하다. 이 문제는 BI, DW, 6시그마 때도 많이 이야기된 내용이지만, 데이터 오염 최소화와 스마트 데이터 확보를 위한 지속적인 노력이 필요하다. 그러나 두 번째 이슈인 '분석 역량' 즉 Data Scientist의 양성은 결코 쉽지 않은 길이다. 양질의 데이터와 툴이 있다한들 이것을 분석하고 해석할 수 있는 전문가가 없다면 아무 소용이 없는 일이다. Data Scientist는 통계학, 정보기술, 데이터 마이닝, 분석도구, 분석 도메인에 대한 지식 등 너무 많은 역량을 요구하고 있어 사실상 국내에는 찾기가 쉽지 않다. 양성 또한 단기간 이루어지기 어려워 정부와 산학연간의 긴밀한 협력을 통하여 중장기적인 전략을 세워 추진해야 할 것이다.

Becoming a Data Scientist

이미지
10개의 Metro Line(Domain)과 약 200 여개의 Station으로 구성된 Data Scientist의 Curriculum Metomap 입니다.   Data Scientist가 되기 위해서는 여기서 제시하는  Station에서 몇 개의 Out-Of-Date 항목은 제외하고 3,4백개의 Station이 필요합니다. 또한 Biz Domain에 대한 지식, 의사 소통 기술, 프로젝트 관리 능력, Presentation 능력 등도 Big Data Expert가 되기 위해서는 필요한 Metro Line 입니다.   1. Fundamentals   2. Statistics   3. Programming   4. Machine Learning   5. Text Mining / Natural Language Processing   6. Data Visualization   7. Big Data   8. Data Ingestion   9. Data Munging 10. Toolbox ref   :  http://nirvacana.com/thoughts/becoming-a-data-scientist/

빅데이터 시대, 어떤 학과목이 중요할까요?

빅데이터 시대, 어떤 학과목이 중요할까요? 어느 분이 이렇게 답을 하네요.  "Big Data는 빅데이터스럽게, 모든 과목"  ^^ 틀리지는 않았지만, 빅데이터의 발전 과정을 역으로 추정해 보면 정답이 보입니다. Big Data 분석을 Data Mining의 발전과정으로 보는 전문가들이 있습니다. 혹자는 Big Data 분석을 "데이터 마이닝 Version 2" 라고 말하기도 합니다.  이러한 데이터 분석과정은 확률과 통계를 기본으로 하죠. 그럼 통계는 어떤가요? 당연히 수학을 기본으로 합니다. 몇몇 Data Scientist와 데이터 분석으로 토의를 하다 보면,  왜 독립변수에 지수역함수인 Log를 취해야 하는지, 라플라스 변환은 왜하는지, 단위행렬과 역행렬의 관계를 이해지 못하고 Matrix 처리를 하는 등  수학적 이해가 부족한 상태에서 분석결과를 제시합니다. 좀 어이가 없죠. 수학은 빅데이터뿐만 아니라 모든 이학 공학 학문에 기초가 되는 중요한 분야입니다.

DT, "빅데이터"의 Synonym

Big Data에 대한 강의를 하고 나면 Six Sigma 또는 Data Mining 업무를 했던 분들이 늘 하는 이야기가 있다. "신경망, SVM, RMSE...기존에 했던 분석방법과 똑 같은데, 뭐가 다른거지?" Data Mining과 Big Data를 구분하려는 의도의 이러한 질문에 답을 하고 공감을 얻기까지는 많은 시간이 걸린다. 그렇다고 SNS분석, Text분석으로만 Big Data를 정의한다면 이런 분들과 쉽게 공감할 수 있지만, 이 또한 Big Data를 정확하게 설명한다고 할 수 없다.  그럼 Big Data라는 용어를 Data Mining의  小史 를 통하여 이해하면 어떨까? 먼저,  몇 년 전까지만 해도 BT, NT, CT 등 산업과 정보기술을 융합한 이러한 단어들이 많이 회자 되었다. 정보기술과 생명공학을 융합한 Bio Technology, 나노공학과 융합한 Nano Technology, 문화컨텐츠와 융합한 Contents Technology. 그럼 데이터 분석과 정보기술을 융합한 Data Technolgy, 즉 DT를 지금의 Big Data의 Synonym으로 보면 어떠할지?  디지털 사회로 변화되면서 나타나는 엄청난 양의 Data와 이를 분석하기 위한 진보된 Data Mining, 그리고 Hadoop Ecosystem으로 대변되는 IT의 결합. 이것이 지금의 Big Data를 이야기 하고 있다면 무리는 아닐 것이다. 그럼 Big Data를 데이터의 분석 측면에서 발전 과정을 정리해 보자. 통계학의 기본은 확률에서 시작하는데 이는 파촐리, 파스칼에서 콜모고르프로 이어지는 500여년이 넘는 역사를 갖고 있고 혹자는 기원전으로 확률의 역사를 넓히기도 한다. 확률에 기반한 통계는 기술과 추론으로 나뉘어 발전하면서 표본을 이용한 모수를 찾는 학술적 접근이였다. 이러한 통계학은 기업에서 발생되는 Data를 분석하기 위한 도구로 활용되면서 Data Mining, 이를 응용한 Six

Big Data는 도구가 아니다.

아직 Big Data가 Gartner의 Hyper Cycle의 정점에서 맴돌고 있듯이 Terminology의 거품이 많은 것이 사실이다.   Big Data만 도입하면 Silver Bullet 처럼 기업의 모든 문제를 풀어낼 수 있다는 오해가 바로 그 거품의 한 예이다. Big Data의 도구를 도입하고 몇 개의 PoC나 Project를 수행해 봤다고 해서 그러한 고질적인 문제를 모두 해결할 수 있다고 확신하는 것은 큰 오판일 수 있다. 그 동안 담당자의 감이나, 근거가 부족한 전략가들의 판단, 그리고 나에게 맞지 않을 수도 있는 외부 Bench Marking에 의존했던 의사결정을 데이터에 기반하여(Data-based Decision) 처리하는 기업문화를 만들고, 부분 최적화에서 전체 최적화로 내부 최적화에서 외부 최적화로 데이터의 범위를 넓히고, 그 동안 등한시 했던 데이터의 품질을( * Smart Data ) 높이려는 측면으로 Big Data를 봐야 할 것이다. 따라서 Big Data는 IT 인프라를 구축하는 것보다 기업문화를 바꾸고, 데이터에 대한 인식을 변화시키려는 새로운 혁신방법으로(Innovation) 접근하는 것이 보다 효과적이다. 그러나 다른 혁신방법과는 다르게 모든 임직원이 Big Data를 자유롭게 다루고 이를 이해하기까지는 너무 많은 시간과 높은 장벽이 있는 것 또한 사실이다.   따라서 데이터에 기반한 의사결정은 기업문화로써 확대해 나가고, Big Data를 전문적으로 처리하고 이를 활용하기 위해서는 기업내에 Biz 전문가, Data Science, Data Designer 등으로 구성된 CoE의 구성이 필요하다.  

빅데이터의 반대말이 무엇일까요?

이미지
Big Data의 반대말이 무엇일까요? 많은 분들이 Small Data라고 말하겠지만, Expensive Data라고 이야기 한다면 어떨까요? 빅데이터라는 용어의 역사는 오래 되었지만, 우리에게 이렇게 성큼 다가오게 만든 기업은 Google입니다. 세계 모든 웹사이트를 Crawling한 엄청난 데이터를 저장하고 Indexing하여 검색엔진과 다양한 데이터 서비스로써 제공하고 있는 Google이, 만약, 기존과 같이 고가의 Hardware 및 Software 기반으로 구축 했다면, 아마, Google 서비스는 지금의 형태로(비용 및 서비스 측면) 나타나기 어려웠습니다. Google은 Commodity Hardware 또는 COTS를 활용하면서도 안정적으로 서비스를 할 수 있는 기술을(GFS 등) 개발하여 외부에 공개했고, 이를 Java 언어로 구현하여 Apache 오픈시스템으로 공개한 더그 커팅이라는 프로그래머가 있었기에 가능하게 되었습니다.