10월, 2014의 게시물 표시

빅데이터 구성에서 분석까지 - ssh key 설치

Big Data Ecosystem & Analysis - Setup SSH KEY Hadoop 서버는 1대로 설치가 가능하지만 보통은 3대 이상으로 구성을 한다. 이렇게 함으로써 HDFS의 특성중의 하나인 서비스의 Availablility를 높일 수 있다. 그리고 Hadoop은 Scale Out 방식으로 시스템을 확장할 수 있기에 실 운영시 많은 서버들이 연결된다. 이렇게 연결된 서버는 Name Node 역할, Data Node 역할, Yarn 지원, 그리고 Hadoop Ecosystem 간의 다양한 프로세스간 통신이 이루어 져야 하는데 이를 ID/Password 방식으로 사용할 수는 없기에 개인Key와 공개Key를 이용한 인증방식인 SSH를 사용하게 된다. 다음은 서버에 ssh를 구성하는 방법을 설명한다. 각 서버에 ssh client와 ssh server를 설치한다. # yum -y install openssh-server openssh-clients 그리고 각 서버에서 sshd 서비스를 시작한다. # chkconfig sshd on # service sshd start 한 대의 서버에서 ssh-keygen을 이용하여 public key와 private key 생성한다. # ssh-keygen -t rsa RSA 암호화 방식으로 생성된 파일은 ~/.ssh 폴더에 다음과 같은 파일이 만들어진다. id_rsa id_rsa.pub 만들어진 public key를 다른 서버에서 사용할 수 있는 파일로 만든다. # cp id_rsa.pub authorized_keys 이렇게 만들어진 3개의 파일을 Hadoop 시스템 각 서버에 복사한다. # scp ~/.ssh/*   user@server:~/.ssh/ 동일한 Key를 갖고 있는 서버들이므로 ssh를 이용하면 ID와 Password 없이 접속이 되는 것을 확인 할 수 있다. 구성시 유의사항    1. 서버관리 및 Hadoop 설정을 위하여 /etc/hosts 파일

가트너의 2015년 10대 전략기술

Top 10 Strategic Technology Trends for 2015 가트너에서 발표한 2015년 10대 전략기술은 아래와 같다.  (Orlando, Fla., Oct 8, 2014)   1. Computer Everywhere 2. The Internet of Things 3. 3D Printing 4. Advanced, Pervasive and Invisible Analytics 5. Contect-Rish Systems 6. Smart Machines 7. Cloud/Client Computing 8. Software-Defined Applications and Infrastructure 9. Web-Scale IT 10. Risk-Based Security and Self-Protection 기술 항목을 살펴보면, 전반적으로 Cloud와 IoT가 큰 흐름을 형성하는 것 같다. 또한 Analytics, Smart Machine, Security 등은 Big Data를 아우르는 항목이고 IoT의 Backend에는 Big Data 인프라와 Data Mining을 기본으로 하기에 Big Data는 2015년에도 전략기술에 Base를 형성하고 있다고 해석된다. Gartner Paper

빅데이터 구성에서 분석까지 - 가상머신 설치

Big Data Ecosystem & Analysis - Setup Virtual Machine   빅데이터 분석을 위한 데이터 수집 • 저장 인프라는 RDBMS, ETL, Data Warehouse 등을 서로 연동하여 구성할 수도 있지만 지금의 대세는 Hadoop Ecosystem이 아닌가 생각된다. 그런데 Hadoop은 Apache 오픈 시스템으로 구성되어 있어 복잡도가 매우 높고 설치 및 운영이 쉽지 않아 Hortonworks, MapR, Cloudera 등에서 패키지로 묶어 무료 또는 제품으로 판매하고 있다. 본 연재는 Hadoop 인프라 구성에서부터, 데이터 수집 • 저장, 빅데이터 분석 등 일련의 과정을 실습을 통하여 살펴보려고 한다. 그 첫 주제로 한 대의 PC에 가상머신을 구성하고 Guest OS인 VM을 만들어 복제하는 과정을 살펴본다. 한 대의 PC에서 여러 개의 Hadoop 서버가 운영되기 위해서는 먼저 가상머신을 구성해야 한다. Vmware, Citrix 등 여러 회사의 제품들이 있지만 무료에 성능도 좋은 Oracle의 VirtualBox를 선택하였다. VirtualBox는 Mac, Linux, Windows 등 모든 PC OS에서 구성이 가능하므로  http://www.virtualbox.org/wiki/Downloads 에서 PC에 맞는 최신 버전으로 다운로드하여 설치한다. Guest OS는 Ubuntu, SUSE 등 여러 Linux 패키지가 있으나 서버 OS로 많이 사용되고 있는 Centos를 VM으로 구성한다. Centos는 http://ftp.daum.net/centos/6.5/isos/x86_64 에서 iso 파일로 다운로드 하여 VirtualBox에서 VM으로 구성한다.    VM의 Main Memory와 HDD 등은 PC 환경에 맞게 설정하고 네트워크 Adapter는 인터넷 연결을 위한 NAT용과 VM간 연결을 위한 Host전용 이렇게 2개로 구성한다. CentOS설치가 완료되면 VM을 가