빅데이터 구성에서 분석까지 - 가상머신 설치

Big Data Ecosystem & Analysis - Setup Virtual Machine 

빅데이터 분석을 위한 데이터 수집저장 인프라는 RDBMS, ETL, Data Warehouse 등을 서로 연동하여 구성할 수도 있지만 지금의 대세는 Hadoop Ecosystem이 아닌가 생각된다.
그런데 Hadoop은 Apache 오픈 시스템으로 구성되어 있어 복잡도가 매우 높고 설치 및 운영이 쉽지 않아 Hortonworks, MapR, Cloudera 등에서 패키지로 묶어 무료 또는 제품으로 판매하고 있다.

본 연재는 Hadoop 인프라 구성에서부터, 데이터 수집저장, 빅데이터 분석 등 일련의 과정을 실습을 통하여 살펴보려고 한다.

그 첫 주제로 한 대의 PC에 가상머신을 구성하고 Guest OS인 VM을 만들어 복제하는 과정을 살펴본다.

한 대의 PC에서 여러 개의 Hadoop 서버가 운영되기 위해서는 먼저 가상머신을 구성해야 한다. Vmware, Citrix 등 여러 회사의 제품들이 있지만 무료에 성능도 좋은 Oracle의 VirtualBox를 선택하였다.
VirtualBox는 Mac, Linux, Windows 등 모든 PC OS에서 구성이 가능하므로 http://www.virtualbox.org/wiki/Downloads 에서 PC에 맞는 최신 버전으로 다운로드하여 설치한다.

Guest OS는 Ubuntu, SUSE 등 여러 Linux 패키지가 있으나 서버 OS로 많이 사용되고 있는 Centos를 VM으로 구성한다.
Centos는 http://ftp.daum.net/centos/6.5/isos/x86_64 에서 iso 파일로 다운로드 하여 VirtualBox에서 VM으로 구성한다.   VM의 Main Memory와 HDD 등은 PC 환경에 맞게 설정하고 네트워크 Adapter는 인터넷 연결을 위한 NAT용과 VM간 연결을 위한 Host전용 이렇게 2개로 구성한다.

CentOS설치가 완료되면 VM을 가동시켜 root 계정으로 로그인하고  
/etc/sysconfig/network-scripts/ifcfg-eth0
/etc/sysconfig/network-scripts/ifcfg-eth1 
파일을 열어 ONBOOT=yes로 변경한 다음 아래 명령어를 통하여 네트워크 프로세스를 restart 시킨다.
# service network restart

만약 ifcfg-eth1 파일이 없으며 ifcfg-eth0 파일을 복사하여 사용한다.
eth0와 eth1 네트워크 디바이스가 활성화 되었다는 메시지를 확인 할 수 있으며
# ifconfig -a
명령어를 통하여 각 디바이스별 IP주소도 확인이 가능하다.
설치된 VM 내외부에서 ping 테스트를 통하여 네트워크 상태를 확인한다.

VM이 정상적으로 작동되면 아래 명령어를 통하여 Guest OS 패치작업 후 VM을 종료시킨다.
# yum -y update

Hadoop은 1개의 VM으로도 구성이 가능하지만 3개 이상의 VM으로 구성하는 것이 일반적이므로 VirtualBox에서 VM을 복제한다.
VM 복제를 위한 Cloning 과정은 메뉴 선택과 몇 번의 클릭으로 빠르고 쉽게 진행되지만 VM의 IP 주소와 MAC 주소는 각각 다르게 설정해야 한다.
먼저 복제된 VM의 설정에서 2개의 Adapter의 MAC 주소를 새롭게 변경시킨 후 VM을 Booting 한다.   root 계정으로 로그인 한 후 
/etc/udev/rules.d/*-persistent-net.rules 
파일을 삭제하고 
/etc/sysconfig/network-scripts/ifcfg-eth0  
/etc/sysconfig/network-scripts/ifcfg-eth1 
파일을 열어 MAC과 UUID 줄을 삭제하고 저장한다.
물론 여기서도 ifcfg-eth1 파일이 없으며 ifcfg-eth0 파일을 복사하여 사용한다.

그리고 VM을 Reboot 한 후 VM의 내외부에서 ping 테스트를 통하여 네트워크 상태를 확인한다.

다음에는 Hortonworks의 HDP 설치와 Ambari를 이용한 Hadoop의 구성을 살펴볼 예정이다.

댓글

이 블로그의 인기 게시물

맥에서 여러 버전의 R을 사용하기

오즈와 오즈비, 왜 사용하지?

Raspberry PI에 R을 설치하여 빅데이터 분석