오늘은 구글, 페이스북, AT&T에서 자신들의 데이터센터를 어떻게 만들어내고 있는지 한번 살펴보도록 하겠습니다. 본 글은 Jerry(정명훈)와 놀새(최지웅)가 2014년도 10월에 미국 달라스에서 있었던 SDN/NFV에 컨퍼런스에 참석했던 내용을 설명하며 소프트웨어 데이터센터를 만들기 위한 네트워크에 대해서 알아봅니다.
정명훈 이사는 오픈소스컨설팅에서 컨설팅 서비스 사업을 담당하고 계십니다. 오늘 발표 내용은 SDDC에 대한 부분 중 NFV에 대한 내용을 설명합니다.
자, 이제 시작해 볼까요? 컨퍼런스에 가던 당시에 에볼라 바이러스가 텍사스에 환자가 나왔던 상태라 걱정이 조금 있었습니다. 하지만 가는 것에 대해 주변분들은 바이러스 걱정 말고 총맞는 거라 걱정(?)하라는 걱정을 해주셨습니다. 부자에 거친 동네라는 이야기를 워낙에 많이 들어서 그런 것 같습니다.
결과론적으로 SDN/NFV 서밋은 저희에게 상당히 유익한 시간이 되었고, 그 곳에서 나왔던 여러 가지 세션들이 있었는데 그 중 인상 깊었던 내용을 설명하겠습니다. 우리가 들었던 세션 중 AT&T, 페이스북, 구글(발표 순서)의 데이터센터 아키텍처 및 하부의 네트워크 구성에 대한 부분을 설명하는 세션이 있었습니다.
이번에 진행했던 세미나에서 Athena-Spider에 대한 내용은 하단의 SlideShare와 정명훈 이사의 꾀꼬리 같은 목소리가 담긴 MP3 파일을 같이 들어주시는 수고(?)를 좀 해주셔야 합니다. 저희가 녹화 장비가 없어 따로 국밥을 만들어 드려서 죄송합니다.
이제 세 업체에 대한 요약을 진행해보도록 하겠습니다.
1. AT&T
AT&T는 전세계 브랜드 가치 2위의 통신사입니다.(http://www.ddaily.co.kr/news/article.html?no=118708) 1위는 미국의 버라이즌이긴 하지만 엄청난 규모의 서비스를 자랑하고 있습니다. 국내의 경우 KT가 30위, SKT 33위, LGU+가 58위, SKB가 118위입니다.
AT&T가 가지고 있는 아픔은 현재 국내 통신사도 모두 가지고 있는 것들이라고 할 수 있습니다. 그것은 바로 모바일의 등장과 함께 트래픽의 증가를 수용해야 하는데, 수익은 늘지 않는다라는 문제입니다. 즉 투자 비용 대비 회수율이 적으니 이익률이 줄어들게 되는 상황이 발생을 하게 된 것입니다.
기존에 AT&T는 자사의 통신망을 구축하기 위하여 많은 네트워크 업체로부터 장비들을 구매해야 했습니다. 워낙 가격들이 고가인데다가 특화된 업체로부터 사니 비용이 엄청나게 많이 들어가는 영역 중의 하나이기도 합니다. AT&T는 이를 개방형 표준 형태로 만들어서 경쟁을 통해 비용을 절감할 수 있는 방법을 모색을 하기 시작했습니다. 초기 Domain 1.0 모델을 통해 비용을 절감할 수 있도록 했다고 합니다.
Domain 2.0에서는 SDN/NFV의 약진과 더불어 비용 절감과 동시에 대역폭을 늘리는 프로젝트를 수행하고 있다고 합니다. 즉 현재의 상황을 Domain 2.0이라는 이름의 공급망 관리, 개방형 표준 네트워크 형태의 새로운 아키텍처로 변화시키고 있다고 합니다.
Domain 2.0 효율화의 목적은 SDN/NFV를 모토로 하고 있으며, 아키텍처를 표준화하고 있으며 장비 제공 업체를 관리하겠다는 목적이 가장 크다고 합니다.
[그림. Domain 1.0 에서 Domain 2.0으로]
[그림.가상서비스로의 변화]
2. 페이스북
전세계 최대 SNS – 11억명의 사용자와 매일 7.2억명이 로그인을 수행하고 있으며, 매일 47억건의 콘텐츠 추가, 45억건의 좋아요가 발생하고 있다고 합니다. 사실 그 숫자도 어마머마한 것이지만 재미있는 것 중 하나는 한 명의 엔지니어가 20,000대의 서버를 관리하고 있다는 것입니다. 이는 단순한 관리체계를 통해서는 절대 불가능한 숫자입니다. 물리적으로 서버 설치부터 네트워크까지 한다는 것은 모두 자동화된 관리체계를 가지고 있기 때문에 가능하다고 발표했습니다. 이를 위해 X86 서버 디자인을 직접 수행하고 있으며, 랙의 TOR에 대한 SDN/NFV 컨트롤러를 직접 만들어 내부의 서버 간 통신에 대한 처리를 수행한다고 합니다.
이후 구글에서도 나오는 이야기이지만 데이터센터간 East-West 트래픽이 엄청나게 증가하고 있는 상황에서 그러한 직접 설계 및 구현은 페이스북에 필수불가결한 요소가 되고 있다고 하며, 마지막으로 인상깊었던 이야기 중의 하나는 아래와 같습니다.
“있는 것을 찾아서 잘 활용하고 없으면 우리가 만든다”
3. 구글
구글은 워낙 큰 업체이고 설명이 필요없습니다, 수백만 대의 서버를 LXC기반으로 관리하고 있으며, 네트워크 입장에서는 I-Scale 아키텍처(North-South Bound)를 가지고 있으며, G-Scale 아키텍처(데이터센터간 아키텍처 – East-West Traffic) 또한 보유하고 있다고 합니다.
구글은 현재는 데이터센터 내부간 트래픽이 전체의 80%를 차지하고 있는 상태라고 합니다. 구글의 경우 엄청난 네트워크 트래픽을 발생시키고 있는데 효율이 1%만 떨어져도 엄청난 비용 손실이 발생한다고 합니다. 이를 G-Scale 아키텍처를 통해 트래픽을 데이터 센터로 적절하게 분산하는데, 적절하게 분산한다는 의미는 특정 데이터센터의 자원이 남으면 데이터 처리를 가용률이 좋은 데이터센터로 전달하여 처리하는 구조를 사용을 의미합니다. 심지어 전기요금이 싼 시간에는 해당 데이터센터로 데이터를 전송하여 처리하도록 아키텍처를 설계했다고 합니다.
즉 데이터센터의 가용률을 최대로 만드는 것이 목표이며, 구글의 데이터센터 PUE는 1.1로 에너지 낭비를 10%이하로 줄이며 그린아이티를 구현하고 있다고 자랑합니다.
위의 세 가지 케이스를 살펴보면 현재 엄청난 데이터 센터를 운영하는 미국의 기업들이 가진 키워드가 있는데 이는 “Programmable(Automation)”, “Orchestration”, “Convergence”로 요약할 수 있습니다.
마지막 여담으로 점심시간 스탠딩 식사 중 AT&T에 30년동안 근무하고 계시는 50대 중반의 엔지니어와 대화하는 일이 있었는데, 그 분께서 하시는 말씀이 “나는 평생 네트워크만 해왔다. 요즘은 소프트웨어에 관심도 많다. 지금은 당신(소프트웨어 엔지니어)과 내가(네트워크 엔지니어) 일을 나누어서 하지만 나중에는 그 경계가 없어질 것 같다”고 하시네요.
세미나와 Athena-Spider에 대한 자세한 설명은 아래의 슬라이드쉐어와 정명훈이사의 발표 녹음파일을 들어주십시오.
세미나 발표 음성: 00:00/36:15
SDDC(software defined data center)에서 NFV의 역할과 관리도구 (세미나 발표 자료) from 정명훈 Jerry Jeong