AI 시대의 데이터 센터 설계: AI와 레거시 인프라의 통합
Chris Sharp, Digital Realty CTO
본 아티클은 인공지능 및 AI-ready 데이터 센터를 다루는 3부작 시리즈 중 마지막 글입니다.
- 1부 읽기: 디지털 리얼티와 함께 AI의 가능성을 발휘하고 변화를 이끌어보세요
- 2부 읽기: "AI 전성시대가 도래하면 데이터 센터는 쇠퇴할 것이다." 과연 그럴까요?
- 3부 계속 읽기
인공지능(AI) 시대에 기존 데이터 센터 설계가 AI를 위한 최신 요구 사항을 완벽하게 적용할 수 있는지 어떻게 평가할 수 있을까요? IT 리더가 AI 전략을 개발하고 인프라 환경을 평가할 때 고려해야 할 주요 사항이 있습니다.
이 블로그의 주요 내용은 다음과 같습니다.
- 레거시 IT 인프라로 간주되는 것은 무엇인가요?
- 새로운 AI 장비를 기존 인프라와 통합하는 방법
- 데이터 센터 설계 및 레거시 인프라 평가
- 데이터 센터 개조 기술
AI 워크플로우로 인해 고유한 전력 및 냉각 요구 사항에 대한 새로운 과제와 질문이 제기되고 있지만, IT 리더는 데이터 센터 설계 상태를 평가하여 새롭게 부상하며 진화하는 최신 요구 사항에 부합하도록 해야 합니다.
레거시 IT 인프라란 무엇인가요?
레거시 인프라 식별은 직관과 경험을 통해 이루어집니다. IT 장비의 관점에서는 최첨단이 아닌 것은 모두 레거시라고 가정할 수 있습니다. 하지만 이는 사실이 아닌 경우가 많습니다.
전 세계 IT 시스템 중 상당수는 최신 최고급 하드웨어에서 실행되지 않습니다. 하이퍼스케일 클라우드부터 소규모 엔터프라이즈에 이르기까지 모든 기업의 일반적인 예산, 지출, 장비 업데이트 주기로 인해 이러한 현상은 계속될 것입니다.
AI 시대에도 모든 랙이 100kW를 소비하거나 액체 냉각이 필요한 것은 아닙니다. 네트워크, 메모리 통합 또는 스토리지 어플라이언스로 가득 찬 랙은 여전히 각각 15kW 미만이며 공냉식 냉각에 의존할 수 있습니다.
전력 소모만을 기준으로 IT 인프라를 레거시인지 여부를 분류하기가 어려워지고 있습니다. 다양한 업계 벤치마크에 따르면 차세대 CPU(중앙 처리 장치), GPU(그래픽 처리 장치), 네트워크 장비 및 기타 IT 인프라 자산은 이전 세대보다 훨씬 더 빠르지만 이것만으로는 기존 장비를 레거시 인프라로 지정하기에 충분하지 않은 경우가 많습니다.
가장 좋은 방법은 현재 인프라가 새로운 세대의 장비가 지원하지 않는 방식으로 조직의 개발 및 운영 활동을 방해하고 있는지 확인하는 것입니다.
그렇다면 레거시 인프라로 분류해야 합니다.
기존 IT 인프라와 AI 통합
IT 장비의 경우, AI 통합은 기존 서버와 그 지원 장비를 활용하여 새로운 AI 기능을 수행하거나 새로운 AI 전용 장비로 배포된 하드웨어를 보강하여 새로운 AI 기능을 수행하는 것으로 생각할 수 있습니다.
후자의 예로 기존 CPU 기반 서버 랙에 새 GPU 기반 서버 두 대를 추가해서 회사 내부 사용자들에게 챗봇을 실행할 수 있는 병렬 컴퓨팅 기능을 더 많이 제공하는 경우를 들 수 있습니다.
이는 새로운 AI 고밀도 배포를 수용하는 것보다 쉬워 보일 수 있지만 다음과 같은 세 가지 과제가 있습니다.
- 랙 밀도가 낮은 통로에 GPU 기반 서버를 추가하면 건물의 냉각 시스템이 원래 처리하도록 설계되지 않은 핫스팟이 발생할 수 있습니다.
- 시설 전체에 고르지 않은 전력 부하를 발생시켜 백업 전력 자원을 재할당해야 할 필요성을 야기할 수 있습니다.
- 새 장비로 인해 랙당 전송되는 데이터가 늘어나므로 네트워크 정체가 발생할 수 있습니다.
이러한 요인은 데이터 센터에 새로운 압박을 가할 수 있으며, 이를 IT 스택 자체의 일부로 고려해야 합니다.
데이터 센터 설계 및 레거시 인프라 평가
데이터 센터는 서버 만큼이나 IT 인프라의 일부이므로 레거시 인프라의 개념이 데이터 센터 시설에도 어떻게 적용되는지 고려해야 합니다.
기술적인 측면에서 데이터 센터 산업은 결코 만만한 분야가 아닙니다. 디지털 리얼티는 전 세계적으로 약 2.4기가와트의 고객 IT 장비를 지원하고 있으며, 이는 하루 아침에 이루어진 일이 아닙니다.
당사는 2004년 창립 이래 매년 글로벌 데이터 센터 용량을 점진적으로 늘려왔으며 기존 시설에 있는 모든 고객 장비를 계속 유지하고 있습니다. 많은 조직에서 3~5년마다 서버를 모두 교체하지만 일부 서버는 최대 8년까지도 배포할 수 있습니다. 장비 교체는 단계적으로 이루어지므로 실제 가동 중단 시간 없이 조직의 애플리케이션이 작동됩니다.
이는 데이터 센터가 항상 켜져 있다는 것을 의미합니다. 데이터 센터 운영자가 쉽게 고객의 IT 장비를 모두 꺼내서 시설을 대대적으로 업그레이드한 다음 다시 설치할 수는 없습니다. 시간이 지남에 따라 데이터 센터의 고객 장비 구성에는 일반적으로 일부 레거시 장비와 일부 비레거시 장비가 모두 포함됩니다.
또한 데이터 센터 시설 자체가 노후화됨에 따라 공기 흐름 설계, 바닥 구조, 액체 냉각 지원 등 자체 특성 중 일부가 고객이 설치하려는 모든 장비에 이상적으로 적합하지 않을 수도 있습니다.
예를 들어, 많은 데이터 센터 시설은 이중 바닥 설계를 사용하는데 AI 장비는 전력 소비량 측면뿐 아니라 무게 때문에 랙 밀도가 높아집니다. 경우에 따라 이러한 랙은 단단한 콘크리트 슬래브 바닥이 필요할 수 있습니다.
이는 특정 사용 사례의 경우 레거시 인프라에 대한 기존 정의에 적합한 데이터 센터가 일부일 수 있음을 의미합니다.
그러나 잘 설계된 데이터 센터는 여러 랙에 걸쳐 있는 서버나 IT 장비 세트보다 시간 경과에 따른 업그레이드 측면에서 훨씬 더 유연합니다. 데이터 센터는 운영자가 시간이 지남에 따라 얼마나 잘 설계하고, 개조하고, 모듈화하느냐에 따라 15~20년 이상 지속될 수 있습니다.
AI는 랙 밀도와 데이터 센터에 영향을 미치는 기타 요구 사항에 큰 변화를 가져왔습니다. 종종 데이터 센터 운영자는 이러한 새로운 요구 사항을 수용하기 위해 시설의 일부를 업그레이드할 수 있습니다.
데이터 센터 설계 개조 기술
이 프로세스를 개조라고 합니다. 개조 기술은 데이터 센터 운영자가 현재 및 미래 세대의 서버와 기타 IT 인프라를 위한 데이터 센터를 얼마나 효과적으로 설계할 수 있는지를 결정하는 핵심 요소입니다. 원래 랙당 평균 10kW로 설계된 오래된 데이터 센터 시설을 상상해 보세요. AI의 등장으로 동일한 시설에서 전체 가동을 중단하고 처음부터 다시 설계하지 않고도 랙당 100kW를 지원할 수 있을 것으로 기대할 수 있습니다.
시간이 지남에 따라 이러한 유형의 데이터 센터 변경을 지원할 수 있는 유연성은 데이터 센터를 설계하고 운영하는 방식에서 핵심적인 부분입니다. 예를 들어,
- 더 이상 돌출된 바닥이 필요하지 않은 경우 이를 메울 수 있습니다.
- 액체 냉각이 필요한 경우 새로운 냉각 장치와 저장소에서 랙까지 배관을 연결할 수 있습니다.
- 새로운 네트워크 기능이 필요한 경우 추가 연결을 도입하고 이에 맞춰 시설 자체 내부의 모든 네트워크 자산을 최적화할 수 있습니다.
오늘날 데이터 센터는 IT 스택의 다른 부분과 마찬가지로 유연하고 모듈화되어 있으며 고객의 요구에 따라 발전할 수 있도록 고도로 조정되어 있습니다. 데이터 센터에서 AI를 지원하기 위한 요구사항은 분명 까다로운 과제이며, 당사는 전 세계의 모든 데이터 센터를 분석하여 발전하는 AI 요구사항을 수용하기 위해 설계 및 운영을 발전시키는 방법을 파악하고 있습니다.
AI 전략을 평가할 때 당사 전문가 팀과 상담하여 Digital Realty 및 당사 AI 지원 데이터 센터에 대해 자세히 알아보십시오.
본 아티클은 인공지능 및 AI-ready 데이터 센터를 다루는 3부작 시리즈 중 마지막 글입니다.
- 1부: 디지털 리얼티와 함께 AI의 가능성을 발휘하고 변화를 이끌어보세요
- 2부: "AI 전성시대가 도래하면 데이터 센터는 쇠퇴할 것이다." 과연 그럴까요?
- 3부: AI 시대의 데이터 센터 설계: AI와 레거시 인프라의 통합
About Digital Realty
디지털 리얼티의 데이터 센터에 대해 자세히 알아보세요.
- 데이터 협업을 위한 글로벌 만남의 장, PlatformDIGITAL®
- 워크플로우, 어플리케이션, 클라우드 인프라를 하나의 인터페이스에서. ServiceFabric™
- 디지털 리얼티의 서울 데이터 센터에 대해 알아보기