다트크리에이티브 IT & CG Magazine

AWS, 아마존 데브옵스 구루 발표

AWS는 AWS 리인벤트 행사에서 ‘아마존 데브옵스 구루’를 발표했다. 아마존 데브옵스 구루는 머신러닝을 이용하는 완전 관리형 운영 서비스로 개발자들이 자동으로 운영 문제를 감지하고 개선을 위한 구체적인 조치를 추천하여 애플리케이션 가용성을 향상시킨다.

아마존웹서비스Amazon Web Services-AWS는 AWS 리인벤트(AWS re:Invent) 행사에서 ‘아마존 데브옵스 구루Amazon DevOps Guru’를 발표했다. 아마존 데브옵스 구루는 머신러닝을 이용하는 완전 관리형 운영 서비스로 개발자들이 자동으로 운영 문제를 감지하고 개선을 위한 구체적인 조치를 추천하여 애플리케이션 가용성을 향상시킨다.

아마존 데브옵스 구루는 수년 동안 아마존닷컴 및 AWS 운영 우수성을 통해 학습된 머신러닝을 적용하여 정상적인 운영 패턴(예: 프로비저닝된 컴퓨팅 용량 부족, 데이터베이스 I/O 과부하, 메모리 누수 등)에서 벗어나는 동작 식별을 위한 애플리케이션 메트릭, 로그, 이벤트 및 추적과 같은 데이터를 자동으로 수집하고 분석한다.

아마존 데브옵스 구루는 잠재적인 정지나 서비스 중단을 야기할 수 있는 비정상적인 애플리케이션 동작(예: 지연 시간 증가, 오류율, 리소스 제약 등)을 식별하면, 아마존 SNS(Simple Notification Service)와 아틀라시안 옵스지니Atlassian Opsgenie나 페이저듀티PagerDuty와 같은 파트너와의 통합을 통해 개발자에 문제의 세부사항(예: 관련 리소스, 이슈 타임라인, 관련 이벤트 등)을 알리고 개선을 위한 구체적인 추천을 통해 문제의 잠재적인 영향과 가능한 원인을 신속하게 이해할 수 있도록 돕는다.

개발자는 아마존 데브옵스 구루의 개선 제안을 사용하여 문제 발생 시 해결 시간을 단축하고, 수동 설정이나 머신러닝 전문 지식 없이도 애플리케이션 가용성과 신뢰성을 개선할 수 있다. 아마존 데브옵스 구루는 선결제 비용이나 약정은 없으며, 고객들은 아마존 데브옵스 구루가 분석한 데이터에 대해서만 지불한다. 아마존 데브옵스 구루는 https://aws.amazon.com/DevOps Guru에서 시작할 수 있다.

점점 더 많은 조직이 클라우드 기반 애플리케이션 배포 및 마이크로서비스 아키텍처로 이동하여 온프레미스 구축의 제약 없이 비즈니스와 운영을 전 세계로 확장함에 따라, 고객 니즈를 충족하기 위해 애플리케이션이 점점 더 많이 배포되고 있으며, 개발자는 애플리케이션 가용성을 유지하고 운영 문제를 탐지, 디버깅 및 해결하는 데 소요되는 시간과 노력을 줄이기 위해서 더욱 자동화된 관행이 필요하다.

불량 코드나 구성 변경, 불균형한 컨테이너 클러스터 또는 리소스 고갈(예: CPU, 메모리, 디스크 등)로 인해 발생하는 애플리케이션 다운타임 이벤트는 불가피하게 고객 경험을 악화시키고 수익 손실로 이어진다. 기업들은 여러 가지 모니터링 툴을 배치하기 위해 상당한 비용과 개발자 시간을 투자하고, 종종 별도로 관리해야 하며, 로드 밸런서 오류의 급증이나 애플리케이션 요청률의 하락과 같이 흔한 문제에 대한 사용자 지정 경고를 개발하고 유지해야 한다. 애플리케이션 리소스의 비정상적 동작을 식별하고 경고하기 위한 임계값을 설정을 제대로 하기가 어렵고, 수동 설정이 필요하며, 애플리케이션 사용량이 변경될 때 임계값을 지속적으로 업데이트해야 한다(예: 연휴 쇼핑 시즌 동안 비정상적으로 많은 요청 수).

임계값을 너무 높게 설정하면 개발자는 운영 성능에 심각한 영향을 미칠 때까지 경고를 보지 못하며, 임계값을 너무 낮게 설정하면 개발자가 잘못된 경고를 너무 많이 보게 되어, 결국은 무시하게 된다. 개발자들이 잠재적인 운영 문제에 대해 경고를 받더라도 근본 원인을 파악하는 과정은 여전히 어려울 수 있다. 개발자들은 기존 툴을 사용하여 그래프와 경고에서 운영 문제의 근본 원인을 삼각 측량하는 데 어려움을 겪는 경우가 많으며, 근본 원인을 찾을 수 있는 경우에도 이를 고칠 수단이 없는 경우가 많다. 각 문제에 대한 해결 시도는 팀이 문제를 파악하는 데만 몇 시간 또는 며칠을 소비해야 하는 콜드 스타트(cold start)이며, 이는 운영 장애를 해결하기 위한 시간을 지연시키고 애플리케이션 중단을 연장할 수 있는 시간 소모적이고 지루한 작업으로 이어진다.

아마존 데브옵스 구루의 머신러닝 모델은 아마존닷컴의 고가용성 애플리케이션 구축, 확장 및 유지에 대한 20년 이상의 운영 전문 지식을 활용한다. 이를 기반으로 아마존 데브옵스 구루는 운영 문제(예: 누락되거나 잘못 구성된 경보, 리소스 고갈에 대한 조기 경고, 운영 중단으로 이어질 수 있는 구성 변경 등)를 자동 감지하고, 관련 리소스 및 이벤트에 대한 컨텍스트를 제공하고 개선 조치를 추천할 수 있으며, 사용하는데 머신러닝 경험은 필요하지 않다. 아마존 데브옵스 구루 콘솔에서 단 몇 번의 클릭만으로 모든 리소스에 대한 지연 시간, 오류율, 요청률과 같은 과거 애플리케이션 및 인프라 메트릭을 자동으로 수집하고 분석하여 정상적인 작동 범위를 설정하고, 그 다음 사전 훈련된 머신러닝 모델을 사용해 설정된 기준과의 편차를 식별한다.

아마존 데브옵스 구루가 시스템 및 애플리케이션 데이터를 분석하여 이상 징후를 자동으로 감지할 때, 해당 데이터를 변칙적인 메트릭, 시간에 따른 애플리케이션 동작 시각화, 개선 조치에 대한 추천 등의 운영 통찰력으로 그룹화하기도 한다. 또한 아마존 데브옵스 구루는 중복 경보를 줄이고 사용자가 심각도가 높은 문제에 집중할 수 있도록 돕기 위해, 관련 애플리케이션 및 인프라 메트릭(예: 웹 애플리케이션 지연 시간 급증, 디스크 공간 부족, 불량 코드 배포, 메모리 누수 등)을 상호 연관시키고 그룹화한다.

고객은 시스템 및 사용자 활동에 따라 구성 변경 이력 및 배포 이벤트를 볼 수 있으며, 아마존 데브옵스 구루 콘솔에서 운영 문제의 가능한 원인 우선순위 목록을 생성할 수 있다. 고객이 문제를 신속하게 해결할 수 있도록 아마존 데브옵스 구루는 개선 조치를 포함한 지능형 추천을 제공하고 AWS 시스템 매니저(AWS Systems Manager)와 연계하여 런북 및 협업 툴링을 제공함으로써 고객이 애플리케이션을 보다 효과적으로 유지하고 배포 인프라를 관리할 수 있도록 돕는다.

아마존 데브옵스 구루는 코드 품질을 개선하고 애플리케이션에서 가장 비싼 코드 라인을 식별하기 위한 지능형 추천을 제공하는 머신러닝 기반 개발자 툴인 아마존 코드구루(Amazon CodeGuru)와 함께 개발자가 애플리케이션 가용성과 안정성을 보다 쉽게 개선할 수 있도록 고객의 운영 데이터에 대해 머신러닝의 자동화된 이점을 제공한다.

스와미 시바수브라마니안Swami Sivasubramanian AWS 아마존 머신러닝 부사장은 “고객들은 우리가 아마존닷컴을 운영하면서 얻은 수년간의 경험을 통해 얻은 전문지식을 애플리케이션 가용성 개선에 적용할 수 있었던 분야를 중심으로 서비스를 계속 추가해 줄 것을 계속 요청했다. 우리의 경험을 바탕으로, 아마존 데브옵스 구루는 고객이 운영 문제를 감지, 해결 및 예방하는 데 도움이 되는 전문 머신러닝 모델을 구축했고, 문제 발생 시 지능형 추천을 제공한다. 이를 통해 팀들은 아마존이 아마존닷컴을 운영하면서 배운 모범 사례를 즉시 활용할 수 있게 되어, 여러 모니터링 시스템을 구성하고 관리하는 데 드는 고객의 시간과 노력을 절약할 수 있다”고 말했다.

고객은 AWS 매니지먼트 콘솔(AWS Management Console)에서 몇 번의 클릭만으로 아마존 데브옵스 구루가 몇 분 안에 계정 및 애플리케이션 활동 분석을 시작하고 운영 통찰력을 제공할 수 있도록 할 수 있다. 아마존 데브옵스 구루는 고객에게 여러 소스(예: AWS 클라우드트레일(AWS CloudTrail), 아마존 클라우드워치(Amazon CloudWatch), AWS 컨피그(AWS Config), AWS 클라우드포메이션(AWS CloudFormation), AWS X-Ray)에 걸쳐 관련 데이터를 요약해 운영 데이터를 시각화할 수 있는 단일 콘솔 경험을 제공하고, 여러 툴 간의 전환 필요성을 줄인다.

고객들은 또한 아마존 데브옵스 구루 콘솔 내에서 상호 관련된 운영 이벤트와 상황별 데이터를 보고 운영 통찰력을 얻고, 아마존 SNS(Simple Notification Service)를 통해 알림을 받을 수 있다. 또한 아마존 데브옵스 구루는 AWS SDK를 통해 API 엔드포인트를 지원하여 파트너와 고객이 아마존 데브옵스 구루를 기존 솔루션에 쉽게 통합해서 심각도가 높은 문제에 대해 엔지니어 티켓팅, 호출 및 자동 알림을 활용할 수 있게 한다. 아마존 데브옵스 구루를 운영 모니터링 및 사고 관리 플랫폼에 통합한 파트너에는 페이저듀티와 아틀라시안 등이 있으며, 이들의 솔루션을 사용하는 고객은 이제 아마존 데브옵스 구루가 제공하는 운영 통찰력을 활용할 수 있게 됐다. 아마존 데브옵스 구루는 현재 미국 동부(북버지니아, 오하이오), 미국 서부(오레곤), 아시아 태평양(싱가포르), 유럽(아일랜드)에서 프리뷰로 이용할 수 있으며, 향후 몇 달 내에 이용 가능 지역이 추가될 예정이다.

에멜 도그루소즈Emel Dogrusoz 옵스지니 제품 부문 총괄은 “17만 개 이상의 기업의 팀들이 협업을 더 쉽게 만들고, 업무 조직, 논의, 완료를 돕기 위해 아틀라시안 제품에 의존하고 있다. 아틀라시안은 아마존 데브옵스 구루 출시와 관련해 AWS와 파트너십을 맺고 팀들이 안심하고 코드를 배포하고 서비스를 운영할 수 있도록 도울 수 있게 된 것을 뿌듯하게 생각한다. 새로운 옵스지니와 지라 서비스 매니지먼트(Jira Service Management)의 통합을 활용하면, 아마존 데브옵스 구루가 잠재적 문제를 예측하거나 사고가 발생했다고 판단하는 즉시 해당 팀에 알릴 수 있다. 아마존 데브옵스 구루는 새로운 차원의 통찰력을 제공하고, 아틀라시안은 가장 빠른 대응을 보장한다”고 말했다.

페이저듀티는 디지털 운영 관리 분야의 선도기업이다. 페이저듀티의 제품 부문 수석부사장인 조나단 렌드(Jonathan Rende)는 “페이저듀티는 전체 사고 대응 라이프사이클과 해결책을 자동화함으로써 데브옵스 문화로의 전환을 촉진하기 위해 만들어졌다. 아마존 데브옵스 구루와의 이번 통합으로 데브옵스에 대한 우리의 노력을 계속하게 되어 기쁘다. 페이저듀티는 아마존의 수십 년간 운영 우수성과 아마존 데브옵스 구루의 머신러닝 능력을 활용하여 공동 고객에게 훨씬 더 광범위한 실시간 시그널-투-액션(signal-to-action) 기능을 제공한다. 페이저듀티는 아마존 데브옵스 구루의 아마존 SNS 알림을 수신하여 AWS 고객에 영향을 미치는 서비스 중단이 발생하기 전에 고객이 운영 문제에 대해 실시간 조치를 취할 수 있게 한다”고 말했다.

◈ 다트크리에이티브 | 한재현 기자 wowhjh@gmail.com

DAATKING

멀티미디어, 가상현실&컴퓨터그래픽을 전공한 크리에이티브 디렉터를 지향하는 콘텐츠 제작자겸 저널리스트입니다.
CG 콘텐츠를 제작하는 Media & Entertainment 업계 사람들과 진솔한 이야기와 창의적 지식을 모아서 올바르게 전달하고 소통하도록 노력하겠습니다.

Add comment