Person with long red hair working at a desk facing a computer
바로 가기

AIOps란?

URL 복사

AIOps란 IT 운영을 위한 인공지능을 말합니다. 또한 IT 운영 접근 방식이자 통합 소프트웨어 시스템으로, 데이터 사이언스를 활용해 수동 문제 해결과 시스템 해결을 돕습니다. AIOps는 빅데이터와 인공지능 또는 머신 러닝을 결합하여 광범위한 IT 운영 프로세스와 작업을 개선하거나 부분적으로 교체합니다.

AIOps의 AI 부분이 작동하려면 우선적으로 필요한 요소가 있습니다. 바로 운영 데이터입니다. 구체적으로는 과거 데이터뿐만 아니라 가동 시간, 다운타임, 프로세싱 사용, 네트워크 트래픽, 애플리케이션 로그, 오류, 인증 시도, 방화벽 경고와 같은 데이터를 말합니다. 이와 같은 데이터 수집, 구성 및 정리는 알고리즘을 통합하고 모델을 학습하는 것보다 더 어렵습니다.

이러한 데이터가 구축되었다면 이제는 서비스 수준 목표와 지표를 결정할 차례입니다. 추적 가능한 메트릭을 사용하여 정의한 운영 상태가 바로 AIOps 시스템의 기준이 됩니다. 많은 엔터프라이즈 플랫폼이 운영 관측 구성 요소를 제공하거나 또는 이와 연결되어 있습니다. Red Hat® OpenShift®에는 Red Hat OpenShift Observability가 포함되어 있으며, Red Hat Enterprise Linux®Red Hat Satellite를 사용하고, Red Hat Ansible® Automation Platform은 Prometheus와 Grafana를 사용합니다.

운영 상태를 정의했다면, AI를 적용할 수 있습니다. AI를 프로젝트에 통합하는 과정은 훨씬 간단합니다. 

이러한 기회들을 모두 고려할 때 이제 NLP(자연어 처리), AI, ML(머신 러닝), DL(딥러닝)이 하나의 문화적 어휘가 된 것은 분명해 보입니다.

장점

  • 해결 속도: AIOps는 당면한 문제를 감지하고 이에 대응하여 다운타임을 줄이고 MTTR(평균 문제 해결 시간)을 단축합니다.
  • 자가 치유(Self-healing) 시스템: 자가 치유 인프라는 성능과 가동 시간을 크게 향상할 수 있습니다. 
  • 빅데이터: AIOps는 빅데이터를 활용하여 이를 기반으로 정리, 분석, 대응할 수 있습니다.
  • 효율성 및 규모 확장: AI 모델로부터 확보한 인사이트를 활용하여 작업을 식별하고 감지 규모를 확장함으로써 직원 효율성을 높일 수 있습니다.
  • 혁신: 반복되는 작업을 없애 IT 팀이 더욱 전략적인 고부가가치 프로젝트를 개발하고 제공할 수 있도록 합니다.
  • 간소화: AIOps는 반복되는 다수의 IT 서비스 관리 작업을 간소화할 수 있습니다.
  • 실시간 데이터 상호 연계 및 의사 결정: AIOps에 자동화 엔진이 포함되면 데이터를 기반으로 자동으로 대응하여 사람의 개입과 오류를 줄이는 동시에 노이즈를 최소화할 수 있습니다.
  • 데이터 상호 연계 및 예측 확장: AIOps는 사람이 수동으로 할 수 있는 수준을 훨씬 뛰어넘는 수준까지 가능한 모든 순열을 자동으로 분석할 수 있습니다.

과제

  • 전문성: 폭넓은 데이터 사이언스 전문성이 요구되기 때문에 시작부터 진입 장벽이 높다고 느껴질 수 있습니다.
  • 인프라: 표준화된 플랫폼과 기능(예: Red Hat OpenShift와 Ansible Automation Platform이 제공하는 기능) 없이 특정 인프라에 대해 AIOps를 훈련하기가 어려울 수 있습니다.
  • 가치 창출 시간: AIOps 시스템은 설계, 구현, 배포 및 관리가 어려워 ROI(투자수익률)를 내기까지 시간이 걸릴 수 있습니다.
  • 데이터: 현대적인 IT 운영으로 쏟아져 나오는 데이터의 볼륨, 품질, 일관성은 상당한 부담이 될 수 있기 때문에 AIOps의 성과는 데이터 소스의 품질 수준에 그치게 될 수 있습니다.
  • 공동의 합의: 시스템 상태를 기준으로 표준 운영 목표를 설정하는 것은 여러 당사자의 전폭적인 지지가 필요하지만, 그러한 합의에 도달하기가 어려울 수 있습니다.
  • 범위: 시작하기에 앞서 고려할 사항이 매우 많아 감당하기 어렵다고 느껴질 수 있습니다. 아니면 기준이 되는 환경이 너무나 다이나믹할 수 있습니다.
  • 실패율: AI 프로젝트의 실패율은 굉장히 높습니다. IDC의 AI InfrastructureView에 따르면, 설문 응답자의 31%가 AI가 프로덕션 단계에 있다고 답했으며, 그중 3분의 1만이 전사적인 장점을 실현했다고 답했습니다.

이제 여러 분야의 전문가들이 왜 AIOps를 사용하고 있는지 그 이유를 자세히 살펴보겠습니다.

  • 애플리케이션 SRE(사이트 신뢰성 엔지니어)는 AI가 주목하는 대기 시간, 오류 발생률, 트래픽, 포화 수준이라는 4가지 주요 측정 항목을 정의할 수 있습니다.
  • 개발자는 AIOps 분석을 활용하여 RCA(근본 원인 분석)를 수행하거나 AIOps 엔진이 사람의 개입 없이 RCA를 수행하도록 할 수 있습니다.
  • 실무자는 AIOps를 통해 SRE가 사용하는 것과 동일한 주요 측정 항목을 모니터링하여 최종 사용자의 관점에서 애플리케이션의 성능을 파악할 수 있습니다.
  • 인프라 오퍼레이터는 AIOps를 활용하여 여러 VM(가상 머신)에서 수천 개의 클러스터에 이르는 하이브리드 클라우드, 멀티클라우드, 마이크로서비스 기반 IT 환경을 모니터링하고 Day 2 오퍼레이션을 간소화할 수 있습니다.

이와 같은 각각의 활용 사례를 통해, AIOps가 팀이 잠재적인 문제를 감지하고 이에 대응할 수 있도록 지원하지만 아직 AIOps 시스템이 숙련된 IT 시스템 관리자와 기타 운영 팀원을 대체할 수 있는 수준에는 도달하지 못했음을 알 수 있습니다. 대다수의 IT 혁신과 마찬가지로 AIOps도 머신이 작업을 대신하고 사람은 이를 감독하도록 업무를 재설계합니다.

따라서 머신이 사람을 대체하는 것이 아닙니다. 하지만 데이터 사이언티스트와 DevOps 엔지니어 모두 기술을 확장하려면 새로운 IT 혁신을 활용해야 합니다.

  • 기업이 성능 중심의 기술 후보군을 발굴하고 있는 만큼 APM(애플리케이션 성능 모니터링)은 더욱 중요해질 것입니다.
  • 기반이 되는 AI 스크립트를 이해하거나 통합하거나 작성하기 위해, 그리고 이벤트 상관 관계와 경고 엔진을 실행 엔진으로 바꾸기 위해 자동화 기술은 더욱 중요해질 것입니다. 
  • 이미 AI에 대해 잘 알고 있다면, 네트워크 AI(예: SD-WAN, Wi-Fi 등)를 (안전하게) 시도해보는 것도 좋습니다.

DevOps는 애플리케이션 라이프사이클 전체를 계속해서 조금씩 점진적으로 개선하는 것이 핵심입니다. 따라서 DevOps의 최대 과제는 다운타임이며, 바로 여기서 AIOps를 활용해 볼 수 있습니다. AIOps는 개발과 운영 프로세스에 데이터 사이언스를 추가하여 DevOps 문화를 증진합니다. 

AIOps는 DevOps를 대체하는 것이 아닌, DevOps의 발전된 형태입니다. AIOps는 동일한 디지털 트랜스포메이션 라이프사이클에서 또 하나의 지점과도 같습니다. AIOps와 DevOps는 같은 일을 합니다. AIOps는 기계화된 두뇌로 인간의 지능을 강화할 뿐입니다. 

DevOps와 AIOps의 실제 경계는 매우 불분명하지만, AIOps는 DevOps 프로세스의 양 끝과 관련이 있습니다.

  • 프로세스의 맨 앞에서 AIOps는 방대한 양의 인프라 데이터를 사용하여 기반이 되는 IDE(통합 개발 환경) 문제에 대해 DevOps 엔지니어에게 경고하거나 이러한 문제를 바로 수정합니다. 
  • 프로세스의 맨 끝에서 AIOps는 프로덕션 단계에서 중복되는 IT 문제를 자동으로 해결하고 동시에 각각의 점진적인 릴리스에 수반되는 새로운 버그 문제를 해결하도록 학습할 수 있습니다. 

DevOps와 마찬가지로 AIOps에도 단일 도구, 단일 플랫폼, 단일 제품은 존재하지 않습니다. DevOps와 AIOps 기능을 구축하기 위해 사용하는 도구는 IT 스택(하드웨어 및 소프트웨어)만큼이나 다양하고 고유합니다. 그렇기 때문에 사용자가 구축하는 AIOps 솔루션은 고유한 개발 및 프로덕션 환경을 구현하는 모든 요소를 통합, 분석하고 이를 기반으로 작동해야 합니다.

AIOps는 오픈소스와 깊은 관계를 맺고 있습니다. 둘다 업스트림 프로젝트로, 수많은 커뮤니티에서 이에 참여하고 있기 때문입니다. AIOps 솔루션 전체를 구성하는 단일 제품은 없지만, 수많은 오픈소스 개발, 운영, AI, 자동화 프로젝트가 고유한 AIOps 솔루션의 일부로 사용될 수 있습니다. 그리고 특정 AIOps 문제에 대한 AIOps 솔루션을 제공하기 위해 개발 중인 오픈소스 프로젝트도 매우 많습니다.

기업에서는 다운스트림 AI 제품 코드를 업스트림 프로젝트로 릴리스하고 있습니다.

  • 전 세계 최대 규모를 자랑하는 소셜 미디어 기업인 Meta는 대규모 언어 모델인 Llama 2를 오픈소스 프로젝트로 릴리스했습니다.
  • Red Hat은 Project Wisdom이 IBM watsonx Code Assistant 구성 요소와 통합된 Ansible Automation Plaform의 Ansible Lightspeed를 구현했던 것처럼 Project Thoth 오픈소스 프로젝트가 엔터프라이즈급의 강화된 제품으로 구현되기를 기대하고 있습니다.
  • 또한 Artificial Intelligence Center of Excellence(AICoE)의 AIOps 프로젝트와 같이 다른 조직이 주도하는 AIOps 프로젝트에도 기여하고 있습니다.

파트너사의 AI 기능과 결합된 Red Hat의 자동화 플랫폼은 전략적인 AIOps 솔루션을 코드화하는 데 상당히 유리합니다. AI의 관측성 기능과 Red Hat 자동화 엔진의 이벤트 기반 아키텍처를 페어링하기 때문입니다. 

Event-Driven Ansible을 사용하여 AI가 찾아낸 항목에 대해 작업을 수행하세요. Red Hat의 자동화 플랫폼과 파트너사의 인과적 AI 엔진(예: Dynatrace와 기타 현대적인 관측성 도구가 제공하는 엔진)을 페어링하세요. 그리고 IBM watsonx Code Assistant가 통합된 Ansible Lightspeed를 사용하여 AI 생성 권장사항을 통해 구문론적으로 올바른 코드를 작성하도록 모든 기술 수준의 개발자와 운영 팀을 지원하세요.

추가 자료

문서

Ansible 기본 사항 학습하기

Ansible은 프로비저닝 및 구성 관리와 같은 IT 프로세스를 자동화합니다. 여기서 소개하는 핵심 개념을 통해 Ansible의 기본 사항을 학습하세요.

문서

비즈니스 프로세스 관리란 무엇일까요?

비즈니스 프로세스 관리(Business Process Management, BPM)는 전략적 비즈니스 목표를 달성하기 위해 엔드 투 엔드 비즈니스 프로세스를 모델링, 분석, 최적화하는 프랙티스입니다.

문서

Red Hat의 자동화를 선택해야 하는 이유

Red Hat Ansible Automation Platform에는 여러 팀에서 자동화를 공유하고 전사적 자동화를 구현하는 데 필요한 모든 툴이 포함되어 있습니다.

자동화에 대한 자세한 내용

제품

다양한 시각으로 고객의 상황을 파악하고 이를 바탕으로 고객의 과제를 분석하여 종합적이고 비용 효율적인 솔루션을 통해 문제를 해결하도록 돕는 전략적인 조언자입니다.

자동화 과정의 어느 단계에 있든지 상관없이 전사적 자동화를 구현할 수 있는 플랫폼입니다.

리소스

교육

무료 교육 과정

Ansible Essentials: Simplicity in Automation Technical Overview

무료 교육 과정

Red Hat Ansible Automation for SAP