LLMOps란?

갱신됨 2024년 2월 8일 •

대규모 언어 모델(LLM)은 번역, 질문에 대한 답변, 채팅, 내용 요약, 콘텐츠 및 코드 생성 등과 같은 언어 관련 태스크를 수행하는 머신 러닝(ML) 모델입니다. GPT-3, LLaMA, Falcon 등과 같은 LLM은 데이터 세트를 기반으로 훈련하고 질문에 답할 수 있는 혁신적인 툴입니다. 이러한 툴이 발전을 거듭하면서 조직은 그러한 모델을 운영화하는 방법에 관한 모범 사례가 필요하게 되었습니다. 이것이 바로 LLMOps가 도입된 이유입니다.

대규모 언어 모델 운영(Large Language Model Operations, LLMOps)은 프로덕션 환경에서 대규모 언어 모델의 운영 관리에 사용되는 사례, 기술 및 툴입니다. LLMOps는 미세 조정(fine-tuning)에서 유지 관리에 이르기까지 툴과 방법론을 사용하여 LLM의 라이프사이클을 관리하고 자동화하기 위한 목적으로 고안되었습니다. 모델별 운영을 통해 데이터 사이언티스트, 엔지니어 및 IT 팀은 대규모 언어 모델을 효율적으로 배포, 모니터링 및 유지 관리할 수 있습니다.

Red Hat의 인공지능(AI)에 대해 자세히 알아보기

LLM이 ML 모델의 하위 집합이라면, LLMOps는 머신 러닝 운영(MLOps)에 해당하는 대규모 언어 모델입니다. MLOps는 ML 모델의 배포 및 유지 관리 프로세스 간소화를 목표로 하는 일련의 워크플로우 사례입니다. MLOps는 지속적인 발전을 통해 ML 모델을 소프트웨어 개발 프로세스에 통합하고자 합니다. 마찬가지로 LLMOps는 LLM 개발 및 배포 라이프사이클을 지속적으로 실험, 반복, 배포, 개선하고자 합니다.

LLMOps와 MLOps는 유사한 점도 있지만, 다음과 같은 차이점도 있습니다.

학습: 기존의 많은 ML 모델은 처음부터 생성되거나 훈련되는 반면, LLM은 기반 모델에서 시작하며 특정 도메인의 성능을 개선하기 위해 새로운 데이터로 미세 조정됩니다.

조정: LLM의 경우 미세 조정으로 특정 애플리케이션의 성능을 개선하고 정확성을 향상하여 특정 주제에 관한 지식을 늘립니다. 즉각적인 조정은 LLM이 특정 태스크에 대한 성능을 개선하도록 지원하는 효율적이고 간소화된 프로세스입니다. 하이퍼파라미터 조정도 다릅니다. 기존 ML에서는 정확성이나 다른 메트릭을 개선하는 데 주로 조정이 이루어진 반면 LLM의 경우 조정은 훈련과 추론에 따른 비용 및 연산 능력 요건을 줄이는 데도 중요합니다. 기존 ML 모델과 LLM은 모두 조정 프로세스를 추적하고 최적화하는 방식을 활용하지만, 중점을 두는 부분은 다릅니다. 마지막으로, 답변의 정확성을 높이기 위해 조정과 함께 사용할 수 있는 추가 프로세스인 검색-증강 생성(Retrieval-Augmented Generation, RAG)도 중요합니다. RAG는 쿼리가 수행될 때 LLM에 정확한 최신 정보를 제공하여 더 나은 답변을 생성할 수 있도록 외부 지식 기반을 사용하는 프로세스입니다.

피드백: 인간 피드백 기반 강화 학습(Reinforcement Learning from Human Feedback, RLHF)은 개선된 LLM 훈련 방식입니다. 태스크는 변경 가능한 경우가 많으므로 애플리케이션의 최종 사용자가 제공하는 인간 피드백은 LLM 성능을 평가하는 데 중요합니다. LLM은 인간 피드백을 통해 즉각적인 응답을 평가하여 정확성과 일관성을 높이는 반면, 기존의 ML 모델은 자동화된 특정 메트릭을 사용해 정확성을 높입니다.

성능 메트릭: ML 모델에는 정확성, AUC, F1 점수 등 명확하게 정의된 성능 메트릭이 있습니다. 그러나 LLM의 경우 다른 표준 메트릭 집합과 점수가 적용되는데, BLEU(Bilingual Evaluation Understudy), ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 등이 그 예입니다.

MLOps에 대해 자세히 알아보기

점차 LLM의 성능을 모니터링하고 향상하는 최적의 방법으로 부상하고 있는 LLMOps의 3가지 주요 장점은 다음과 같습니다.

효율성: LLMOps를 통해 팀은 모델 및 파이프라인 개발 속도를 높이고, 고품질의 모델을 제공하고, 프로덕션으로 더 빠르게 배포할 수 있습니다. 또한 작업이 간소화되므로 팀은 커뮤니케이션과 인사이트 공유를 지원하는 통합 플랫폼에서 협업을 강화할 수 있습니다.

확장성: LLMOps를 통해 확장성과 관리를 강화하여 지속적 통합 및 지속적 제공/배포(CI/CD)를 위해 여러 모델을 감독, 제어, 관리, 모니터링할 수 있습니다. LLM 파이프라인은 협업을 촉진하고, 충돌을 줄이고, 출시 주기를 단축할 수 있으며, LLMOps는 모델 대기 시간을 개선하여 신속한 사용자 환경을 제공합니다.

위험 감소: LLMOps는 투명성을 향상하고 요청에 더 빠르게 응답할 수 있도록 하며 조직 또는 업계 정책 컴플라이언스를 강화합니다. 고도화된 LLMOps는 민감 정보 보호에 우선순위를 두고 취약점과 무단 액세스 차단을 지원하여 보안과 개인정보 보호를 강화할 수 있습니다.

AI/ML 환경 구축에 대해 자세히 알아보기

다음과 같은 몇 가지 LLMOps 활용 사례가 있습니다.

지속적 통합 및 제공(CI/CD): CI/CD는 모델 개발 라이프사이클을 간소화, 단축, 자동화하는 것을 목표로 합니다. Jenkins와 같은 툴을 사용하면 프로젝트를 지속적으로 빌드하고 테스트할 수 있으므로 개발자는 더욱 수월하게 변경 사항을 프로젝트에 통합하고 사용자는 더욱 손쉽게 새로운 빌드를 받을 수 있습니다. 따라서 모델 업데이트와 롤백이 원활해지고 사용자의 작업 중단이 최소화됩니다.

데이터 수집, 레이블링, 스토리지: 매우 다양한 소스, 도메인, 언어로부터 데이터를 수집할 수 있습니다. 사람이 입력한 정보로 데이터를 레이블링하면 도메인별로 복잡한 판단을 내릴 수 있습니다. 적합한 데이터베이스와 스토리지 솔루션을 데이터 스토리지와 함께 활용하면 LLM 라이프사이클 전반에서 디지털 정보를 수집하고 유지할 수 있습니다.

모델 미세 조정(fine-tuning), 추론, 모니터링: 모델 미세 조정은 도메인별 태스크를 수행하도록 모델을 최적화합니다. 모델 추론은 기존 지식을 바탕으로 프로덕션을 관리하고 추론된 정보에 따라 작업을 수행할 수 있습니다. 인간 피드백을 포함한 모델 모니터링은 모델 동작에 대한 데이터를 수집하고 저장하여 실제 프로덕션 데이터에 따라 모델이 어떻게 동작하는지 학습합니다.

AI 기반 모델에 대해 자세히 알아보기

LLMOps에는 몇 가지 단계 또는 구성 요소가 있으며 각각의 모범 사례가 있습니다.

탐색적 데이터 분석(EDA): 데이터 세트, 표, 시각화를 생성하여 머신 러닝 라이프사이클을 발견하고 공유해 준비할 수 있도록 데이터를 조사하는 프로세스입니다.

데이터 수집: 코드 리포지토리, 소셜 미디어 등 다양한 소스에서 수집한 LLM을 훈련하는 데 사용되는 첫 단계입니다.
데이터 정리: 수집된 데이터를 정리해 준비한 후 훈련해야 합니다. 여기에는 오류 제거, 불일치 수정, 중복 데이터 제거가 포함됩니다.
데이터 탐색: 다음 단계는 데이터의 특성을 제대로 파악하기 위해 이상치를 식별하고 패턴을 찾는 등 데이터를 탐색하는 것입니다.

데이터 준비 및 프롬프트 엔지니어링: 여러 팀이 가시화된 데이터를 공유할 수 있게 만들고, LLM에 대해 신뢰할 수 있는 구조화된 쿼리를 실행하도록 프롬프트를 개발하는 프로세스입니다.

데이터 준비: LLM을 훈련하는 데 사용하는 데이터를 불용어 제거, 텍스트 정규화 등 특정 방식으로 준비합니다.
프롬프트 엔지니어링: LLM이 원하는 출력을 생성할 수 있도록 텍스트 생성에 사용하는 프롬프트를 생성합니다.

모델 미세 조정(fine-tuning): PyTorch와 같이 널리 사용되는 오픈소스 라이브러리를 사용하여 모델 성능을 미세 조정하고 개선합니다.

모델 훈련: 데이터를 준비한 후 데이터의 패턴을 학습하기 위해 머신 러닝 알고리즘을 사용하여 LLM을 훈련하거나 미세 조정합니다.
모델 평가: LLM 훈련에 사용하지 않은 데이터의 테스트 세트를 사용하여 훈련된 LLM의 성능을 평가해야 합니다.
모델 미세 조정: LLM의 성능이 좋지 않은 경우 성능 개선을 위해 LLM의 매개 변수를 수정하는 등 미세 조정이 가능합니다.

모델 검토 및 거버넌스: MLflow나 Kubeflow 같은 오픈소스 MLOps 플랫폼을 활용해 ML 모델 전반에서 발견, 공유 및 협업하는 프로세스입니다.

모델 검토: 미세 조정을 완료하면 LLM이 안전하고 신뢰할 수 있는지 확인하기 위해 검토해야 합니다. 여기에는 편향성, 안전성, 보안 위험 확인 작업이 포함됩니다.
모델 거버넌스: 모델 거버넌스는 LLM을 라이프사이클 전반에 걸쳐 관리하는 프로세스로, 성능 추적, 필요에 따른 변경, 불필요한 경우 종료하는 작업이 포함됩니다.

모델 추론 및 서빙: 모델 갱신 빈도, 추론 요청 횟수, 테스트의 유사 프로덕션 세부 사항 등을 관리하는 프로세스입니다.

모델 서빙: LLM에 대한 검토와 승인이 완료되면 LLM을 프로덕션으로 배포할 수 있어, 애플리케이션 프로그래밍 인터페이스(API)를 통해 사용할 수 있게 됩니다.
모델 추론: 텍스트를 생성하거나 질문에 답하기 위해 애플리케이션에서 API에 쿼리할 수 있습니다. 이는 REST API나 웹 애플리케이션과 같은 다양한 방법으로 수행할 수 있습니다.

인간 피드백을 통한 모델 모니터링: 모델 드리프트와 악의적 사용자 행동에 대한 경고가 포함된 모델 및 데이터 모니터링 파이프라인을 생성합니다.

모델 모니터링: 배포된 LLM의 성능이 예상대로인지 확인하기 위해 모니터링해야 합니다. 여기에는 성능 추적, 문제 식별, 필요한 경우 변경 등이 포함됩니다.
인간 피드백: LLM의 성능 개선에 사용되며, LLM에서 생성하는 텍스트에 대한 피드백을 제공하거나 LLM의 성능과 관련된 문제를 식별하는 방식으로 수행할 수 있습니다.

LLMOps 플랫폼은 데이터 사이언티스트와 소프트웨어 엔지니어에게 데이터 탐색, 실험 추적을 위한 공동 작업 기능, 프롬프트 엔지니어링, 모델 및 파이프라인 관리 등을 지원하는 협업 환경을 제공합니다. 또한 LLM에 제어된 모델 전환, 배포 및 모니터링을 제공합니다.

LLMOps 플랫폼은 더욱 효율적인 라이브러리 관리를 지원하므로 운영 비용을 낮추고 작업 완료에 필요한 기술 인력을 줄이는 데 도움이 됩니다. 그러한 작업에는 데이터 사전 처리, 언어 모델 훈련, 모니터링, 미세 조정, 배포 등이 있습니다. LLMOps는 머신 러닝 라이프사이클의 운영, 동기화 및 모니터링 측면을 자동화합니다.

AI와 LLMOps 플랫폼 선택 방법 알아보기

업계를 선도하는 쿠버네티스 기반의 하이브리드 클라우드 애플리케이션 플랫폼인 Red Hat® OpenShift®는 데이터센터에서 네트워크 엣지, 여러 클라우드에 이르기까지 하이브리드 클라우드 환경 전반에서 AI 지원 애플리케이션의 롤아웃을 가속화합니다.

Red Hat OpenShift를 통해 조직은 소프트웨어 개발 프로세스, 프로덕션 롤아웃, 모니터링, 재훈련, 재배포에 모델을 통합하는 반복적인 프로세스를 자동화하고 간소화하여 예측 정확도를 유지할 수 있습니다.

Red Hat OpenShift AI는 유연하고 확장 가능한 MLOps 플랫폼으로, AI 지원 애플리케이션을 빌드, 배포, 관리할 수 있는 툴을 제공합니다. 데이터 사이언티스트와 애플리케이션 개발자는 이 플랫폼을 사용하여 인공지능(AI)을 애플리케이션에 안전하고 일관되며 규모에 맞게 통합하는 작업을 간소화할 수 있습니다. OpenShift AI는 온프레미스 및 퍼블릭 클라우드에서 AI/ML 실험 및 모델의 전체 라이프사이클을 지원하는 툴링을 제공합니다.

Red Hat OpenShift AI와 Red Hat OpenShift의 기능을 단일 엔터프라이즈 레디 AI 애플리케이션 플랫폼에 통합함으로써 팀은 일관성, 보안, 확장성을 강화하는 단일 협업 환경에서 함께 작업할 수 있습니다.

Red Hat OpenShift의 AI/ML 자세히 알아보기