1. DSML의 실패 요인
인공지능에 대한 기대와 현실 | -디지털 변혁을 준비하는 조직은 인공지능을 토대로 비즈니스 데이터를 수집ㆍ준비ㆍ학습하여 비즈니스 프로세스 최적화 및 운영 효율성을 높일 수 있는 실행 가능한 비즈니스 통찰을 얻을 것으로 기대 -실증 단계(PoC)에서 멈추거나 데이터 준비ㆍ통합에서 속도를 내지 못하며, 설사 이 단계 를 통과해도 컨셉 드리프트(concept drift) 문제에 직면 |
생산단계에서 심각한 문제 발견 | -모델 개발에 몇 주가 걸리고 생산 적용 은 더 많은 시간이 걸리지만, 생산 단계에서 발견된 심각한 문제로 전체 프로젝트를 재설계하거나 학습 모델을 폐기하는 경우가 자주 발생 |
학습 데이터 규격 | -학습 모델의 데이터 규격이 생산 현장과 맞지 않아 배포되지 못하는 경우 |
데이터 보안을 위한 고도의 사일로 체계 | -다양한 형식의 데이터를 통합하여 일관된 방식으로 활용하는 것을 방해하는 장벽으로 작용 |
정확한 문제 이해와 올바른 솔루션 제시 부족 | -조직의 복잡한 문화와 환경적 요인이 문제 해결을 막는 경우 |
개발 언어와 인터페 이스의 비호환성 문제 | -Java, C/C++ 등으로 개발되어 프런트엔드와 백엔드가 이미 비즈니스 목적에 맞도록 최적화 -기계학습 파이 프라인과 모델 배포 아티팩트는 주로 Python, R 등의 언어로 개발되면서 언어와 인터페 이스의 비호환성 문제 발생 |
-일관된 데이터 흐름과 기계학습 운영화를 통한 협업 문화가 있는 경우 DSML 프로젝트 성공
2. DSML의 수명주기
가. DSML 프로젝트의 수명주기
-실패를 줄이기 위해 프로젝트 과정에서 데이터와 모델의 드리프트를 모니터링하고 지속적인 개선 도모, 성과 분석, 수명주기 제어 등 필요
나. DSML의 수명주기 구성요소
구성요소 | 특징 | 설명 |
프로젝트 계획 수립 및 착수 | 메트릭 규정 생산 데이터와 주요 자사의 가용성 분석 계획 설계, 착수 |
DSML 기술을 적용하여 비즈니스 가치 창출을 위한 통찰을 얻을 수 있도록 준비 |
데이터 준비 및 학습 환경 구축 | 수집, 정제, 특징 공학 등 데이터 준비 데이터 분석, 관리 |
기계학습에 활용할 수 있는 비즈니스 데이터를 수집ㆍ정제ㆍ관리 |
모델 학습ㆍ튜닝 및 스캐폴딩 | 기본 기능 AutoML, model scaffolding 등고급 기능 |
비즈니스 실행을 위한 데이터 의존적 모델을 개발 |
모델 배포 및 생산 모니터링 | 배포 생산화 |
생산 현장에 적용하여 솔루션 시스템을 구성하고 운영하도록 지원 |
-일방적인 순뱡향 진행으로 완료되는 경우는 드물고 대부분 역뱡향 피드백 발생
3. 기계학습 운영화의 개요
정의 | -데이터과학 및 기계 학습의 솔루션 개발과 DevOps 기반의 전주기 운영을 통합하여, 데이터 준비, 모델 학습, 모델 배포, 생산 적용 및 모니터링을 포함하는 전체 수명주기에서 안정적으로 서비스를 제공하면서도 신속하고 유연한 개발을 추구하는 문화ㆍ기술ㆍ인프라의 개념적 결합 -ML과 DevOps를 합친 용어 |
|
특징 | 프로젝트의 일부 | 기계학습의 모델링은 프로젝트의 아주 작은 범위에 불과 |
숨겨진 기술부채 | 기계학습 모델의 일부 수정 불가능, 학습과 생산 데이터가 일치하지 않을 때의 예측 불가능성, 입력과 출력 사이의 블랙박스로 인한 해석 불가능성, 엄격한 추상화 경계의 소실 등 | |
다른 운영방식 필요 | 프로젝트를 제어가능한 기존과 다른 운영방식의 필요성 대두 | |
DSML 실패 요인 극복 | -데이터 의존적인 DSML 프로젝트의 수명주기 복잡성 제어 미흡 |
나. 기계학습 운영화 프로젝트의 개념도 및 구성요소
개념도 | -DSML 프로젝트 수명주기를 기계학습 운영화를 위한 실행단계로 표현 |
|
구성요소 | 계획 수립 단계 | 프로젝트 목표와 주요 요구사항을 정의하고 프로젝트 수행을 위한 계획 및 자원을 확보하는 단계 |
데이터 준비 단계 | 다양한 데이터 소스에 대한 일관된 접근 제공 데이터 정제, 비식별화, 특징 추출, 구조 변환 등 수행 |
|
데이터 분석 관리 단계 | 이기종 소스 데이터 접근 환경 제공 데이터 혼합, 변환, 통합, 균질화, 무결성 검증 등 지원 인간 지능 보완하는 통찰력 생성 고객 경험 개선 및 비즈니스 가치 향상 |
|
기계학습 단계 | 모델의 매개변수 최적화 모델의 성능, 유효성, 신뢰성 평가 다른 환경에서도 동작하도록 모델 압축, 전이 학습 제공 |
|
배포 및 생산화 단계 | 기계학습 서비스의 구성, 배포, 관리, 확장, 네트워크 자동화 기계학습 운영화의 생산성 향상 지원 생산 데이터 드리프트 감시, 데이터 특성 변질이나 모델 붕괴 추척 감시 |
|
풀 스택 지원 단계 | 지식관리, 정보공유, 협업, 채팅 등 가능 코딩 환경, 기계학습 라이브러리 등 제공 |
-지속적 통합(CI) 및 지속적 배포 (CD)를 전제로 한다는 점은 DevOps와 유사
-데이터 의존적이고 실험적인 특성으로 인해 컨셉 드리프트의 영향이 크고 역방향 피드백이 자주 발생한다는 점이 DevOps와 다름
(ITFIND 기계학습 운영화(MLOps) 실행 전략 참조)
'ICT 관련 동향' 카테고리의 다른 글
자연어 처리 임베딩 기술 (0) | 2021.05.23 |
---|---|
원-핫 인코딩(One-hot Encoding) (0) | 2021.05.23 |
전자정부사업관리(PMO) 도입 운영 가이드 (0) | 2021.05.22 |
ISP(Information Strategic Planning) 수립 공통 가이드 (0) | 2021.05.22 |
인공지능 학습용 데이터 품질관리 가이드라인 (0) | 2021.05.22 |
댓글