본문 바로가기
  • (개인)정보보호/최신ICT 정보 공유 블로그
ICT 관련 동향

인공지능 학습용 데이터 품질관리 가이드라인

by 노벰버맨 2021. 5. 22.

1.  인공지능 학습용 데이터의 개요

가. 인공지능 학습용 데이터의 정의

정의 머신러닝, 딥러닝 등 AI 모델의 학습을 위해 활용되는 데이터 셋
특징 비정형 데이터 텍스트, 음성, 이미지, 동영상 등 비정형 데이터를 파일 단위로 관리 활용
구축 단계별 품질요구사항 획득, 정제, 라벨링 등 단계별로 고려해야 할 품질요구사항 상이
학습모델 성능 학습용 데이터는 목적성을 갖는 데이터이므로 획득, 정제, 레벨링을 통한 성능 확보
인공지능 모델 성능 인공지능 학습성능이 낮은 경우 데이터의 품질이 낮다고 판단

나. 인공지능 학습용 데이터와 DB 데이터의 비교

 

2. 인공지능 학습용 데이터 생애주기 개념도 및 상세내용

가. 인공지능 학습용 데이터 생애주기의 개념도

나. 인공지능 학습용 데이터의 생애주기의 상세내용

주기 구분 특징 설명
계획 임무정의 문제 정의
학습용 데이터 정의 및 설계
인공지능이 기계학습을 통해 해결하고자 하 는 문제를 명확하게 정의하고, 문제 해결에 필요한 학습용 데이터를 구체적으로 정의하고 설계하는 활동을 수행
구축 데이터 획득 데이터 생성
데이터 수집
원시 데이터
인공지능의 기계학습에 필요한 데이터를 현실 세계에서 직접 생성
이미 보유하고 있는 조직이나 시스템 등으로부터 인공지능 학습에 필요한 데이터를 수집
개인정보나 저작권 등 법률적 제약이 없도록 ‘원시데이터’를 확보
데이터 정제 형식과 크기
중복 제거
비식별화
원천 데이터
기계학습에 필요한 형식이나 크기로 조정
데이터의 중복을 제거
원시데이터 획 득 시 포함된 개인정보를 비식별화하여 처리하는 등의 과정을 통해 ‘원천데이터’를 확보
데이터 라벨링 참값
파일형식
해상도
기능이나 목적에 부합하는 ‘라벨링데이터’를 원천데이터에 부착
‘라벨링데이터’란, 원천데이터에 부여 한 ‘참값(Ground Truth)’, 파일형식, 해상도 등의 데이터 속성과 설명, 주석 등이 포함된 ‘어노테이션’의 집합
데이터 학습 원천데이터와 라벨링뎅이터
학습
보정
원천데이터와 라벨링데이터의 묶음인 ‘학습데이터셋’을 이용하여 사전에 정의된 인공지능 알고리즘을 학습시키고, 학습된 인공지능 모델의 성능을 향상시키거나 보정하는 활동
운영 활동 활용 운영
활용
폐기
AI HUB의 공개용 학습데이터셋을 활용하여 인공지능 학습 활용

 

3. 인공지능 학습용 데이터의 품질관리모델과 영역

가. 인공지능 학습용 데이터 품질관리모델

구분 특징 설명
품질관리 원칙 총 9개 원칙 제시 데이터 품질관리의 정책 방향성을 제시하는 것으 로 본 가이드라인에서는 데이터 측면과 품질관리 측면에서 원칙을 제시
품질관리 대상 AI Hub 인공지능 학습용 데이터 구축사업 및 AI Hub를 통해 민간에 개방하는 인공지능 학습용 데이터셋을 우선적인 품질관리 대상
품질관리 기준 품질 지표
품질 수준
인공지능 학습용 데이터의 자체적인 품질 및 인공 지능 학습용 데이터를 구축하는 과정의 품질을 측정하고 검증하는 데 필요한 지표를 정의
인공지능 학습용 데이터의 품질 수준을 측정하고, 데이터를 구축하는 과정에서의 품질관리가 적절하게 수행되었는지를 판단
품질관리 조직 역할과 책임 부여 인공지능 학습용 데이터의 품질확보 및 품질관리 활동을 수행하는 조직
품질관리 절차   인공지능 학습용 데이터 품질 검사, 원인 분석, 개선 조치 등 일련의 활동
생애주기별 품질관리 활동 계획, 구축, 운영, 활용 계획, 구축, 운영, 활용의 각 영역에서 수행해야 할 품질관리 활동 정의
품질관리 도구 및 지원 인프라 도구, 기술, 플랫폼 도구 등을 활용하여 인공지능 학습용 데이터의 품질검사나 품질관리 활동 수행

 

나. 인공지능 학습용 데이터의 품질관리 영역

구분 특징 설명
구축 프로세스 품질관리 품질관리 활동 원하는 수준의 데이터 품질 보장
품질관리 활동 수행 모니터링
문제점 발견 시 조치 활동
구축데이터 품질관리 원시데이터
원천데이터
라벨링데이터
데이터 품질 검사
발견된 오류 개선 활동 수행
개방데이터 품질관리 개방된 학습용 데이터 관리 AI HUB에 적재된 데이터 품질검사
품질 이슈 최소화

제1권_인공지능_학습용_데이터_품질관리_가이드라인.pdf
2.54MB

댓글