1. 인공지능 학습용 데이터의 개요
가. 인공지능 학습용 데이터의 정의
정의 | 머신러닝, 딥러닝 등 AI 모델의 학습을 위해 활용되는 데이터 셋 | |
특징 | 비정형 데이터 | 텍스트, 음성, 이미지, 동영상 등 비정형 데이터를 파일 단위로 관리 활용 |
구축 단계별 품질요구사항 | 획득, 정제, 라벨링 등 단계별로 고려해야 할 품질요구사항 상이 | |
학습모델 성능 | 학습용 데이터는 목적성을 갖는 데이터이므로 획득, 정제, 레벨링을 통한 성능 확보 | |
인공지능 모델 성능 | 인공지능 학습성능이 낮은 경우 데이터의 품질이 낮다고 판단 |
나. 인공지능 학습용 데이터와 DB 데이터의 비교
2. 인공지능 학습용 데이터 생애주기 개념도 및 상세내용
가. 인공지능 학습용 데이터 생애주기의 개념도
나. 인공지능 학습용 데이터의 생애주기의 상세내용
주기 | 구분 | 특징 | 설명 |
계획 | 임무정의 | 문제 정의 학습용 데이터 정의 및 설계 |
인공지능이 기계학습을 통해 해결하고자 하 는 문제를 명확하게 정의하고, 문제 해결에 필요한 학습용 데이터를 구체적으로 정의하고 설계하는 활동을 수행 |
구축 | 데이터 획득 | 데이터 생성 데이터 수집 원시 데이터 |
인공지능의 기계학습에 필요한 데이터를 현실 세계에서 직접 생성 이미 보유하고 있는 조직이나 시스템 등으로부터 인공지능 학습에 필요한 데이터를 수집 개인정보나 저작권 등 법률적 제약이 없도록 ‘원시데이터’를 확보 |
데이터 정제 | 형식과 크기 중복 제거 비식별화 원천 데이터 |
기계학습에 필요한 형식이나 크기로 조정 데이터의 중복을 제거 원시데이터 획 득 시 포함된 개인정보를 비식별화하여 처리하는 등의 과정을 통해 ‘원천데이터’를 확보 |
|
데이터 라벨링 | 참값 파일형식 해상도 |
기능이나 목적에 부합하는 ‘라벨링데이터’를 원천데이터에 부착 ‘라벨링데이터’란, 원천데이터에 부여 한 ‘참값(Ground Truth)’, 파일형식, 해상도 등의 데이터 속성과 설명, 주석 등이 포함된 ‘어노테이션’의 집합 |
|
데이터 학습 | 원천데이터와 라벨링뎅이터 학습 보정 |
원천데이터와 라벨링데이터의 묶음인 ‘학습데이터셋’을 이용하여 사전에 정의된 인공지능 알고리즘을 학습시키고, 학습된 인공지능 모델의 성능을 향상시키거나 보정하는 활동 | |
운영 활동 | 활용 | 운영 활용 폐기 |
AI HUB의 공개용 학습데이터셋을 활용하여 인공지능 학습 활용 |
3. 인공지능 학습용 데이터의 품질관리모델과 영역
가. 인공지능 학습용 데이터 품질관리모델
구분 | 특징 | 설명 |
품질관리 원칙 | 총 9개 원칙 제시 | 데이터 품질관리의 정책 방향성을 제시하는 것으 로 본 가이드라인에서는 데이터 측면과 품질관리 측면에서 원칙을 제시 |
품질관리 대상 | AI Hub | 인공지능 학습용 데이터 구축사업 및 AI Hub를 통해 민간에 개방하는 인공지능 학습용 데이터셋을 우선적인 품질관리 대상 |
품질관리 기준 | 품질 지표 품질 수준 |
인공지능 학습용 데이터의 자체적인 품질 및 인공 지능 학습용 데이터를 구축하는 과정의 품질을 측정하고 검증하는 데 필요한 지표를 정의 인공지능 학습용 데이터의 품질 수준을 측정하고, 데이터를 구축하는 과정에서의 품질관리가 적절하게 수행되었는지를 판단 |
품질관리 조직 | 역할과 책임 부여 | 인공지능 학습용 데이터의 품질확보 및 품질관리 활동을 수행하는 조직 |
품질관리 절차 | 인공지능 학습용 데이터 품질 검사, 원인 분석, 개선 조치 등 일련의 활동 | |
생애주기별 품질관리 활동 | 계획, 구축, 운영, 활용 | 계획, 구축, 운영, 활용의 각 영역에서 수행해야 할 품질관리 활동 정의 |
품질관리 도구 및 지원 인프라 | 도구, 기술, 플랫폼 | 도구 등을 활용하여 인공지능 학습용 데이터의 품질검사나 품질관리 활동 수행 |
나. 인공지능 학습용 데이터의 품질관리 영역
구분 | 특징 | 설명 |
구축 프로세스 품질관리 | 품질관리 활동 | 원하는 수준의 데이터 품질 보장 품질관리 활동 수행 모니터링 문제점 발견 시 조치 활동 |
구축데이터 품질관리 | 원시데이터 원천데이터 라벨링데이터 |
데이터 품질 검사 발견된 오류 개선 활동 수행 |
개방데이터 품질관리 | 개방된 학습용 데이터 관리 | AI HUB에 적재된 데이터 품질검사 품질 이슈 최소화 |
'ICT 관련 동향' 카테고리의 다른 글
전자정부사업관리(PMO) 도입 운영 가이드 (0) | 2021.05.22 |
---|---|
ISP(Information Strategic Planning) 수립 공통 가이드 (0) | 2021.05.22 |
(21년 가트너 전략기술) 초자동화 (Hyperautomation) (0) | 2021.05.21 |
LTE 기반 재난안전통신망 (세계 최초 전국 단일 개통) (0) | 2021.05.15 |
딥러닝 기반 객체 인식 기술 유형 및 기술 동향 자료 (0) | 2021.05.14 |
댓글