본문으로 건너뛰기

인공지능 학습 데이터허브, 학습 데이터셋의 품질

· 약 6분

AI HUB 개념

  • AI 학습을 위한 고품질 데이터를 제공하는 플랫폼
  • 데이터 접근성 향상, 데이터 품질 보증, 산업 전반의 AI활용 촉진

AI 학습용 데이터 품질관리 개념도, 프레임워크, 품질 지표

AI 학습용 데이터 품질관리 개념도

  • 데이터 처리 전 단계에서 품질을 보장하여 데이터 신뢰성 제고 및 모델 예측 정확도와 효율성 극대화

AI 학습용 데이터 품질관리 프레임워크

단계프로세스산출물
준비/계획구축 계획 수립사업수행계획서, 품질관리계획서 품질지표 기준서
데이터획득/수집획득/수집 기준 현행화획득/수집 가이드라인, 개인정보 자율점검표, 수집도구 사용설명서, 원시데이터, 품질관리결과서, 품질검사도구
데이터정제정제 방법/기준 현행화정제 가이드라인, 저작도구 사용설명서, 원천데이터, 품질관리 결과서, 품질검사도구
데이터가공라벨링 방법/기준 현행화가공 가이드라인, 저작도구 사용설명서, 라벨링데이터, 품질관리 결과서, 품질검사 도구
데이터 학습구축목적, AI모델 합치성 확인AI모델 설명서, AI모델 소스코드, 학습모델 파일, 모델 구축 도커이미지, AI모델 테스트 결과서, 품질검사 도구, 보완조치결과서

AI 학습용 데이터셋의 품질 지표

구분품질 지표내용
구축공정준비성품질관리를 위해 기본적으로 관리해야하는 정책, 규정, 조직, 절차 마련 및 검사
-완전성물리적 구조와 정의한 데이터 형식, 입력값 범위에 맞게 데이터가 저장되도록 설계, 구축되었는지 검사
-유용성발주기관의 요구사항이 충분히 반영되었는지, 임무정의에 적합한 데이터 범위와 상세화 정도를 충족하는지 검사
데이터 적합성기준 적합성다양성, 신뢰성, 충분성, 균일성, 사실성, 공평성 측정하여 학습용도로 적합한지 검사
-기술 적합성파일포맷, 해상도, 선명도, 컬러, 크기, 길이, 음질 등을 측정하여 학습용도로 적합한지 검사
-통계적 다양성데이터 편향을 방지하기 위해 클래스 분포도, 인스턴스 분포도, 문장길이, 어휘개수 등을 측정
데이터 정확성구문 정확성어노테이션 데이터를 구성하는 속성값과 정의된 데이터 형식, 입력값 범위와 일치성 측정
-의미 정확성데이터 참값을 확인하기 위해 정확도, 정밀도, 재현율, IoU, ROUGE, BLEU, Fβ-점수, EM 등 측정
학습모델알고리즘 적정성알고리즘을 태스크 단위로 구분하여 사업 수행기관이 제시하는 학습모델의 태스크 적정성 판단
-유효성학습용 데이터로 학습시키는데에 적합한 인공지능 알고리즘의 유효성 측정

AI HUB 성공포인트

  • 최신 데이터를 주기적으로 업데이트하여 AI파트너, AI생산자에게 최신트랜드와 패턴 학습 기회 제공