본문으로 건너뛰기

Full Stack JavaScript Developer | Half-time Open Sourcerer.

View All Authors

인공지능 파운데이션 모델

· 약 3분

인공지능 파운데이션 모델 개념

  • 대량의 무라벨 데이터로 학습되어 목적에 맞는 다운스트림 작업에 적용될 수 있는 일반화된 기초 모델
  • 데이터의 증가와 하드웨어의 연산 속도 증가로 다양한 작업에서 높은 성능을 보여주는 파운데이션 모델 등장

인공지능 파운데이션 모델 개념도, 핵심요소, 기술동향

인공지능 파운데이션 모델 개념도

인공지능 파운데이션 모델 핵심요소

구분요소내용
모델방대한 학습데이터텍스트, 이미지, 데이터 이해
-대규모 파라미터최소 수억개 이상 파라미터
기술트랜스포머순차 데이터 내 관계 학습
-Few-Shot 러닝적은 양의 데이터로 미세 조정
기능범용성생성형 기반 추론 가능
-유연성자연어 처리, 영상 인식 등 다수 분야 활용

인공지능 파운데이션 모델 기술동향

구분모델내용
OpenAISora텍스트에서 영상 생성
-GPT4o뛰어난 감정표현 가능
XGrok1.5오픈소스기반 대규모 컨텍스트 처리
MetaLlama3.1오픈소스기반, sLLM

인공지능 파운데이션 모델 고려사항

  • 지적재산권, 생성물저작권
  • 모델 운영 전력, 훈련시 탄소배출 비용
  • 편향, 환각 등 역기능 제거 노력, 윤리원칙 준수 필요

데이터구조, 선형구조, 비선형구조

· 약 3분

데이터 구조 개념

  • 데이터를 효율적을 저장/관리하여 메모리를 효율적으로 사용하기 위한 방법

선형구조, 비선형구조 유형, 비교

선형 데이터 구조 유형

구분개념도내용
리스트-순차적으로 저장, 큰 삽입/삭제 비용
링크드 리스트-노드를 포인터로 연결, 접근시 비효율
스택-LIFO, 함수호출시 사용
-FIFO, 프로세스 스케쥴링 사용
데크-양방향 삽입, 삭제, 유연한 데이터 처리
  • 데이터 구성요소들을 순차 나열한 자료구조

비선형 데이터 구조 유형

구분개념도내용
그래프-정점과 간선의 집합, 방향, 무방향 그래프 존재
트리-계층 구조의 노드 집합, 부모-자식 관계 구성
-완전이진트리의 일종, 부모 노드가 자식보다 크거나 작음

선형, 비선형 데이터 구조 비교

구분선형구조비선형구조
데이터 탐색순차접근, 탐색계층접근, 네트워크접근
메모리효율비효율효율
구현용이성쉬움어려움
레벨단일레벨다중레벨
사례스케쥴링, 버퍼 등SNS, NW모델링, DOM 등

데이터 구조 선택시 고려사항

  • 사용하려는 자료구조의 탐색, 저장, 삭제에 따른 시간복잡도, 공간복잡도를 고려한 선택 필요

인공지능 학습 데이터허브, 학습 데이터셋의 품질

· 약 6분

AI HUB 개념

  • AI 학습을 위한 고품질 데이터를 제공하는 플랫폼
  • 데이터 접근성 향상, 데이터 품질 보증, 산업 전반의 AI활용 촉진

AI 학습용 데이터 품질관리 개념도, 프레임워크, 품질 지표

AI 학습용 데이터 품질관리 개념도

  • 데이터 처리 전 단계에서 품질을 보장하여 데이터 신뢰성 제고 및 모델 예측 정확도와 효율성 극대화

AI 학습용 데이터 품질관리 프레임워크

단계프로세스산출물
준비/계획구축 계획 수립사업수행계획서, 품질관리계획서 품질지표 기준서
데이터획득/수집획득/수집 기준 현행화획득/수집 가이드라인, 개인정보 자율점검표, 수집도구 사용설명서, 원시데이터, 품질관리결과서, 품질검사도구
데이터정제정제 방법/기준 현행화정제 가이드라인, 저작도구 사용설명서, 원천데이터, 품질관리 결과서, 품질검사도구
데이터가공라벨링 방법/기준 현행화가공 가이드라인, 저작도구 사용설명서, 라벨링데이터, 품질관리 결과서, 품질검사 도구
데이터 학습구축목적, AI모델 합치성 확인AI모델 설명서, AI모델 소스코드, 학습모델 파일, 모델 구축 도커이미지, AI모델 테스트 결과서, 품질검사 도구, 보완조치결과서

AI 학습용 데이터셋의 품질 지표

구분품질 지표내용
구축공정준비성품질관리를 위해 기본적으로 관리해야하는 정책, 규정, 조직, 절차 마련 및 검사
-완전성물리적 구조와 정의한 데이터 형식, 입력값 범위에 맞게 데이터가 저장되도록 설계, 구축되었는지 검사
-유용성발주기관의 요구사항이 충분히 반영되었는지, 임무정의에 적합한 데이터 범위와 상세화 정도를 충족하는지 검사
데이터 적합성기준 적합성다양성, 신뢰성, 충분성, 균일성, 사실성, 공평성 측정하여 학습용도로 적합한지 검사
-기술 적합성파일포맷, 해상도, 선명도, 컬러, 크기, 길이, 음질 등을 측정하여 학습용도로 적합한지 검사
-통계적 다양성데이터 편향을 방지하기 위해 클래스 분포도, 인스턴스 분포도, 문장길이, 어휘개수 등을 측정
데이터 정확성구문 정확성어노테이션 데이터를 구성하는 속성값과 정의된 데이터 형식, 입력값 범위와 일치성 측정
-의미 정확성데이터 참값을 확인하기 위해 정확도, 정밀도, 재현율, IoU, ROUGE, BLEU, Fβ-점수, EM 등 측정
학습모델알고리즘 적정성알고리즘을 태스크 단위로 구분하여 사업 수행기관이 제시하는 학습모델의 태스크 적정성 판단
-유효성학습용 데이터로 학습시키는데에 적합한 인공지능 알고리즘의 유효성 측정

AI HUB 성공포인트

  • 최신 데이터를 주기적으로 업데이트하여 AI파트너, AI생산자에게 최신트랜드와 패턴 학습 기회 제공

독립표본 T검정, 대응표본 T검정

· 약 3분

T검정 개념

  • 두 집단 이하의 평균을 비교하여 차이가 있는지 검증하는 통계적 방법으로 독립표본 T검정과 대응표본 T검정으로 구분

독립표본 T검정, 대응표본 T검정 비교, 적용사례

독립표본 T검정, 대응표본 T검정 비교

구분독립표본 T검정대응표본 T검정
개념두 독립된 집단의 평균 비교동일한 집단의 두 시점 비교
표본독립적인 두 집단동일한 집단 반복
가정두 그룹 모집단이 정규분포를 따르고, 분산은 동일두 시점 간 차이가 정규분포를 따름
검정통계량두 그룹의 평균차이를 표준오차로 나눠 T값 계산두 시점의 차이를 표준 오차로 나눠 T값 계산
자유도n1 + n2 - 2n - 1

독립표본 T검정, 대응표본 T검정 적용사례

구분기법사례
두 개의 독립된 집단 비교독립표본 T검정남, 여 평균 체지방 비교
동일 집단의 두 시점 비교대응표본 T검정같은 학생의 기말고사 전/후 성적 비교
같은 집단의 두 조건 비교대응표본 T검정동일 환자의 약물치료 전/후 체중 비교

T검정시 고려사항

  • 세 개 이상의 독립된 집단 간의 평균 비교시 ANOVA 기법 활용

머신러닝, 딥러닝

· 약 3분

머신러닝, 딥러닝 개념

  • 머신러닝: 입력 데이터를 스스로 학습하여 결과를 예측하거나 분류하는 기술
  • 딥러닝: 인공신경망에서 은닉층을 깊게 쌓은 머신러닝 기법

머신러닝, 딥러닝 핵심요소 비교, 적용방안

머신러닝, 딥러닝 핵심요소 비교

구분머신러닝딥러닝
특징사람의 개입사람 개입 최소화
학습구성지도, 비지도, 강화인공신경망
알고리즘선형회귀, 의사결정나무, SVM, K-means 등CNN, RNN, GAN, DBN 등
활용예측, 분류예측, 분류, 생성
성능적은 데이터에서 우수한 성능대규모 데이터에서 우수한 성능
-복잡한 패턴인식 한계복잡한 패턴인식 가능

머신러닝, 딥러닝 적용방안

구분머신러닝딥러닝
금융신용점수예측, 사기탐지주가예측, 금융모델링
의료진단보조, 환자위험도 평가의료이미지분석, 유전자분석
커머스고객행동분석, 추천시스템고객감정분석, 행동패턴분석

머신러닝 성공포인트

구분포인트내용
기술측면Zero-Shot 학습학습 비용의 효율화
-1-Bit 가중치 인코딩저장 비용의 효율화
에너지측면태양열 에너지에너지 사용 학습 비용 절감
-소형모듈원전모듈화 원전으로 학습 에너지 충족
  • 학습, 저장 비용의 효율화와 에너지 비용절감을 통해 탄소인지 MLOps 환경 구축 필요

데이터 차원 축소

· 약 3분

데이터 차원 축소 개념

  • 다차원 데이터세트의 차원을 축소해 새로운 저차원 데이터를 생성하는 과정 또는 기술
  • 차원의 저주해결, 성능 및 계싼 효율, 학습 효율성, 데이터 시각화

데이터 차원 축소 개념도, 주요 유형, 적용방안

데이터 차원 축소 개념도

2차원 데이터 PCA로 1차원되는 그림

데이터 차원 축소 주요 유형

구분유형내용
선형PCA, 주성분 분석데이터 분산이 큰 방향으로 차원 축소
-LDA, 선형판별분석클래스 간 분산 최대화, 클래스 내 분산 최소화
-SVD, 특이값분해데이터 행렬 분해하여 차원 축소, 압축
-ICA, 독립성분분석데이터의 독립성분을 추출하여 표현
비선형t-SNE고차원 데이터를 확률적 모델링하여 매핑
-LLE, 지역선형임베딩인접데이터의 선형관계를 보존하여 축소
-Isomap, 등거리매핑데이터 간 거리를 보존하여 저차원 매핑
-MDS, 다차원스케일링데이터 간 거리 정보를 근접행렬로 유지 후 매핑
-커널 PCA커널트릭 활용 고차원 공간에서 PCA 수행

데이터 차원 축소 적용방안

구분내용비고
데이터 시각화고차 데이터를 2D, 3D로 변환, 시각화t-SNE 등
노이즈제거데이터 주요 특징만 남겨 데이터 품질 향상PCA 등
특성 선택중요 속성만 선택하여 분석, 학습 활용LDA 등
데이터 압축저장 공간 절약 및 전송 효율성SVD 등
패턴 인식데이터 잠재 구조 파악, 패턴 이해LLE, Isomap

데이터 차원 축소 고려사항

  • 대규모 데이터셋 차원축소 전 계산 비용을 줄이기 위해 데이터 샘플링 고려

디피-헬만 알고리즘

· 약 2분

디피-헬만 알고리즘 개념

  • 안전하지 않은 채널을 통해 암호키를 안전하게 교환할 수 있도록 하는 비밀키 교환 알고리즘
  • 인터넷과 같은 중개 네트워크 환경에서 안전한 키 교환 가능

디피-헬만 알고리즘 개념도, 절차, 활용사례

디피-헬만 알고리즘 개념도

디피-헬만 알고리즘 절차

절차내용비고
설정두 사용자는 큰 소수 P와 정수 G 선택사전 교환
-비밀키 a, b를 각각 선택비밀키 설정
공개값 교환공개값 A, B 나머지 연산안전하지 않은 NW 활용
-두 사용자는 공개값 교환-
비밀키 계산서로의 공개값으로 비밀키 나머지 연산 후 암호화 통신대칭키 기반 통신

디피-헬만 알고리즘 활용사례

구분내용비고
VPNVPN 연결시 세션 키교환 수행비대칭 키 교환
TLSHTTPS 기본 프로토콜인 TLS 키교환시 사용ECDHE
무선보안WPA/WPA2 등 무선 보안 프로토콜에 활용도청 방지

디피-헬만 알고리즘 고려사항

  • 보안을 위해 충분히 큰 키(2048bit 이상)를 사용하여 무차별 연산 공격 방지

RPA, Robotic Process Automation

· 약 3분

RPA 개념

  • 소프트웨어 봇을 활용하여 반복적이고 규칙적인 업무와 프로세스를 지능형 자동화 하는 기술
  • 생성형 모델의 에이전트 기반으로 태스크의 완전한 자동화 가능성

RPA 구성도, 구성요소, 적용방안

RPA 구성도

RPA 구성요소

구분내용비고
RPA 개발도구프로세스 모방 스크립트 작성AI 모델 통합
RPA 봇로봇 실행, 자동화데이터 수집
모니터링봇 작업 모니터링, 자원 관리AI 모델 업데이트
지능형 자동화AI 기반 스크립트 자동화작업자 개입 최소화

RPA 적용방안

구분내용비고
공공데이터 입력, 문서 처리, 보고서 작성 자동화 등 행정 업무 자동화효율성 증대 및 오류 감소
금융대출 신청 처리, 고객 상담 자동화 등 고객 서비스 개선서비스 품질 향상 및 대기 시간 감소
민간재고 관리, 구매 주문 처리 자동화 등 생산성 향상운영 비용 절감 및 생산성 증가

RPA 고려사항

  • RPA 사용방법에 대한 지속적인 업무 교육으로 러닝커브 감소 필요
  • RPA 결과에 대한 검증 절차 마련 필요

빅데이터 분석도구, 선택 원칙

· 약 3분

빅데이터 분석도구 개념

  • 대량의 데이터를 분석을 통해 가치 있고 활용 가능한 정보를 얻을 수 있게 하는 도구

빅데이터 분석도구 선택 원칙, 선정 방안

조직 관점 선택 원칙

구분원칙내용
품질기능성빅데이터 처리 시각화 기능 등
-실행효율성데이터 처리 속도, 하드웨어 사용량
-호환성, 이식성정형, 비정형 데이터 처리, OS 종속성
-보안성데이터 침해, 개인정보 침해
사용성학습성, 이해용이성러닝 코스트 측정
-접근성, 편의성UI 모델링 용이성
-운영성벤더 지원 여부, EoS 등
  • ISO 25000 관점에서 분석도구의 품질과 사용성 평가

핵심기능 관점 선택 원칙

원칙내용비고
분석 능력다양한 유형의 분석 기법SVM, 의사결정트리, 시계열 등
데이터 통합관리별도 통계도구, 언어 지원주피터 노트북, 사용자 대시보드 등
데이터 가져오기, 내보내기다양한 포맷의 데이터 입출력CSV, XLSX 등 지원
  • 조직 내 데이터 요구사항, 구성원의 기술스택 고려 선정

빅데이터 분석도구 선정 방안

빅데이터 분석도구 선택 고려사항

  • 실시간 데이터를 받기 위해 UDP, JSONL 지원 여부 고려
  • 데이터 조회, 그룹핑 분석을 위한 Query Language 지원 여부 고려

OECD 디지털세

· 약 3분

OECD 디지털세 개념

  • 글로벌 IT기업이 자국 내에서 일으킨 매출에 대해 각 국이 부과하는 법인세와 별도 세금
  • 과세 형평성 제고, 안정적 세수 확보, 사업장이 없는 다국적 기업의 서비스 수익에 대한 과세

OECD 디지털세 구성도, 구성요소, 대응방안

OECD 디지털세 구성도

  • 시장 소재지 국가에 과세권을 배분하고, 글로벌 최저한세율 도입으로 국가 간 법인 세율 경쟁 방지

OECD 디지털세 구성요소

구분내용비고
필러1시장 소재지 추가 과세권 배분초과이익의 일정부 과세
-디지털 서비스 기업 대상연매출 200억 이상, 이익률 10% 이상
필러2글로벌 최저한 세율 15% 도입법인 세율 차이 감소
-모든 다국적 기업 대상연매출 7억 5천만 유로 이상

OECD 디지털세 대응방안

구분내용비고
기업글로벌 사업구조 재검토세금 부담 최소화, 효율적 조세 전략
-정부정책 모니터링각국 디지털세 도입 현황, 규제 파악
공공국제 협력 강화OECD, G20 국가 간 협력 통한 시행
-국내 법, 제도 정비OECD 모델 규칙 반영, 국내 상황 반영
민간의견 수렴, 정책 제안이해관계자 의견 수렴, 반영
-디지털세 관련 정보 제공기업, 개인에게 디지털세 교육

OECD 디지털세 전망

구분내용비고
다자간 조약 체결디지털세 규칙을 반영한 조약 체결 및 이행각국 비준 절차, 국내 법제화 필요
디지털세 범위 확대기업 적용 가능성 확보디지털 경제 발전 따라 변동 가능
새로운 과세 모델필러 1,2 외의 모델 개발디지털 경제 변화에 따른 조세 제도 개편