본문으로 건너뛰기

"pe/algorithm" 태그로 연결된 53개 게시물개의 게시물이 있습니다.

기술사 알고리즘, 인공지능 토픽

모든 태그 보기

데이터구조, 선형구조, 비선형구조

· 약 3분

데이터 구조 개념

  • 데이터를 효율적을 저장/관리하여 메모리를 효율적으로 사용하기 위한 방법

선형구조, 비선형구조 유형, 비교

선형 데이터 구조 유형

구분개념도내용
리스트순차적으로 저장, 큰 삽입/삭제 비용
링크드 리스트노드를 포인터로 연결, 접근시 비효율
스택LIFO, 함수호출시 사용
FIFO, 프로세스 스케쥴링 사용
데크양방향 삽입, 삭제, 유연한 데이터 처리
  • 데이터 구성요소들을 순차 나열한 자료구조

비선형 데이터 구조 유형

구분개념도내용
그래프정점과 간선의 집합, 방향, 무방향 그래프 존재
트리계층 구조의 노드 집합, 부모-자식 관계 구성
완전이진트리의 일종, 부모 노드가 자식보다 크거나 작음

선형, 비선형 데이터 구조 비교

구분선형구조비선형구조
데이터 탐색순차접근, 탐색계층접근, 네트워크접근
메모리효율비효율효율
구현용이성쉬움어려움
레벨단일레벨다중레벨
사례스케쥴링, 버퍼 등SNS, NW모델링, DOM 등

데이터 구조 선택시 고려사항

  • 사용하려는 자료구조의 탐색, 저장, 삭제에 따른 시간복잡도, 공간복잡도를 고려한 선택 필요

인공지능 학습 데이터허브, 학습 데이터셋의 품질

· 약 6분

AI HUB 개념

  • AI 학습을 위한 고품질 데이터를 제공하는 플랫폼
  • 데이터 접근성 향상, 데이터 품질 보증, 산업 전반의 AI활용 촉진

AI 학습용 데이터 품질관리 개념도, 프레임워크, 품질 지표

AI 학습용 데이터 품질관리 개념도

  • 데이터 처리 전 단계에서 품질을 보장하여 데이터 신뢰성 제고 및 모델 예측 정확도와 효율성 극대화

AI 학습용 데이터 품질관리 프레임워크

단계프로세스산출물
준비/계획구축 계획 수립사업수행계획서, 품질관리계획서 품질지표 기준서
데이터획득/수집획득/수집 기준 현행화획득/수집 가이드라인, 개인정보 자율점검표, 수집도구 사용설명서, 원시데이터, 품질관리결과서, 품질검사도구
데이터정제정제 방법/기준 현행화정제 가이드라인, 저작도구 사용설명서, 원천데이터, 품질관리 결과서, 품질검사도구
데이터가공라벨링 방법/기준 현행화가공 가이드라인, 저작도구 사용설명서, 라벨링데이터, 품질관리 결과서, 품질검사 도구
데이터학습구축목적, AI모델 합치성 확인AI모델 설명서, AI모델 소스코드, 학습모델 파일, 모델 구축 도커이미지, AI모델 테스트 결과서, 품질검사 도구, 보완조치결과서

AI 학습용 데이터셋의 품질 지표

구분품질 지표내용
구축공정준비성품질관리를 위해 기본적으로 관리해야하는 정책, 규정, 조직, 절차 마련 및 검사
완전성물리적 구조와 정의한 데이터 형식, 입력값 범위에 맞게 데이터가 저장되도록 설계, 구축되었는지 검사
유용성발주기관의 요구사항이 충분히 반영되었는지, 임무정의에 적합한 데이터 범위와 상세화 정도를 충족하는지 검사
데이터 적합성기준 적합성다양성, 신뢰성, 충분성, 균일성, 사실성, 공평성 측정하여 학습용도로 적합한지 검사
기술 적합성파일포맷, 해상도, 선명도, 컬러, 크기, 길이, 음질 등을 측정하여 학습용도로 적합한지 검사
통계적 다양성데이터 편향을 방지하기 위해 클래스 분포도, 인스턴스 분포도, 문장길이, 어휘개수 등을 측정
데이터 정확성구문 정확성어노테이션 데이터를 구성하는 속성값과 정의된 데이터 형식, 입력값 범위와 일치성 측정
의미 정확성데이터 참값을 확인하기 위해 정확도, 정밀도, 재현율, IoU, ROUGE, BLEU, Fβ-점수, EM 등 측정
학습모델알고리즘 적정성알고리즘을 태스크 단위로 구분하여 사업 수행기관이 제시하는 학습모델의 태스크 적정성 판단
유효성학습용 데이터로 학습시키는데에 적합한 인공지능 알고리즘의 유효성 측정

AI HUB 성공포인트

  • 최신 데이터를 주기적으로 업데이트하여 AI파트너, AI생산자에게 최신트랜드와 패턴 학습 기회 제공

독립표본 T검정, 대응표본 T검정

· 약 3분

T검정 개념

  • 두 집단 이하의 평균을 비교하여 차이가 있는지 검증하는 통계적 방법으로 독립표본 T검정과 대응표본 T검정으로 구분

독립표본 T검정, 대응표본 T검정 비교, 적용사례

독립표본 T검정, 대응표본 T검정 비교

구분독립표본 T검정대응표본 T검정
개념두 독립된 집단의 평균 비교동일한 집단의 두 시점 비교
표본독립적인 두 집단동일한 집단 반복
가정두 그룹 모집단이 정규분포를 따르고, 분산은 동일두 시점 간 차이가 정규분포를 따름
검정통계량두 그룹의 평균차이를 표준오차로 나눠 T값 계산두 시점의 차이를 표준 오차로 나눠 T값 계산
자유도n1 + n2 - 2n - 1

독립표본 T검정, 대응표본 T검정 적용사례

구분기법사례
두 개의 독립된 집단 비교독립표본 T검정남, 여 평균 체지방 비교
동일 집단의 두 시점 비교대응표본 T검정같은 학생의 기말고사 전/후 성적 비교
같은 집단의 두 조건 비교대응표본 T검정동일 환자의 약물치료 전/후 체중 비교

T검정시 고려사항

  • 세 개 이상의 독립된 집단 간의 평균 비교시 ANOVA 기법 활용

머신러닝, 딥러닝

· 약 3분

머신러닝, 딥러닝 개념

  • 머신러닝: 입력 데이터를 스스로 학습하여 결과를 예측하거나 분류하는 기술
  • 딥러닝: 인공신경망에서 은닉층을 깊게 쌓은 머신러닝 기법

머신러닝, 딥러닝 핵심요소 비교, 적용방안

머신러닝, 딥러닝 핵심요소 비교

구분머신러닝딥러닝
특징사람의 개입사람 개입 최소화
학습구성지도, 비지도, 강화인공신경망
알고리즘선형회귀, 의사결정나무, SVM, K-means 등CNN, RNN, GAN, DBN 등
활용예측, 분류예측, 분류, 생성
성능적은 데이터에서 우수한 성능대규모 데이터에서 우수한 성능
복잡한 패턴인식 한계복잡한 패턴인식 가능

머신러닝, 딥러닝 적용방안

구분머신러닝딥러닝
금융신용점수예측, 사기탐지주가예측, 금융모델링
의료진단보조, 환자위험도 평가의료이미지분석, 유전자분석
커머스고객행동분석, 추천시스템고객감정분석, 행동패턴분석

머신러닝 성공포인트

구분포인트내용
기술측면Zero-Shot 학습학습 비용의 효율화
1-Bit 가중치 인코딩저장 비용의 효율화
에너지측면태양열 에너지에너지 사용 학습 비용 절감
소형모듈원전모듈화 원전으로 학습 에너지 충족
  • 학습, 저장 비용의 효율화와 에너지 비용절감을 통해 탄소인지 MLOps 환경 구축 필요

데이터 차원 축소

· 약 3분

데이터 차원 축소 개념

  • 다차원 데이터세트의 차원을 축소해 새로운 저차원 데이터를 생성하는 과정 또는 기술
  • 차원의 저주해결, 성능 및 계싼 효율, 학습 효율성, 데이터 시각화

데이터 차원 축소 개념도, 주요 유형, 적용방안

데이터 차원 축소 개념도

Dimensionality Reduction

데이터 차원 축소 주요 유형

구분유형내용
선형PCA, 주성분 분석데이터 분산이 큰 방향으로 차원 축소
LDA, 선형판별분석클래스 간 분산 최대화, 클래스 내 분산 최소화
SVD, 특이값분해데이터 행렬 분해하여 차원 축소, 압축
ICA, 독립성분분석데이터의 독립성분을 추출하여 표현
비선형t-SNE고차원 데이터를 확률적 모델링하여 매핑
LLE, 지역선형임베딩인접데이터의 선형관계를 보존하여 축소
Isomap, 등거리매핑데이터 간 거리를 보존하여 저차원 매핑
MDS, 다차원스케일링데이터 간 거리 정보를 근접행렬로 유지 후 매핑
커널 PCA커널트릭 활용 고차원 공간에서 PCA 수행

데이터 차원 축소 적용방안

구분내용비고
데이터 시각화고차 데이터를 2D, 3D로 변환, 시각화t-SNE 등
노이즈제거데이터 주요 특징만 남겨 데이터 품질 향상PCA 등
특성 선택중요 속성만 선택하여 분석, 학습 활용LDA 등
데이터 압축저장 공간 절약 및 전송 효율성SVD 등
패턴 인식데이터 잠재 구조 파악, 패턴 이해LLE, Isomap

데이터 차원 축소 고려사항

  • 대규모 데이터셋 차원축소 전 계산 비용을 줄이기 위해 데이터 샘플링 고려

트리정렬

· 약 2분

트리정렬 개념

  • 이진 탐색 트리를 만들어 데이터를 정렬하는 알고리즘
  • 각 요소에 따라 부모노드의 자식을 좌,우로 결정

트리정렬 개념도, 특징, 적용방안

트리정렬 개념도

  • 중위 순회로 정렬

트리정렬 특징

구분내용비고
시간복잡도균형이 무너지면 최악케이스O(nlogn)O(nlogn) O(n2)O(n^2)
공간복잡도트리구조 저장 구조 필요O(n)O(n)
안정성동일한 값의 순서 보장 불가불안정 정렬
사용 트리트리 균형을 유지해야 성능 향상BST, AVL 등

트리정렬 적용방안

구분내용비고
데이터 셋중간 크기의 데이터 세트에 가장 효과적인 정렬빅데이터인 경우 메모리 사용량 폭증
데이터 분포랜덤으로 분포된 데이터 정렬시 효율적군집의 경우, 편향트리 처리

베르누이 분포, 기하 분포

· 약 2분

이산확률분포 개념

  • 확률변수가 가지는 값이 명확히 구분되는 경우의 확률분포

베르누이 분포와 기하 분포 개념 비교

베르누이 분포기하 분포
상호 배반인 두가지 가능한 결과 중 하나를 가지는 베르누이 시행을 나타내는 확률 분포독립적인 베르누이 시행을 여러번 수행할 때 처음 성공까지 시도한 횟수의 분포

베르누이 분포와 기하분포 상세 비교

구분베르누이 분포기하 분포
수식성공확률 P, 실패확률 1-P예상치 E(X)=1/PE(X) = 1/P
평균 E(X)=PE(X) = P분산 Var(X)=1pp2Var(X) = \frac{1-p}{p^2}
분산 Var(X)=p(1p)=pqVar(X) = p(1 - p) = pq
사례동전 뒤집기타율이 3할인 선수가 두번째 타석에서 홈런칠 확률

베르누이 분포와 기하분포 사용

  • 확률 모델링과 추론에 사용
  • 빅데이터 분석의 확률 통계, 정보 이론 등에 사용

인공지능 시스템 신뢰성 제고를 위한 요구사항

· 약 6분

인공지능 시스템 신뢰성 제고를 위한 요구사항 개요

인공지능 시스템 신뢰성 제고를 위한 요구사항 개념

  • 인공지능 기술이 적용된 시스템의 신뢰성 제고를 위해, 인공지능 개발 및 운영 등의 전체 인공지능 생명주기에서 이해관계자들이 충족해야할 요구사항 제공

인공지능 시스템 신뢰성 제고를 위한 요구사항 필요성

구분내용비고
위험 관리오류, 오작동, 보안 위협 등 잠재적 위험 요소 식별 및 대응 방안 마련리스크 관리 및 대응
신뢰 확보작동 원리와 결과 명확히 설명, 예측 가능성 및 투명성 확보시스템 투명성 및 예측 가능성 확보
규제 준수법적 규제와 표준 준수, 책임성 강화 및 사회적 수용성 증대법적 준수 및 사회적 책임

인공지능 시스템 신뢰성 제고를 위한 요구사항 구성도, 구성요소

구성도

구성요소

구성내용비고
계획 수립위험 관리, 신뢰성 테스트 계획 수립생명주기 전 영역
데이터 점검신뢰성 있는 데이터인지 점검안정성, 공정성, 견고성
오픈소스 점검보안성, 기능성 점검개발단계 전 보안성 확보
모델 보안 대책 수립편향, 적대적공격 방어 점검지속적 평가
알림 정책 수립장애 발생시 절차 수립안전모드, 알림 등
설명가능성 점검추론 결과 확인, 상호작용 설명투명성, 서비스 오남용 방지
  • AI 생명주기 전 영역에서 인공지능 시스템 신뢰성 제고를 위한 활동 필요.

AI 시스템 생명 주기별 요구사항

구분내용비고
계획 및 거버넌스위험관리 계획, 거버넌스 체계위험 분석, 법 규정 수립
설계 및 개발신뢰성 테스트 계획, 이상 데이터 점검, 편향 제거, 보안성 점검테스트 환경 설계, 데이터 견고성, 편향 제거, 보안 패치 점검
검증 및 확인추적 가능성 확보, 모델 설명 제공데이터 추적, 모델 설명
배치 및 운영모델 방어 대책, 안전 모드, 알림 절차 수립방어 방안, 안전 모드 구현, 알림 기능
지속적 관리데이터 정보 제공, 모델 편향 제거, 시스템 편향 제거데이터 투명성, 알고리즘 편향 제거
서비스 종료서비스 범위 설명오남용 방지
  • 지속적 확인단계는 서비스 운영 중 지속적인 학습을 수행하는 경우 한해 적용

AI 시스템 신뢰성 제고를 위한 고려사항

구분내용비고
기술적인공지능 시스템의 추적 가능성 및 변경 이력 관리시스템 모니터링
관리적위험 관리 계획 수립 및 실행리스크 관리
제도적데이터 프라이버시 및 보안에 대한 제도적 관리프라이버시 보호

기타

AI 시스템 이해관계자

  • AI제공자: 플랫폼 제공자, 서비스 제공자
  • AI생산자: AI개발자, 데이터 과학자
  • AI고객: 서비스 사용자, 서비스 운영자
  • AI파트너: 시스템 통합자, 데이터 공급자
  • AI영향대상: 데이터 영향대상, 시민 단체
  • 관계기관: 규제기관, 정책입안자

해외 AI 신뢰성 요구사항

  • 유네스코: 인공지능 윤리권고
  • EU: The Assessment List on Trustworthy Artificial Intelligence

참조

AutoGPT

· 약 3분

AutoGPT 개념

  • GPT-4 기반으로 질문의 태스크를 생성하고, 에이전트는 그 과정을 반복하여 점진적으로 목표를 달성하는 기술

AutoGPT 구성도 및 구성요소

AutoGPT 구성도

AutoGPT 구성요소

구성요소설명예시
사용자 입력AutoGPT에 제공되는 목표 또는 작업이메일 자동 답변 생성
LLM태스크를 생성하기 위해 사용되는 언어 모델GPT-4
에이전트사용자 입력을 기반으로 태스크를 수행, 피드백 루프를 통해 결과를 개선이메일 자동 답변 생성 에이전트
피드백 루프작업의 결과를 반복적으로 입력으로 사용하여 결과를 개선결과 수정 및 재입력

AutoGPT 활용

적용 분야활용 예시설명
소프트웨어 개발자동 코드 생성어플리케이션 전체 자동 생성
디지털 마케팅콘텐츠 추천 시스템사용자의 활동을 기반한 개인화된 콘텐츠를 추천
정보 관리자동 문서 요약긴 문서를 요약하여 핵심 정보 제공

AutoGPT 성공포인트

  • OpenAI API를 사용하여 비용 절감을 위해 단계별로 사람의 확인이 필요한 구조이나, Local sLLM으로 교체시 원하는 결과를 얻기까지의 비용 및 프로세스 절감 가능

참조

RAG, 검색 증강 생성

· 약 4분

RAG 개요

RAG 개념

  • LLM의 출력을 최적화하여 응답을 생성하기 전 학습 데이터 소스 외부의 지식 베이스 데이터를 참조하도록 하는 기술

RAG의 배경

LLM의 문제점설명RAG 기대효과
환각답변이 없을 때 허위정보 제공독점 데이터 활용 정보 제공
최신 데이터일반적인 정보 제공구체적 정보 제공
신뢰성신뢰할 수 없는 출처로부터의 응답 제공신뢰할 수 있는 정보 제공

RAG의 구성도 및 절차

구성도

RAG

웹인터페이스 -> 벡터데이터베이스 -> LLM

구성요소

구분설명특징
웹인터페이스질의 가능한 웹 인터페이스챗봇 형태로 사용
벡터데이터베이스임베딩 데이터 저장최신/프라이빗 데이터 반환
LLM자연어처리, 일반 지식 응답임베딩 데이터 포함 응답

RAG 절차

  • 외부 데이터 생성 및 준비: 텍스트, 이미지, 파일 등 다양한 소스로 임베딩 후 벡터DB 저장
  • 관련 정보 검색: 질문을 기반으로 벡터 유사도 기반 데이터 검색
  • LLM 프롬프트 확장: 검색된 데이터는 LLM 프롬프트와 결합하여 응답 반환
  • 외부 데이터 업데이트: 벡터DB에 새로운 데이터를 주기적으로 업데이트하여 최신화

파인튜닝과 RAG 비교

구분파인튜닝검색증강생성
방식특화데이터를 모델이 재학습데이터 소스 추가 제공으로 모델 성능 향상
데이터 규모작음대규모 지식 베이스
모델 조정재학습으로 모델이 새로운 데이터로 조정됨추가 학습 없어 모델 조정 불필요
비용고비용, 모델 전체 재학습저비용
장점적은 데이터로 학습 가능, 특정 작업에서 효과적 성능 향상재학습 불필요, 과적합 위험 없음, 최신 데이터 반영
단점고품질 데이터 확보 어려움
과적합, 편향, 환각
고비용
LLM 모델에 따른 답변 품질 저하
소스 데이터 속성에 맞는 임베딩 모델 검토 필요

참조