본문으로 건너뛰기

"pe/algorithm" 태그로 연결된 27개 게시물개의 게시물이 있습니다.

기술사 알고리즘, 인공지능 토픽

모든 태그 보기

베르누이 분포, 기하 분포

· 약 2분

이산확률분포 개념

  • 확률변수가 가지는 값이 명확히 구분되는 경우의 확률분포

베르누이 분포와 기하 분포 개념 비교

베르누이 분포기하 분포
상호 배반인 두가지 가능한 결과 중 하나를 가지는 베르누이 시행을 나타내는 확률 분포독립적인 베르누이 시행을 여러번 수행할 때 처음 성공까지 시도한 횟수의 분포

베르누이 분포와 기하분포 상세 비교

구분베르누이 분포기하 분포
수식성공확률 P, 실패확률 1-P예상치 E(X)=1/PE(X) = 1/P
-평균 E(X)=PE(X) = P분산 Var(X)=1pp2Var(X) = \frac{1-p}{p^2}
-분산 Var(X)=p(1p)=pqVar(X) = p(1 - p) = pq-
사례동전 뒤집기타율이 3할인 선수가 두번째 타석에서 홈런칠 확률

베르누이 분포와 기하분포 사용

  • 확률 모델링과 추론에 사용
  • 빅데이터 분석의 확률 통계, 정보 이론 등에 사용

인공지능 시스템 신뢰성 제고를 위한 요구사항

· 약 6분

인공지능 시스템 신뢰성 제고를 위한 요구사항 개요

인공지능 시스템 신뢰성 제고를 위한 요구사항 개념

  • 인공지능 기술이 적용된 시스템의 신뢰성 제고를 위해, 인공지능 개발 및 운영 등의 전체 인공지능 생명주기에서 이해관계자들이 충족해야할 요구사항 제공

인공지능 시스템 신뢰성 제고를 위한 요구사항 필요성

구분내용비고
위험 관리오류, 오작동, 보안 위협 등 잠재적 위험 요소 식별 및 대응 방안 마련리스크 관리 및 대응
신뢰 확보작동 원리와 결과 명확히 설명, 예측 가능성 및 투명성 확보시스템 투명성 및 예측 가능성 확보
규제 준수법적 규제와 표준 준수, 책임성 강화 및 사회적 수용성 증대법적 준수 및 사회적 책임

인공지능 시스템 신뢰성 제고를 위한 요구사항 구성도, 구성요소

구성도

구성요소

구성내용비고
계획 수립위험 관리, 신뢰성 테스트 계획 수립생명주기 전 영역
데이터 점검신뢰성 있는 데이터인지 점검안정성, 공정성, 견고성
오픈소스 점검보안성, 기능성 점검개발단계 전 보안성 확보
모델 보안 대책 수립편향, 적대적공격 방어 점검지속적 평가
알림 정책 수립장애 발생시 절차 수립안전모드, 알림 등
설명가능성 점검추론 결과 확인, 상호작용 설명투명성, 서비스 오남용 방지
  • AI 생명주기 전 영역에서 인공지능 시스템 신뢰성 제고를 위한 활동 필요.

AI 시스템 생명 주기별 요구사항

구분내용비고
계획 및 거버넌스위험관리 계획, 거버넌스 체계위험 분석, 법 규정 수립
설계 및 개발신뢰성 테스트 계획, 이상 데이터 점검, 편향 제거, 보안성 점검테스트 환경 설계, 데이터 견고성, 편향 제거, 보안 패치 점검
검증 및 확인추적 가능성 확보, 모델 설명 제공데이터 추적, 모델 설명
배치 및 운영모델 방어 대책, 안전 모드, 알림 절차 수립방어 방안, 안전 모드 구현, 알림 기능
지속적 관리데이터 정보 제공, 모델 편향 제거, 시스템 편향 제거데이터 투명성, 알고리즘 편향 제거
서비스 종료서비스 범위 설명오남용 방지
  • 지속적 확인단계는 서비스 운영 중 지속적인 학습을 수행하는 경우 한해 적용

AI 시스템 신뢰성 제고를 위한 고려사항

구분내용비고
기술적인공지능 시스템의 추적 가능성 및 변경 이력 관리시스템 모니터링
관리적위험 관리 계획 수립 및 실행리스크 관리
제도적데이터 프라이버시 및 보안에 대한 제도적 관리프라이버시 보호

기타

AI 시스템 이해관계자

  • AI제공자: 플랫폼 제공자, 서비스 제공자
  • AI생산자: AI개발자, 데이터 과학자
  • AI고객: 서비스 사용자, 서비스 운영자
  • AI파트너: 시스템 통합자, 데이터 공급자
  • AI영향대상: 데이터 영향대상, 시민 단체
  • 관계기관: 규제기관, 정책입안자

해외 AI 신뢰성 요구사항

  • 유네스코: 인공지능 윤리권고
  • EU: The Assessment List on Trustworthy Artificial Intelligence

참조

AutoGPT

· 약 3분

AutoGPT 개요

AutoGPT 개념

  • GPT-4 기반으로 질문의 태스크를 생성하고, 에이전트는 그 과정을 반복하여 점진적으로 목표를 달성하는 기술

AutoGPT 구성도 및 구성요소

AutoGPT 구성도

AutoGPT 구성요소

구성요소설명예시
사용자 입력AutoGPT에 제공되는 목표 또는 작업이메일 자동 답변 생성
LLM태스크를 생성하기 위해 사용되는 언어 모델GPT-4
에이전트사용자 입력을 기반으로 태스크를 수행, 피드백 루프를 통해 결과를 개선이메일 자동 답변 생성 에이전트
피드백 루프작업의 결과를 반복적으로 입력으로 사용하여 결과를 개선결과 수정 및 재입력

AutoGPT 활용

적용 분야활용 예시설명
소프트웨어 개발자동 코드 생성어플리케이션 전체 자동 생성
디지털 마케팅콘텐츠 추천 시스템사용자의 활동을 기반한 개인화된 콘텐츠를 추천
정보 관리자동 문서 요약긴 문서를 요약하여 핵심 정보 제공

AutoGPT 성공포인트

  • OpenAI API를 사용하여 비용 절감을 위해 단계별로 사람의 확인이 필요한 구조이나, Local sLLM으로 교체시 원하는 결과를 얻기까지의 비용 및 프로세스 절감 가능

참조

RAG, 검색 증강 생성

· 약 4분

RAG 개요

RAG 개념

  • LLM의 출력을 최적화하여 응답을 생성하기 전 학습 데이터 소스 외부의 지식 베이스 데이터를 참조하도록 하는 기술

RAG의 배경

LLM의 문제점설명RAG 기대효과
환각답변이 없을 때 허위정보 제공독점 데이터 활용 정보 제공
최신 데이터일반적인 정보 제공구체적 정보 제공
신뢰성신뢰할 수 없는 출처로부터의 응답 제공신뢰할 수 있는 정보 제공

RAG의 구성도 및 절차

구성도

rag

웹인터페이스 -> 벡터데이터베이스 -> LLM

구성요소

구분설명특징
웹인터페이스질의 가능한 웹 인터페이스챗봇 형태로 사용
벡터데이터베이스임베딩 데이터 저장최신/프라이빗 데이터 반환
LLM자연어처리, 일반 지식 응답임베딩 데이터 포함 응답

RAG 절차

  • 외부 데이터 생성 및 준비: 텍스트, 이미지, 파일 등 다양한 소스로 임베딩 후 벡터DB 저장
  • 관련 정보 검색: 질문을 기반으로 벡터 유사도 기반 데이터 검색
  • LLM 프롬프트 확장: 검색된 데이터는 LLM 프롬프트와 결합하여 응답 반환
  • 외부 데이터 업데이트: 벡터DB에 새로운 데이터를 주기적으로 업데이트하여 최신화

파인튜닝과 RAG 비교

구분파인튜닝검색증강생성
방식특화데이터를 모델이 재학습데이터 소스 추가 제공으로 모델 성능 향상
데이터 규모작음대규모 지식 베이스
모델 조정재학습으로 모델이 새로운 데이터로 조정됨추가 학습 없어 모델 조정 불필요
비용고비용, 모델 전체 재학습저비용
장점적은 데이터로 학습 가능, 특정 작업에서 효과적 성능 향상재학습 불필요, 과적합 위험 없음, 최신 데이터 반영
단점고품질 데이터 확보 어려움
과적합, 편향, 환각
고비용
LLM 모델에 따른 답변 품질 저하
소스 데이터 속성에 맞는 임베딩 모델 검토 필요

참조

sLLM

· 약 2분

sLLM 개요

sLLM 개념

  • small Large Language Model
  • 기업 전용 특화모델로 활용 가능한 경량화된 거대 언어모델

sLLM 배경

  • LLM은 거대 언어모델로 천문학적인 비용과 학습 시간 필요
  • 매개변수를 줄이고, 미세조정하여 정확도 향상

LLM과 sLLM 비교

구분LLMsLLM
훈련 데이터 크기대규모, 대용량상대적으로 작은 규모, 소용량
파라미터 크기수천억 개수십억 개
성능더많은 컨텍스트와 언어이해능력작은 모델로 일부 성능 제한
배포 용이성대용량으로 배포 어려움작은 규모로 배포 용이
사용성학습 리소스 등 자원 사용량이 많아 운영 제약경량화 된 모델로 제한된 자원으로 활용 가능
서비스 제공클라우드 기반에서 범용 서비스 적합온프레미스 방식으로 기업내 구축 가능
예시ChatGPT, GeminiLLama, Phi-3

서포트 벡터 머신

· 약 2분

SVM 개념

  • 서포트 벡터, 하이퍼플레인, 차원 전환 원리를 이용하여 주어진 데이터가 어떤 카테고리에 속할지 판단하는 이진선형분류모델
  • 서포트 벡터 분류기 + 비선형 커널 = 서포트벡터머신

SVM의 개념도, 문제 해결방법, 장단점

개념도

선형 문제비선형 문제
SVMSVM

문제 해결 방법

구분선형 문제비선형 문제
특징초평면 분리 가능초평면 분리 불가
해결방법마진을 최대화하는 서포트벡터 탐색 후 분류커널 트릭 사용하여 데이터 고차원 매핑

선형 문제

  • 하드 마진: 오류 불가
  • 소프트 마진: 마진 내 오류 허용, 하이퍼파라미터로 제어

장단점

  • 장점: 인공신경망의 과적합 해결방법 제시, 비선형 문제 해결
  • 단점: 단일 SVM 성능 한계

SVM 한계점과 해결방안

  • SVM 데이터 범주간 비율이 비슷하다는 가정에서 학습하고 예측결과 도출, 실제 데이터는 데이터의 불균형이 빈번하여 모델 성능이 저하됨.
  • 앙상블 기법을 이용한 SVM으로 성능 문제 해결.

참조

의사결정나무

· 약 4분

의사결정나무 개요

의사결정나무 개념

  • 주어진 입력값들의 조합을 의사결정규칙에 따라 출력값을 예측하는 모형
  • 의사결정규칙을 트리구조로 나타내어 분류와 예측을 수행하는 분석 방법

의사결정나무 구성도, 구성요소, 유형

의사결정나무 구성도

의사결정나무 구성요소

구분내용비고
루트노드모든 데이터의 첫 속성 평가첫 분기 결정
규칙노드특정 속성에 대한 테스트 수행 후 데이터 분리조건문 따라 하위노드 분기
리프노드최종결과노드, 데이터 분류 또는 예측분류 클래스

의사결정나무 유형

  • 분류트리: 범주형 변수를 예측하기 위해 사용되는 트리 모델, 데이터를 여러 범주로 분류
  • 회귀트리: 연속형 변수의 값을 예측하기 위한 트리모델
구분분류트리회귀트리
대상범주형 변수 대상연속형 변수 대상
특징불순도를 기준으로 최적 분류 결정분산을 최소화하는 방향으로 분할
평가방법지니지수, 엔트로피오차제곱합
사용시기명확한 범주를 가진 데이터 분류연속적 수치 예측, 트렌드 예측

의사결정나무 절차, 평가지표

의사결정나무 절차

  • 성장: 분석목적에 따른 트리 생성
  • 가지치기: 불필요한 가지를 제거하여 과대적합, 과소적합 방지
  • 타당성 평가: 가장 적은 엔트로피를 갖는 나무를 평가하고 최적 모형 선택
  • 해석 및 예측: 구축된 나무모형 해석

의사결정나무 평가지표

구분지표내용
분류나무지니계수해당 구역 내 특정 클래스에 속하는 데이터 비율을 모두 제외한 값
-엔트로피데이터의 무질서도를 측정하여 정보 획득량 계산
회귀나무오차제곱합실제 값과 예측 값의 오차 제곱 최소화
  • 지표가 0에 가까울 수록 잘 분류된 모델로 판별 가능

의사결정나무 고려사항

  • Impurity를 0으로 만들기 위해 트리 깊이가 깊어질 경우 오버피팅 발생하므로, 앙상블 기법 사용 고려 필요