본문으로 건너뛰기

베이지안 최적화

· 약 1분

베이지안 최적화 개념

  • 가우시안 프로세스 등 확률적 모델을 통해 함수 분포를 추정하고, 획득함수를 통해 탐색 지점을 결정하는 블랙박스 함수의 최적화 기법
  • 기존 Grid Search, Random Search 기법 비효율 개선, 목적함수 평가 비용 최소화, 사전 지식을 통합한 확률적 모델 필요성

베이지안 최적화 개념도, 구성요소, 절차

베이지안 최적화 개념도

베이지안 최적화

베이지안 최적화 구성요소

구분내용비고
확률적 모델데이터와 사전지식을 결합하여 함수 분포와 불확실성 모델링가우시안 프로세스 등
목적함수실제 최적값을 목표로 예측의 기준이 되는 함수블랙박스 함수
획득함수기존 입력값과 다음 최적값을 확률로 찾는 함수탐색지점 결정

베이지안 최적화 절차

절차세부절차내용
모델링초기 데이터 수집변수 공간에서 초기 표본 데이터 수집
가우시안 프로세스 모델링함수 사전 분포 정의
예측획득 함수 계산현재 사후 분포 기반 계산
다음 탐색 지점 선정획득 함수 최대화하여 우선순위 선정
평가목적 함수 평가선정지점에서 목적함수 평가 수행
확률적 모델 업데이트모델 업데이트 및 반복

인공신경망

· 약 2분

인공신경망의 개념, 구성요소

인공신경망 개념

  • 인간의 뇌 신경 구조를 모방한 기계학습 모델로 뉴런 간 연결과 가중치를 통해 데이터를 학습하고 패턴을 인식

인공신경망 구성요소

구분설명비고
입력층학습을 위한 데이터 입력 계층입력 데이터, 특징
은닉층입출력층 사이에서 데이터 특징 추출특징 추축, 학습, 가중치
출력층최종 결과를 제공하는 층결과 예측, 분류
가중치뉴런 간 연결 강도를 나타내는 값연결 강도, 학습 조정
활성화함수뉴런의 출력값을 결정하는 함수비선형성, 출력 결정

피드포워드 뉴럴네트워크 개념, 절차

FNN 개념

  • 입력값이 출력까지 순방향으로 전달되는 구조를 가진 인공신경망

FNN 절차

절차세부절차설명
초기화모델 설계인공신경망 구조 설계
가중치 초기화가중치 및 편향 초기화
순방향 전파데이터 전달입력층에서 출력층까지 데이터 순방향 전달
예측값 계산입력X가중치+편향 값에 활성화함수 적용
출력출력값 계산분류 및 회귀 출력 값 계산
검증모델 성능 평가

역전파 개념, 절차

역전파 개념

Backpropagation

  • 역방향으로 오차를 전파시켜 각 층의 가중치를 업데이트하고 최적의 학습 결과를 찾아가는 방법

역전파 절차

단계설명세부 내용
순전파입력 데이터를 통해 출력값 계산입력층 → 은닉층 → 출력층으로 데이터 전달
오차 계산출력값과 실제값 비교손실 함수를 사용해 오차 계산
가중치 업데이트역전파를 통해 가중치 조정경사하강법 등 최적화 알고리즘 사용

활성화함수 종류 및 역할

활성화함수 종류

구분그래프설명
SigmoidSigmoid이진 분류 문제에 적합
경사 기울기 소실 문제
ReLUReLU음수는 0, 양수는 그대로 출력
DNN 가능, 계산 효율성 높음
TanhTanhSigmoid보다 수렴속도 빠름
경사 기울기 소실 문제
Leaky ReLULeaky ReLUReLU 음수 기울기 문제 해결
x에 0.01 등 작은 값을 곱해줌
SwishSwishReLU보다 부드러운 활성화 함수
딥러닝 모델에서 성능 개선
음수에서 미세한 값 유지, 양수에서 x와 유사한 출력

활성화함수 역할

역할설명예시
비선형성 부여xor 등 복잡한 패턴을 학습할 수 있게 도움ReLU, Sigmoid
출력값 제한출력 값을 틍정 범위로 제한, 안정적 학습Sigmoid, Tanh
계산 효율성 향상불필요 계산을 줄이고 학습속도 개선ReLU 음수값 제거

PLM, LLM

· 약 2분

자연어 모델 개요

LLM History

  • 트랜스포머 구조 등장으로 자연어 처리능력이 비약적으로 상승, 생성형 AI시대 진입

PLM 개념 및 특성

PLM 개념

  • 대규모 텍스트 코퍼스로부터 언어 패턴을 사전 학습한 자연어 처리 모델
  • BERT, GPT 등이 주요한 Pre-trained Language Model로 활용

PLM 특성

특성설명비고
사전학습대규모 텍스트 데이터로 비지도학습 수행
언어의 통계적 특성 학습
BERT, GPT
범용성다양한 NLP 작업에 적용 가능
전이학습으로 성능 개선 가능
텍스트생성, 감정분석
언어이해능력중요 단어에 더 큰 가중치 부여하여 학습
문맥적 의미 반영한 표현 생성
어텐션 매커니즘

LLM 생성과정 및 특성

LLM 생성과정

  • PLM에서 파라미터를 비약적으로 늘려 범용 성능을 가진 LLM 생성

LLM 특성

특성설명기대효과
초대형 파라미터수십억-수천억개 이상 파라미터 확장
다양한 문맥정보를 정교하게 표현
Few-shot, Zero-shot 응답
범용성 확대파인튜닝, RLHF 등을 통해 응답 품질개선
다중언어, 다분야 처리능력향상
범용 AI
인간수준 자연어생성최적화를 통한 완결성있는 문장 생성
대화의 맥락 추론 가능
태스크 자동화, 효율화

PLM과 LLM 비교

구분PLMLLM
데이터규모수억-수십억 토큰수십억-수조 토큰
모델파라미터수천만-수억 개수십억-수천억 개
학습방식사전학습, 파인튜닝사전학습, 파인튜닝, 인스트럭션 튜닝
응용범위특정 작업시 전이학습 필요다양한 작업에 높은 성능
컴퓨팅 파워상대적 낮음고성능 GPU 필요

머신러닝 성능지표

· 약 2분

머신러닝 성능지표 개념

  • 실제 값과 모델에 의해 예측된 값을 비교하여 머신러닝 모델이 얼마나 잘 학습했는지 평가하기 위한 지표
  • 지도학습, 비지도학습, 강화학습 별 다른 성능지표 활용

머신러닝 성능지표 상세

지도학습 성능지표

구분성능지표설명
회귀MSE오차를 제곱하여 평균, 값이 작을수록 우수
RMSEMSE의 제곱근, 해석을 용이하게 변환
MAE오차의 절대값의 평균, 이상치에 덜 민감
R^2회귀모델의 설명력을 표현, 1에 가까울수록 우수
분류정확도올바르게 예측한 비율, 클래스 불균형에 민감
정밀도Positive로 예측한 것 중 실제 Positive 비율
재현율실제 Positive 중 Positive로 예측한 비율
F1 Score정밀도와 재현율의 조화평균, 불균형 데이터셋에 우수
AUCROC Curve의 면적, 종합적 성능 평가, 1에 가까울수록 우수
  • 분류모델 성능 평가시 혼동행렬 작성 선행 필요

비지도학습 성능지표

구분성능지표설명
클러스터링실루엣 지수클러스터의 밀집 정도를 계산, 1에 가까우면 높은 성능
Dunn Index군집 간 거리의 최소값, 군집 내 요소 간 거리 최대값의 비율
차원축소재구성오차축소 복원시 원본과의 오차를 평가
설명분산비율축소된 차원에서 전체 데이터 분산 중 설명되는 비율
스트레스저차원 공간에서 고차원 데이터 간 거리의 보존 정도를 평가

강화학습 성능지표

  • 환경과 상호작용하며 보상이 최대화되는지 평가

분산 데이터베이스 투명성

· 약 2분

분산 데이터베이스 개념

  • 네트워크를 통해 물리적으로 분산되어 있는 여러 개의 데이터베이스 시스템을 논리적으로 연관시킨 통합 데이터베이스
  • 중복성, 지역독립성, 투명성

분산 데이터베이스 5가지 투명성

분위지중장병 분위복장병

분할 투명성

  • 하나의 논리적 릴레이션에 단편들로 분할된 데이터가 여러 사이트에 저장
  • Bottleneck 방지, 설계 기술 필요

위치 투명성

  • 사용자나 프로그램이 데이터베이스의 물리적 위치를 알 필요 없이 데이터 접근 가능
  • 분산 데이터 딕셔너리, 디렉토리 관리 필요

복제 투명성

  • 접근할 데이터가 물리적으로 여러 사이트에 복제되었는지 알 필요가 없는 특성
  • 점진적 일관성 유지, 전파 갱신 처리 부하

장애 투명성

  • 지역 시스템, 통신에 장애가 있어도 데이터 무결성을 보존하는 성질
  • 2 Phase Commit 활용, 장애 원인 규명 복잡

병행 투명성

  • 다수 트랜잭션 동시 수행시 결과에 이상이 발생하지 않는 성질
  • 리소스 사용 극대화, 병행 제어 활용

CAP 이론과 분산 투명성의 관계

구분내용관계
Consistency데이터 일관성 보장병행투명성, 복제투명성
네트워크 분할시 가용성 희생
Availability요청에 항상 응답분할투명성, 장애투명성
네트워크 분할시 일관성 희생
Partition Tolerance네트워크 분할시 시스템 동작 유지장애투명성
네트워크 분할시 C 또는 A 선택

데이터 모델링

· 약 2분

데이터 모델링 개념

  • 현실 세계 업무 프로세스를 추상화하여 물리적으로 데이터베이스화하기 위한 과정으로, 실체와 관계 중심으로 데이터 모형을 표현하는 모델링
  • 가시화, 명세화, 문서화, 추상화, 통합성, 이해성

데이터 모델링 단계, 식별/비식별 관계 비교

데이터 모델링 단계

단계설명산출물
개념 모델링요구사항을 데이터 모델로 변환ERD
엔티티와 속성 정의, 엔티티 간 식별/비식별 관계 설정개념 스키마
논리 모델링개념스키마를 실제 DBMS 스키마로 변환논리 스키마
데이터 구조와 무결성 제약 설정테이블 정의서
식별/비식별 관례를 기본키, 외래키로 추가
물리 모델링저장구조, 저장방법 기술, 성능 기준 충족접근 권한 매트릭스

식별/비식별 관계 개념 비교

식별 관계

  • 하위 엔티티의 PK 구성이 상위 엔티티의 PK에 포함되는 관계

비식별 관계

  • 하위 엔티티의 일반 속성에 상위 엔티티의 PK가 포함되는 관계

식별/비식별 관계 상세 비교

구분식별 관계비식별 관계
결합도강한 연결관계약한 연결관계
표기법실선 표현점선 표현
PK하위 엔티티 PK 구성 포함미포함
관계자식 엔티티가 부모에 종속적자식 엔티티가 부모에 독립적
데이터 무결성부모 엔티티 삭제시 자식 엔티티 함께 삭제부모 엔티티 삭제시 자식 엔티티 유지, 관계 해제
예시Order 와 OrderItemCustomer 와 Order

데이터 모델링시 고려사항

비지니스 측면

  • 비지니스 요구사항
  • 엔티티 속성 정의
  • 관계 설정: 엔티티 관계, 키 설정
  • 무결성 제약조건: 개체, 참조, 속성 무결성

기술 측면

  • 성능: 정규화, 반정규화, 인덱싱, 연결함정, 파티셔닝
  • 용량관리: 데이터 양, 저장소, 확장성

CRUD 매트릭스

· 약 1분

CRUD 매트릭스 개념

  • 데이터 엔티티와 각 기능 간의 상관관계를 매트릭스 형태로 나타내어 데이터 모델링 과정을 검증하는 도구
  • 데이터와 프로세스 관계 명확화, 기능별 데이터 활용 파악, 테스트 시나리오 도출, 성능 최적화

CRUD 매트릭스 작성 절차, 표현 방법, 분석 사례

CRUD 매트릭스 작성 절차

  1. 데이터엔티티/기능정의: 시스템 관리되는 주요 엔티티, 기능 식별
  2. CRUD 관계식별 : 각 기능과 엔티티에 수행하는 작업 정의
  3. CRUD 매트릭스 작성: 엔티티/기능 매트릭스 작성, CRUD 표기
  4. 중복, 누락, 불필요 작업 파악 및 개선

CRUD 매트릭스 표현 방법

엔티티/기능고객 등록상품 조회주문 생성주문 조회
고객C, R-
상품R-
주문RCR, U
  • 행에는 프로세스, 열에는 엔티티, 교차점에 트랜잭션 표시

CRUD 매트릭스 분석 사례

구분사례해결방안
요구검증고객 등록, 상품 조회, 주문 생성, 주문 조회 기능 검증미비 기능 구현
무결성검증상품 엔티티는 R만 존재C, U 기능 추가
성능튜닝주문 엔티티는 트랜잭션이 몰려 부하 발생 가능파티션 추가, 테이블 분리
불필요 작업 제거주문 조회시 업데이트 발생R만 수행하도록 수정

NoSQL 모델링

· 약 1분

NoSQL 유형, 모델링 절차

NoSQL 유형

유형특징대표 도구
Key-Value키와 값의 쌍으로 데이터 관리, 빠른 조회 성능Redis, DynamoDB
Column Family열 기반 데이터 저장, 키 범위 처리 개선, 유연성 극대화HBase, Cassandra
Document문서 형태 데이터 저장, JSON/XML/BSON 형식 지원, 빠른 조회MongoDB, CouchDB
Graph노드와 간선으로 관계 저장, 모든 노드와 간선에 고유 식별자 부여Neo4j
Vector데이터 간 유사도 계산, 고차원 벡터 검색 최적화HNSW, Milvus

NoSQL 모델링 절차

구분절차설명
탐색도메인 모델 파악데이터 개체 간 관계 분석, 도메인 파악,
ERD 작성하여 결과 도식화
설계쿼리 결과 디자인도메인 모델 기반 쿼리 결과값 정의
데이터 출력과 저장에 효율적인 구조로 디자인
패턴 기반 데이터 모델링I/O 횟수를 최소화하기 위해 반정규화, 데이터 중복 저장
기능 최적화필요시 Secondary Index 활용하여 전체 데이터 Scan 최소화
최적화후보 NoSQL 선정구조, 특징 분석 후 부하테스트, 안정성테스트 수행
후보쿼리 선정
데이터모델 최적화선정된 쿼리에 적합한 데이터 모델 최적화,
어플리케이션 인터페이스 설계
설정 및 HW 튜닝NoSQL 설정 및 HW 튜닝
  • 쿼리 성능 최적화를 위해 중첩데이터와 반정규화된 데이터 구조로 디자인 필요

SOM, 자기조직화지도

· 약 1분

SOM 개념

  • 고차원 데이터의 위상을 보존하여 저차원 그리드로 매핑하는 비지도학습 기반 인공 신경망
  • 차원축소, 위상보존, 경쟁학습, 시각화 및 군집화

SOM 구성도, 구성요소, ANN과의 차이점

SOM 구성도

SOM

  • 경쟁층 뉴런들이 2차원 격자구조로 배열, 고차원 입력 데이터를 저차원 공간에 시각적으로 표현하는 구조

SOM 구성요소

구분구성요소설명
레이어입력층고차원 입력 특성을 받는 층
경쟁층(출력층)2D 그리드 구조로 입력 데이터와의 거리 측정 후 가장 가까운 뉴런 선정
연결요소연결가중치입출력층 연결, 초기 무작위 가중치 설정 후 경쟁학습을 통해 업데이트
BMV입력벡터와 가장 유사한 출력층 뉴런, 유클리드 최소 거리 계산
  • 역전파와 체인룰 없이 승자 독식 경쟁학습 알고리즘 사용

SOM과 ANN의 차이점

구분SOMANN
학습방식비지도학습비지도/지도학습
학습알고리즘경쟁학습역전파 등 오류수정기반
주요목적시각화, 군집화, 차원축소분류, 회귀, 예측
출력구조2차원 격자다층 퍼셉트론
데이터 요구사항레이블 불필요레이블 필요
활용사례데이터 시각화, 군집 분석이미지 인식, 음성 인식, 자연어 처리
해석가능성결과의 직관적 해석블랙박스, 해석 어려움

다차원 색인 구조

· 약 2분

다차원 색인구조 개념

  • 이미지나 멀티미디어 등 비정형 데이터의 효율적 검색을 위해 다차원 필드를 동시에 키로 사용한 색인 구조
  • 차원확장성, 유사성 기반 내용 검색, 다양항 데이터 처리, 저장공간 절감, RAG, Vector DB 활용

다차원 색인구조 유형

구분개념도설명
Point Access Method (PAM)PAM다차원 점 데이터 저장 및 검색
K-D 트리, K-D-B 트리, Grid File, 사분트리
Spatial Access Method (SAM)SAM선, 면 등 크기를 갖는 다차원 공간 데이터 저장 및 검색
R-Tree, R*-Tree, R+Tree, X-Tree

다차원 색인구조 상세

PAM 기반 다차원 색인구조

구분개념도설명
K-D 트리K-D Tree이진탐색트리 BST를 다차원 확장하여 K차원 점 데이터 색인
트리 레벨과 값을 번갈아 비교
Grid FileGrid File데이터포인트를 다차원 그리드 공간에 매핑하여 저장
각 차원 범위를 선형눈금계로 나눠 격자 배열 생성
사분트리Quad Tree공간을 반복적으로 4개의 하위 영역으로 분할하는 자료구조
고차원 데이터 부적합, 공간 분할로인한 비효율적 메모리 사용

SAM 기반 다차원 색인구조

구분개념도설명
R 트리R TreeMBR을 구하여 인덱스를 엔트리로 저장하는 자료구조
완전균형트리로 데이터 객체를 여러 차원의 구간들로 표현
R+ 트리R+ Tree여러 MBR과 중첩되는 데이터는 여러 노드에 중복 저장하는 자료구조
K-D 트리와 R 트리의 중간 형태
R* 트리R* TreeR 트리와 구조, 연산은 유사하나 삽입 삭제시 노드 간 MBR 중첩 최소화한 자료구조
  • X 트리는 고차원 데이터를 다루는 슈퍼노드를 사용한 R 트리 확장 구조

다차원 색인구조 활용분야

구분사례설명
지리 정보GISR트리 활용 지리 정보 저장 및 검색
위성영상분석사분트리, 위성데이터 분할 저장
멀티미디어이미지K-D 트리, 사분 트리, 이미지 속성 저장
비디오K-D 트리, 메타데이터 인덱싱

HNSW

Hierarchical Navigable Small Worlds

개념도개념
hnsw계층적 그래프와 Small World Network 기반의 근사 최근접 이웃 검색(ANN)을 수행하여 대규모 벡터 데이터에서 빠르고 정확한 검색 제공
  • 다층 그래프 사용 저장
  • 지역최솟값을 찾을 때까지 가까운 정점으로 Greedy 탐색
  • 메모리 기반, 빠름, 고차원 데이터 효율적 처리
  • Milvus, Pinecone 방식
  • Pinecone: Hierarchical Navigable Small Worlds