Skip to main content

적대적 공격

· 4 min read

머신러닝 적대적 공격의 개념

  • 머신러닝 모델의 취약점을 악용하여 잘못된 예측을 유도하기 위해 고의적으로 조작된 입력을 사용하는 공격
  • 딥러닝 모델의 발전과 함께 적대적 공격기법 발전

적대적 공격의 개념도, 주요 공격기법, 방어기법

적대적 공격의 개념도

적대적 공격의 주요 공격기법

구분내용비고
학습데이터 추출공격모델에 수많은 쿼리를 던져 학습에 사용된 데이터 추출학습데이터 내 중요정보 추출
중독공격악의적 학습데이터를 주입하여 ML 모델의 결과값 조작MS테이, 이루다
회피공격입력 데이터를 최소한으로 변조, 모델 무결성 파괴도로 표지판 오인식
모델 추출공격모델 질의 후 결과값을 분석하여 사용된 모델 추출유사 모델 제작

적대적 공격의 방어기법

구분내용비고
Defense GAN생성적 적대 신경망을 활용한 공격 방어회피 공격 방어
적대적 훈련가능한 많은 적대적 사례를 학습데이터에 포함해 훈련중독, 회피공격 방어
결과값 분석 차단학습 모델의 결과값을 분석할 수 없게 합성데이터 활용추출공격 방어
쿼리 횟수 제한반복 질의시 제한하여 정보 유출 방지추출공격 방어

생성형 언어모델 보안 취약점과 대응방안

구분취약점대응방안
개인정보, 민감정보 유출무분별한 데이터 입력개인정보 등 답변 차단
-개인, 민감 정보 추출자동탐지, 익명화
악성코드 생성악성코드 생성 자동화API 포함 코드 검수 단계 추가
-취약점 생성 자동화반환 코드 분석, 실행 차단
AI 모델 취약점생성형 모델에 대한 적대적 공격xAI 구현, Defense-GAN 구현