본문으로 건너뛰기

적대적 공격

2024년 7월 10일 · 약 2분

Owner

머신러닝 적대적 공격의 개념

머신러닝 모델의 취약점을 악용하여 잘못된 예측을 유도하기 위해 고의적으로 조작된 입력을 사용하는 공격
딥러닝 모델의 발전과 함께 적대적 공격기법 발전

적대적 공격의 개념도, 주요 공격기법, 방어기법

적대적 공격의 개념도

적대적 공격의 주요 공격기법

구분	내용	비고
학습데이터 추출공격	모델에 수많은 쿼리를 던져 학습에 사용된 데이터 추출	학습데이터 내 중요정보 추출
중독공격	악의적 학습데이터를 주입하여 ML 모델의 결과값 조작	MS테이, 이루다
회피공격	입력 데이터를 최소한으로 변조, 모델 무결성 파괴	도로 표지판 오인식
모델 추출공격	모델 질의 후 결과값을 분석하여 사용된 모델 추출	유사 모델 제작

적대적 공격의 방어기법

구분	내용	비고
Defense GAN	생성적 적대 신경망을 활용한 공격 방어	회피 공격 방어
적대적 훈련	가능한 많은 적대적 사례를 학습데이터에 포함해 훈련	중독, 회피공격 방어
결과값 분석 차단	학습 모델의 결과값을 분석할 수 없게 합성데이터 활용	추출공격 방어
쿼리 횟수 제한	반복 질의시 제한하여 정보 유출 방지	추출공격 방어

적대적 훈련

중독, 회피 공격 방어
적대적 예제에 대한 견고성 및 원본 정확도 간 트레이드오프 고려

Defense GAN

기존 모델의 분류기 수정 없이 방어 가능
화이트박스, 블랙박스 적대적 공격의 효과적 방어 가능

생성형 언어모델 보안 취약점과 대응방안

구분	취약점	대응방안
개인정보, 민감정보 유출	무분별한 데이터 입력	개인정보 등 답변 차단
	개인, 민감 정보 추출	자동탐지, 익명화
악성코드 생성	악성코드 생성 자동화	API 포함 코드 검수 단계 추가
	취약점 생성 자동화	반환 코드 분석, 실행 차단
AI 모델 취약점	생성형 모델에 대한 적대적 공격	xAI 구현, Defense-GAN 구현

머신러닝 적대적 공격의 개념
적대적 공격의 개념도, 주요 공격기법, 방어기법
생성형 언어모델 보안 취약점과 대응방안