머신 러닝 적대적 공격의 개념
- 머신러닝 모델의 취약점을 악용하여 잘못된 예측을 유도하기 위해 고의적으로 조작된 입력을 사용하는 공격
- 딥러닝 모델의 발전과 함께 적대적 공격기법 발전
적대적 공격의 개념도, 주요 공격기법, 방어기법
적대적 공격의 개념도
적대적 공격의 주요 공격기법
구분 | 내용 | 비고 |
---|
학습데이터 추출공격 | 모델에 수많은 쿼리를 던져 학습에 사용된 데이터 추출 | 학습데이터 내 중요정보 추출 |
중독공격 | 악의적 학습데이터를 주입하여 ML 모델의 결과값 조작 | MS테이, 이루다 |
회피공격 | 입력 데이터를 최소한으로 변조, 모델 무결성 파괴 | 도로 표지판 오인식 |
모델 추출공격 | 모델 질의 후 결과값을 분석하여 사용된 모델 추출 | 유사 모델 제작 |
적대적 공격의 방어기법
구분 | 내용 | 비고 |
---|
Defense GAN | 생성적 적대 신경망을 활용한 공격 방어 | 회피 공격 방어 |
적대적 훈련 | 가능한 많은 적대적 사례를 학습데이터에 포함해 훈련 | 중독, 회피공격 방어 |
결과값 분석 차단 | 학습 모델의 결과값을 분석할 수 없게 합성데이터 활용 | 추출공격 방어 |
쿼리 횟수 제한 | 반복 질의시 제한하여 정보 유출 방지 | 추출공격 방어 |
생성형 언어모델 보안 취약점과 대응방안
구분 | 취약점 | 대응방안 |
---|
개인정보, 민감정보 유출 | 무분별한 데이터 입력 | 개인정보 등 답변 차단 |
- | 개인, 민감 정보 추출 | 자동탐지, 익명화 |
악성코드 생성 | 악성코드 생성 자동화 | API 포함 코드 검수 단계 추가 |
- | 취약점 생성 자동화 | 반환 코드 분석, 실행 차단 |
AI 모델 취약점 | 생성형 모델에 대한 적대적 공격 | xAI 구현, Defense-GAN 구현 |