본문으로 건너뛰기

데이터 차원 축소

· 약 3분

데이터 차원 축소 개념

  • 다차원 데이터세트의 차원을 축소해 새로운 저차원 데이터를 생성하는 과정 또는 기술
  • 차원의 저주해결, 성능 및 계싼 효율, 학습 효율성, 데이터 시각화

데이터 차원 축소 개념도, 주요 유형, 적용방안

데이터 차원 축소 개념도

2차원 데이터 PCA로 1차원되는 그림

데이터 차원 축소 주요 유형

구분유형내용
선형PCA, 주성분 분석데이터 분산이 큰 방향으로 차원 축소
-LDA, 선형판별분석클래스 간 분산 최대화, 클래스 내 분산 최소화
-SVD, 특이값분해데이터 행렬 분해하여 차원 축소, 압축
-ICA, 독립성분분석데이터의 독립성분을 추출하여 표현
비선형t-SNE고차원 데이터를 확률적 모델링하여 매핑
-LLE, 지역선형임베딩인접데이터의 선형관계를 보존하여 축소
-Isomap, 등거리매핑데이터 간 거리를 보존하여 저차원 매핑
-MDS, 다차원스케일링데이터 간 거리 정보를 근접행렬로 유지 후 매핑
-커널 PCA커널트릭 활용 고차원 공간에서 PCA 수행

데이터 차원 축소 적용방안

구분내용비고
데이터 시각화고차 데이터를 2D, 3D로 변환, 시각화t-SNE 등
노이즈제거데이터 주요 특징만 남겨 데이터 품질 향상PCA 등
특성 선택중요 속성만 선택하여 분석, 학습 활용LDA 등
데이터 압축저장 공간 절약 및 전송 효율성SVD 등
패턴 인식데이터 잠재 구조 파악, 패턴 이해LLE, Isomap

데이터 차원 축소 고려사항

  • 대규모 데이터셋 차원축소 전 계산 비용을 줄이기 위해 데이터 샘플링 고려