데이터 차원 축소
· 3 min read
데이터 차원 축소 개념
- 다차원 데이터세트의 차원을 축소해 새로운 저차원 데이터를 생성하는 과정 또는 기술
- 차원의 저주해결, 성능 및 계싼 효율, 학습 효율성, 데이터 시각화
데이터 차원 축소 개념도, 주요 유형, 적용방안
데이터 차원 축소 개념도
2차원 데이터 PCA로 1차원되는 그림
데이터 차원 축소 주요 유형
구분 | 유형 | 내용 |
---|---|---|
선형 | PCA, 주성분 분석 | 데이터 분산이 큰 방향으로 차원 축소 |
- | LDA, 선형판별분석 | 클래스 간 분산 최대화, 클래스 내 분산 최소화 |
- | SVD, 특이값분해 | 데이터 행렬 분해하여 차원 축소, 압축 |
- | ICA, 독립성분분석 | 데이터의 독립성분을 추출하여 표현 |
비선형 | t-SNE | 고차원 데이터를 확률적 모델링하여 매핑 |
- | LLE, 지역선형임베딩 | 인접데이터의 선형관계를 보존하여 축소 |
- | Isomap, 등거리매핑 | 데이터 간 거리를 보존하여 저차원 매핑 |
- | MDS, 다차원스케일링 | 데이터 간 거리 정보를 근접행렬로 유지 후 매핑 |
- | 커널 PCA | 커널트릭 활용 고차원 공간에서 PCA 수행 |
데이터 차원 축소 적용방안
구분 | 내용 | 비고 |
---|---|---|
데이터 시각화 | 고차 데이터를 2D, 3D로 변환, 시각화 | t-SNE 등 |
노이즈제거 | 데이터 주요 특징만 남겨 데이터 품질 향상 | PCA 등 |
특성 선택 | 중요 속성만 선택하여 분석, 학습 활용 | LDA 등 |
데이터 압축 | 저장 공간 절약 및 전송 효율성 | SVD 등 |
패턴 인식 | 데이터 잠재 구조 파악, 패턴 이해 | LLE, Isomap |
데이터 차원 축소 고려사항
- 대규모 데이터셋 차원축소 전 계산 비용을 줄이기 위해 데이터 샘플링 고려