본문으로 건너뛰기

TF-IDF

· 약 3분

TF-IDF 개념

  • 정보검색과 텍스트마이닝에서 여러 문서 내 어떤 단어가 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 가중치

TF-IDF 구성, 산출방법, 활용분야

TF-IDF 구성

구분내용비고
TF특정 단어가 문서 내에서 얼마나 자주 등장하는지 나타내는 값Boolean 빈도, 로그 스케일빈도, 증가 빈도
DF특정 단어가 문서 집합 전체에서 나타나는 빈도높을시 흔한 단어
IDF전체 문서 수를 해당 단어를 포함한 문서 수로 나눈 후 로그 처리높을시 중요 단어
TF-IDF특정 문서 내에서 단어 빈도가, 전체 문서 중 그 단어를 포함한 문서가 적을 수록 높아짐TFIDFTF*IDF

TF-IDF 산출 방법

단어문서1문서2TFDFIDF
엔진15102520
모터30310.301
타이어23520
  • 통상적으로 분모에 1을 더하여 로그를 취함
  • 엔진: 0, 모터: 0.903, 타이어: 0
  • 식별결과 '모터'가 가장 중요한 단어로 판단

TF-IDF 활용분야

구분설명예시
검색 엔진사용자가 입력한 키워드와 가장 관련성 높은 문서 검색검색 순위 결정
문서 분류 및 클러스터링문서를 주제별로 분류하거나 유사한 문서를 그룹화뉴스 기사 자동 분류
텍스트 요약 및 키워드 추출중요한 키워드를 추출하여 텍스트를 요약논문 초록 생성