본문으로 건너뛰기

PLM, LLM

· 약 3분

자연어 모델 개요

LLM History

  • 트랜스포머 구조 등장으로 자연어 처리능력이 비약적으로 상승, 생성형 AI시대 진입

PLM 개념 및 특성

PLM 개념

  • 대규모 텍스트 코퍼르소부터 언어 패턴을 사전 학습한 자연어 처리 모델
  • BERT, GPT 등이 주요한 Pre-trained Language Model로 활용

PLM 특성

특성설명비고
사전학습대규모 텍스트 데이터로 비지도학습 수행
언어의 통계적 특성 학습
BERT, GPT
범용성다양한 NLP 작업에 적용 가능
전이학습으로 성능 개선 가능
텍스트생성, 감정분석
언어이해능력중요 단어에 더 큰 가중치 부여하여 학습
문맥적 의미 반영한 표현 생성
어텐션 매커니즘

LLM 생성과정 및 특성

LLM 생성과정

  • PLM에서 파라미터를 비약적으로 늘려 범용 성능을 가진 LLM 생성

LLM 특성

특성설명기대효과
초대형 파라미터수십억-수천억개 이상 파라미터 확장
다양한 문맥정보를 정교하게 표현
Few-shot, Zero-shot 응답
범용성 확대파인튜닝, RLHF 등을 통해 응답 품질개선
다중언어, 다분야 처리능력향상
범용 AI
인간수준 자연어생성최적화를 통한 완결성있는 문장 생성
대화의 맥락 추론 가능
태스크 자동화, 효율화

PLM과 LLM 비교

구분PLMLLM
데이터규모수억-수십억 토큰수십억-수조 토큰
모델파라미터수천만-수억 개수십억-수천억 개
학습방식사전학습, 파인튜닝사전학습, 파인튜닝, 인스트럭션 튜닝
응용범위특정 작업시 전이학습 필요다양한 작업에 높은 성능
컴퓨팅 파워상대적 낮음고성능 GPU 필요