본문 바로가기
  • (개인)정보보호/최신ICT 정보 공유 블로그
ICT 관련 동향

자연어 처리 임베딩 기술

by 노벰버맨 2021. 5. 23.

1. 자연어 처리 임베딩 기술의 개요

. 자연어 처리 임베딩 기술의 정의

-자연어 처리를 위해 단어를 01의 수치로 표현하는 기법

 

. 자연어 처리 임베딩 기술의 특징

-(벡터화), 텍스트를 01의 값으로 바꾸는 작업을 벡터화 또는 임베딩이라 함

-(유사도 계산), 전체 단어들 간의 관계에 맞춰 해당 단어의 특성을 갖는 벡터로 변화

 

2. 자연어 처리 임베딩 기술

. 임베딩 기술 흐름

구분 기술 설명
통계적 기반 TDM
EF-IDF
One-Hot Encoding
-초기 임베딩 기법
-통계적 기반을 중심으로 말뭉치(코퍼스)의 통계량을 활용
-차원 축소
뉴럴 네트워크 기반 Word2Vec
FastText
ELMO
BERT
-안공망을 이용하여 주변 단어의 등장 확률을 예측
-Neural Network 구조의 유연성과 풍부한 표현력으로 자연어의 문맥을 학습 가능
-높은 정확도 제공 가능

 

. 임베딩 기술 종류

구분 기술 설명
단어 수준 Word2Vec
GolVe
FastText
-신경망을 이용하여 텍스트 변환
-단어와 주변 단어가 동시에 일어날 확률 계산
-단어 수준의 벡터 표현은 텍스트를 수치화한 벡터 형태로 표현 (비슷한 의미를 가진 단어는 크기와 방향이 유사한 특징 활용)
문장 수준 BERT
GPT
-개별 단어가 아닌 단어 Sequence 전체의 문맥적 의미를 함축
-단어 임베딩 기법보다 Transfer Learning 효과가 좋음

- 차원 축소를 통해 얻은 행렬을 기존 행렬과 비교할 때 단어 또는 문서 기준 여부에 따라 분류

 

(ITFIND 인공지능과 자연어 처리 기술 동향 참조)

댓글