1. 자연어 처리 임베딩 기술의 개요
가. 자연어 처리 임베딩 기술의 정의
-자연어 처리를 위해 단어를 0과 1의 수치로 표현하는 기법
나. 자연어 처리 임베딩 기술의 특징
-(벡터화), 텍스트를 0과 1의 값으로 바꾸는 작업을 벡터화 또는 임베딩이라 함
-(유사도 계산), 전체 단어들 간의 관계에 맞춰 해당 단어의 특성을 갖는 벡터로 변화
2. 자연어 처리 임베딩 기술
가. 임베딩 기술 흐름
구분 | 기술 | 설명 |
통계적 기반 | TDM EF-IDF One-Hot Encoding |
-초기 임베딩 기법 -통계적 기반을 중심으로 말뭉치(코퍼스)의 통계량을 활용 -차원 축소 |
뉴럴 네트워크 기반 | Word2Vec FastText ELMO BERT |
-안공망을 이용하여 주변 단어의 등장 확률을 예측 -Neural Network 구조의 유연성과 풍부한 표현력으로 자연어의 문맥을 학습 가능 -높은 정확도 제공 가능 |
나. 임베딩 기술 종류
구분 | 기술 | 설명 |
단어 수준 | Word2Vec GolVe FastText |
-신경망을 이용하여 텍스트 변환 -단어와 주변 단어가 동시에 일어날 확률 계산 -단어 수준의 벡터 표현은 텍스트를 수치화한 벡터 형태로 표현 (비슷한 의미를 가진 단어는 크기와 방향이 유사한 특징 활용) |
문장 수준 | BERT GPT |
-개별 단어가 아닌 단어 Sequence 전체의 문맥적 의미를 함축 -단어 임베딩 기법보다 Transfer Learning 효과가 좋음 |
- 차원 축소를 통해 얻은 행렬을 기존 행렬과 비교할 때 단어 또는 문서 기준 여부에 따라 분류
(ITFIND 인공지능과 자연어 처리 기술 동향 참조)
'ICT 관련 동향' 카테고리의 다른 글
C-ITS(차세대 지능형 교통 체계)와 C-V2X (0) | 2021.05.25 |
---|---|
PS-LTE 방식의 재난안전통신망 (0) | 2021.05.23 |
원-핫 인코딩(One-hot Encoding) (0) | 2021.05.23 |
DSML의 실패요인과 기계학습 운영화(MLOps) (0) | 2021.05.22 |
전자정부사업관리(PMO) 도입 운영 가이드 (0) | 2021.05.22 |
댓글