1. 원-핫 인코딩(One-hot Encoding)의 개요
가. 원-핫 인코딩(One-hot Encoding)의 정의
-문자를 숫자로 표현하기 위해 0과 1로 구분하는 가장 기본적인 방법
나. 원-핫 인코딩(One-hot Encoding)의 특징
2. 원-핫 인코딩(One-hot Encoding)의 개념도 및 구성요소
가. 원-핫 인코딩(One-hot Encoding)의 개념도
-5개 차원을 가진 원-핫 인코딩 예시
나. 원-핫 인코딩(One-hot Encoding)의 구성요소
구분 | 특징 | 설명 |
단어 | 정수 인코딩 | -고유한 인덱스 부여 |
인덱스 위치 | 0 or 1 | -표현하고 싶은 단어의 인덱스 위치에 1 부여 |
3. 원-핫 인코딩(One-hot Encoding)의 한계
-단어의 개수가 늘어날수록,벡터를 저장하기 위해 필요한 공간이 계속 늘어나는 점
-단어의 유사도를 표현하지 못하는 점
-단점을 해결하기 위해 단어의 잠재 의미를 반영하여 다차원 공간에 벡터화하는 기법으로 크게 두 가지가 존재
(1) 카운트 기반의 벡터화 방법인 LSA, HAL 등
(2) 예측 기반으로 벡터화하는 NNLM, RNNLM, Word2Vec, FastText 등
(3) 카운트 기반과 예측 기반 두 가지 방법을 모두 사용하는 방법으로 GloVe라는 방법
(ITFIND 주간기술동항 참조)
'ICT 관련 동향' 카테고리의 다른 글
PS-LTE 방식의 재난안전통신망 (0) | 2021.05.23 |
---|---|
자연어 처리 임베딩 기술 (0) | 2021.05.23 |
DSML의 실패요인과 기계학습 운영화(MLOps) (0) | 2021.05.22 |
전자정부사업관리(PMO) 도입 운영 가이드 (0) | 2021.05.22 |
ISP(Information Strategic Planning) 수립 공통 가이드 (0) | 2021.05.22 |
댓글