ICT 관련 동향
원-핫 인코딩(One-hot Encoding)
노벰버맨
2021. 5. 23. 11:43
1. 원-핫 인코딩(One-hot Encoding)의 개요
가. 원-핫 인코딩(One-hot Encoding)의 정의
-문자를 숫자로 표현하기 위해 0과 1로 구분하는 가장 기본적인 방법
나. 원-핫 인코딩(One-hot Encoding)의 특징

2. 원-핫 인코딩(One-hot Encoding)의 개념도 및 구성요소
가. 원-핫 인코딩(One-hot Encoding)의 개념도

-5개 차원을 가진 원-핫 인코딩 예시
나. 원-핫 인코딩(One-hot Encoding)의 구성요소
구분 | 특징 | 설명 |
단어 | 정수 인코딩 | -고유한 인덱스 부여 |
인덱스 위치 | 0 or 1 | -표현하고 싶은 단어의 인덱스 위치에 1 부여 |
3. 원-핫 인코딩(One-hot Encoding)의 한계
-단어의 개수가 늘어날수록,벡터를 저장하기 위해 필요한 공간이 계속 늘어나는 점
-단어의 유사도를 표현하지 못하는 점
-단점을 해결하기 위해 단어의 잠재 의미를 반영하여 다차원 공간에 벡터화하는 기법으로 크게 두 가지가 존재
(1) 카운트 기반의 벡터화 방법인 LSA, HAL 등
(2) 예측 기반으로 벡터화하는 NNLM, RNNLM, Word2Vec, FastText 등
(3) 카운트 기반과 예측 기반 두 가지 방법을 모두 사용하는 방법으로 GloVe라는 방법
(ITFIND 주간기술동항 참조)