본문 바로가기
  • (개인)정보보호/최신ICT 정보 공유 블로그
ICT 관련 동향

원-핫 인코딩(One-hot Encoding)

by 노벰버맨 2021. 5. 23.

1. -핫 인코딩(One-hot Encoding)의 개요

. -핫 인코딩(One-hot Encoding)의 정의

-문자를 숫자로 표현하기 위해 01로 구분하는 가장 기본적인 방법

 

. -핫 인코딩(One-hot Encoding)의 특징

 

 

2. -핫 인코딩(One-hot Encoding)의 개념도 및 구성요소

. -핫 인코딩(One-hot Encoding)의 개념도

-5개 차원을 가진 원-핫 인코딩 예시

 

. -핫 인코딩(One-hot Encoding)의 구성요소

구분 특징 설명
단어 정수 인코딩 -고유한 인덱스 부여
인덱스 위치 0 or 1 -표현하고 싶은 단어의 인덱스 위치에 1 부여

 

3. -핫 인코딩(One-hot Encoding)의 한계

-단어의 개수가 늘어날수록,벡터를 저장하기 위해 필요한 공간이 계속 늘어나는 점

-단어의 유사도를 표현하지 못하는 점

-단점을 해결하기 위해 단어의 잠재 의미를 반영하여 다차원 공간에 벡터화하는 기법으로 크게 두 가지가 존재

(1) 카운트 기반의 벡터화 방법인 LSA, HAL

(2) 예측 기반으로 벡터화하는 NNLM, RNNLM, Word2Vec, FastText

(3) 카운트 기반과 예측 기반 두 가지 방법을 모두 사용하는 방법으로 GloVe라는 방법

 

(ITFIND 주간기술동항 참조)

댓글