본문 바로가기
  • (개인)정보보호/최신ICT 정보 공유 블로그
ICT 관련 동향

희소 표현 & 밀집 표현 & 워드 임베딩

by 노벰버맨 2021. 5. 12.

딥 러닝을 이용한 자연어 처리 참고

1. 희소 표현(Sparse Representation)

-원-핫 인코딩을 통해서 나온 원-핫 벡터들은 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법

-원-핫 벡터 = 희소 벡터(sparse vector)

-문제점은 단어의 개수가 늘어나면 벡터의 차원이 한없이 커진다는 점

(원-핫 벡터로 표현할 때는 갖고 있는 코퍼스에 단어가 1,000개였다면 벡터의 차원은 1,000이어야만 함)

 

2. 밀집 표현(Dense Representation)

-사용자가 설정한 값으로 모든 단어의 벡터 표현의 차원을 맞추며 이 과정에서 0과 1값이 아닌 실수값을 가지게 됨

예)

-희소표현을 사용하여 고양이의 벡터값이 [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략 ... 0]  일때 1 뒤의 0의 수는 995개 (차원은 1,000)

-밀집 표현을 사용할 경우, 밀집 표현의 차원을 128로 설정하면, 모든 단어의 벡터 표현의 차원은 128로 바뀌면서 모든 값이 실수가 됩니다.

Ex) 고양이 = [0.2 1.8 1.1 -2.1 1.1 2.8 ... 중략 ...] # 이 벡터의 차원은 128

 

3. 워드 임베딩(Word Embedding)

-단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법을 워드 임베딩(word embedding)이라고 함

-이때의 밀집 벡터를 워드 임베딩 과정을 통해 나온 결과하며 임베딩 벡터(embedding vector)라고도 함

 

4. 원-핫 벡터과 임베딩 벡터의 비교

구분 원-핫 벡터 임베딩 벡터
차원 고차원(단어 집합의 크기) 저차원
다른 표현 희소 벡터의 일종 밀집 벡터의 일종
표현 방법 수동 훈련 데이터로부터 학습함
값의 타입 1과 0 실수

 

'ICT 관련 동향' 카테고리의 다른 글

BERT  (0) 2021.05.13
트랜스포머(Transformer)  (0) 2021.05.12
시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq)  (0) 2021.05.12
제로페이의 진화 (제로페이 2.0)  (1) 2021.05.12
종합지급결제업(종지업)의 개요  (1) 2021.05.12

댓글