1. 희소 표현(Sparse Representation)
-원-핫 인코딩을 통해서 나온 원-핫 벡터들은 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법
-원-핫 벡터 = 희소 벡터(sparse vector)
-문제점은 단어의 개수가 늘어나면 벡터의 차원이 한없이 커진다는 점
(원-핫 벡터로 표현할 때는 갖고 있는 코퍼스에 단어가 1,000개였다면 벡터의 차원은 1,000이어야만 함)
2. 밀집 표현(Dense Representation)
-사용자가 설정한 값으로 모든 단어의 벡터 표현의 차원을 맞추며 이 과정에서 0과 1값이 아닌 실수값을 가지게 됨
예)
-희소표현을 사용하여 고양이의 벡터값이 [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략 ... 0] 일때 1 뒤의 0의 수는 995개 (차원은 1,000)
-밀집 표현을 사용할 경우, 밀집 표현의 차원을 128로 설정하면, 모든 단어의 벡터 표현의 차원은 128로 바뀌면서 모든 값이 실수가 됩니다.
Ex) 고양이 = [0.2 1.8 1.1 -2.1 1.1 2.8 ... 중략 ...] # 이 벡터의 차원은 128
3. 워드 임베딩(Word Embedding)
-단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법을 워드 임베딩(word embedding)이라고 함
-이때의 밀집 벡터를 워드 임베딩 과정을 통해 나온 결과하며 임베딩 벡터(embedding vector)라고도 함
4. 원-핫 벡터과 임베딩 벡터의 비교
구분 | 원-핫 벡터 | 임베딩 벡터 |
차원 | 고차원(단어 집합의 크기) | 저차원 |
다른 표현 | 희소 벡터의 일종 | 밀집 벡터의 일종 |
표현 방법 | 수동 | 훈련 데이터로부터 학습함 |
값의 타입 | 1과 0 | 실수 |
'ICT 관련 동향' 카테고리의 다른 글
BERT (0) | 2021.05.13 |
---|---|
트랜스포머(Transformer) (0) | 2021.05.12 |
시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq) (0) | 2021.05.12 |
제로페이의 진화 (제로페이 2.0) (1) | 2021.05.12 |
종합지급결제업(종지업)의 개요 (1) | 2021.05.12 |
댓글