1. 트랜스포머(Transformer)의 개요
가. 트랜스포머의 정의
-017년 구글이 발표한 논문인 "Attention is all you need"에서 나온 모델
나. 트랜스포머의 특징
-(인코더-디코더 구조), 기존의 seq2seq의 구조
-(어텐션(Attention)), 어텐션(Attention)만으로 구현한 모델
-(RNN 미사용), 인코더-디코더 구조를 설계하였음에도 성능도 RNN보다 우수
-(seq2seq 단점 극복), 인코더가 입력 시퀀스를 하나의 벡터로 압축하는 과정에서 입력 시퀀스의 정보가 일부 손실된다는 단점 극복
-(N 단계), N 단계의 인코더와 디코덕 존재
2. 트랜스포머의 개념도 및 구성요소
가. 트랜스포머의 개념도
나. 트랜스포머의 구성요소
구성요소 | 설명 |
워드 임베딩 | -각 단어의 임베딩 벡터 생성 |
포지셔널 인코딩 | -단어의 위치 정보 제공 |
셀프 어텐션 | -주어진 '쿼리(Query)'에 대해서 모든 '키(Key)'와의 유사도를 각각 구함 -구해낸 이 유사도를 가중치로 하여 키와 맵핑되어있는 각각의 '값(Value)'에 반영 -유사도가 반영된 '값(Value)'을 모두 가중합하여 리턴 Query=Key=Value (Q는 단어 A를 나타내며, K는 단어 B, V는 두 단어 사이의에 가중치) |
멀티 헤드 어텐션 | -N차원의 단어 벡터를 M차원을 가지는 Q, K, V 벡터로 교환 -병렬로 수행하여 다양한 정보 수집 |
포지션-와이즈 피드 포워드 신경망 | -Fully-connected FFNN -출력결과를 다음 인코더 층에 전달 |
마스크드 멀티 헤드 어텐션 | -멀티 헤드 어텐션과 룩-어헤드 마스크 -자신의 단어와 이전 단어들만을 참고 |
인코더-디코더 어텐션 | -셀프 어텐션이 아님 -Key, Value는 인코더 마지막 층에서 전달 -Query는 디코더 첫번째 서브층에서 전달 |
'ICT 관련 동향' 카테고리의 다른 글
GPT-3 (0) | 2021.05.13 |
---|---|
BERT (0) | 2021.05.13 |
희소 표현 & 밀집 표현 & 워드 임베딩 (0) | 2021.05.12 |
시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq) (0) | 2021.05.12 |
제로페이의 진화 (제로페이 2.0) (1) | 2021.05.12 |
댓글