[Study Jam] Encoder-Decoder Architecture

2024-04-24

구글 클라우드 AI 스터디잼의 Encoder-Decoder Architecture 요약 내용입니다. 시퀀스-투-시퀀스 변환(번역, 요약, 텍스트 생성 등)의 기반이 되는 인코더-디코더 구조를 한곳에 정리합니다.

💡 이런 분들께 추천합니다

인코더-디코더 구조
입력 시퀀스(예: 영어 문장)를 인코더가 고정 길이 벡터로 압축하고, 디코더가 그 벡터를 이용해 출력 시퀀스(예: 프랑스어 문장)를 순차적으로 생성하는 구조입니다. 언어 번역, 요약, 대화 생성 등에 널리 쓰입니다.

Teacher Forcing
훈련 시 디코더가 다음 토큰을 예측할 때, 이전 스텝의 정답(실제) 토큰을 넣어 주는 방식입니다. 학습 안정성과 수렴에 도움이 됩니다.

인코더 출력이 고정 길이 벡터이기 때문에, 매우 긴 입력에서는 정보가 한계까지 압축되어 손실될 수 있습니다. Attention을 쓰면 이 한계를 완화할 수 있습니다.

이 글은 개념 요약에 초점을 둡니다. 랩 워크스루에서는 문자 기반 RNN으로 시 생성 예제를 다룹니다. Google Cloud AI 또는 시퀀스-투-시퀀스 튜토리얼을 참고해 실습해 보시면 좋습니다.

Q. 인코더-디코더의 기본 작동 원리는?
A. 인코더가 입력을 벡터로 압축하고, 디코더가 그 벡터를 사용해 타깃 시퀀스를 순차적으로 생성합니다. 시퀀스-투-시퀀스 변환의 기본 구조입니다.

Q. 모델은 어떻게 훈련시키나요?
A. 입력-정답 출력 쌍으로 학습하며, Teacher Forcing으로 디코더에 이전 스텝의 정답 토큰을 넣어 다음 토큰을 예측하게 합니다. 생성 출력과 정답의 차이를 줄이도록 가중치를 업데이트합니다.

Q. 인코더와 디코더를 다른 아키텍처로 쓸 수 있나요?
A. 네. 인코더는 RNN, 디코더는 트랜스포머 블록처럼 서로 다르게 설계할 수 있어, 작업에 맞게 유연하게 구성할 수 있습니다.