[Study Jam] Transformer Models and BERT Model
구글 클라우드 AI 스터디잼의 Transformer Models and BERT Model 요약 내용입니다. 2017년 ‘Attention is All You Need’로 소개된 트랜스포머와, 2018년 구글이 공개한 BERT의 핵심을 정리합니다.
💡 이런 분들께 추천합니다
- 트랜스포머·BERT를 처음 배우는 분
- NLP 모델 구조(인코더·디코더·Self-Attention)를 알고 싶은 분
- BERT의 사전 학습 방식과 활용 태스크를 정리하고 싶은 분
🧩 개념 설명 / 배경 지식
트랜스포머
Attention만으로 시퀀스를 처리하는 구조로, 인코더와 디코더를 사용해 입력을 인코딩하고 출력을 디코딩합니다. 각 인코더는 Self-Attention과 Feed-Forward 레이어로 구성됩니다. 문맥에 따른 단어 의미를 반영할 수 있어 이전 모델의 한계를 넘었습니다.
BERT
Bidirectional Encoder Representations from Transformers. 인코더 전용 아키텍처로, 위키피디아·도서 코퍼스로 사전 학습됩니다. 문장·토큰 수준 작업에 쓰이며, 마스크된 언어 모델링(MLM)과 다음 문장 예측(NSP)으로 학습합니다.
🔍 본론: Transformer와 BERT
1. 트랜스포머 모델
- 2017년 논문으로 소개, 단어를 문맥에 따라 다르게 표현할 수 있게 함.
- 인코더-디코더 + Self-Attention + Feed-Forward.
- 주의 메커니즘이 번역 등에서 중요한 단어·구조를 반영해 성능을 높입니다.
2. BERT 모델
- BERT Base: 약 1.1억 파라미터 / BERT Large: 약 3.4억 파라미터.
- 100만 스텝 훈련, 마스킹 비율 15% 권장.
- 활용: 단일 문장 분류, 문장 쌍 분류, 질의응답, 개체명 인식(NER) 등 다양한 NLP 태스크에 사용됩니다.
3. BERT 훈련 과정
- 마스크된 언어 모델링(MLM): 일부 토큰을 마스크하고 그 토큰을 예측하도록 학습해 문맥 이해를 키웁니다.
- 다음 문장 예측(NSP): 두 문장이 이어지는지 예측해 문장 간 관계를 학습합니다.
동영상: Transformer Models and BERT Model Overview
동영상: Lab Walkthrough
⚠️ 주의사항
- BERT는 인코더만 사용하므로 생성(텍스트 생성·번역 디코딩)에는 GPT 등 디코더 모델을 쓰는 것이 일반적입니다. 분류·추출·이해 태스크에 적합합니다.
✅ 실습 / 적용 예시
이 글은 개념 요약에 초점을 둡니다. Google Cloud AI 또는 Hugging Face의 Transformers 라이브러리로 BERT 파인튜닝·추론을 실습해 보시면 좋습니다.
🚧 트러블슈팅 / 자주 묻는 질문
Q. BERT는 어떤 NLP 작업에 쓰이나요?
A. 단일 문장 분류(감성·주제), 문장 쌍 분류(유사도·연관성), 질의응답, 개체명 인식(NER) 등 다양한 이해·분류·추출 태스크에 사용됩니다.
Q. 트랜스포머의 주의 메커니즘이 번역에 어떻게 도움이 되나요?
A. 입력 문장의 단어 간 관계와 중요한 부분에 가중치를 두어, 문맥과 구조를 잘 반영한 번역을 만들 수 있게 합니다.
Q. BERT 훈련의 두 가지 목표는?
A. (1) 마스크된 언어 모델링: 마스크된 토큰 예측으로 문맥 이해를 키움. (2) 다음 문장 예측: 두 문장이 이어지는지 예측해 문장 간 관계를 학습합니다.
📝 마무리
- 트랜스포머는 Attention 기반으로 문맥을 반영한 시퀀스 처리의 기준이 되었습니다.
- BERT는 인코더 전용으로 다양한 NLP 이해·분류·추출 태스크에 널리 쓰입니다.
- 다음에는 이미지 캡션 생성, Generative AI Studio 등 생성·멀티모달로 확장해 보시면 좋습니다.
댓글남기기