트랜스포머 pytorch 코드분석 (Attention is All You Need)
드디어 대망의... AI 안 하는 사람도 한번쯤은 들어봤다는 "그 논문"이다. 본 포스팅에서는 Attention is All You Need (1) 에서 제안한, 자연어와 컴퓨터비전 등 AI 분야에 막대한 영향을 끼친 트랜스포머 아키텍처를 pytorch로 구현한 코드를 분석하고자 한다. 코드는 아래 영상을 참고하였다. 논문에 대한 이론적인 이해는 어느 정도 되었다고 가정하고 코드를 분석하려고 하니, 논문 내용을 처음 보는 사람은 먼저 읽고 오길 바란다. (1) A. Vaswani, Attention is All You Need, NIPS, 2017 https://www.youtube.com/watch?v=U0s0f995w14&t=1724s 전체 구조SelfAttention 클래스 정의Transformer..
2024.08.13