Attention Is All You Need

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin

2017-06-12NeurIPS 2017130000 citeringar

Sammanfattning

Denna banbrytande artikel introducerade Transformer-arkitekturen som helt ersätter rekurrenta och konvolutionella nätverk med en ren attention-mekanism. Transformer möjliggör betydligt mer parallell träning och har blivit grunden för praktiskt taget alla moderna språkmodeller inklusive GPT, BERT, Claude och Llama. Artikeln demonstrerade att self-attention ensamt räcker för att uppnå toppresultat inom maskinöversättning och lade grunden för den AI-revolution vi ser idag.

Kopplade personer

Aidan Gomez

CEO & medgrundare, Cohere

Taggar

transformer attention

neurala nätverk

maskinöversättning