Miljardite kuni triljonite parameetritega suurte LLM-mudelite koolitamine ORNL-i piiriüleses superarvutis

Miljardite kuni triljonite parameetritega suurte LLM-mudelite koolitamine ORNL-i piiriüleses superarvutis

Allikasõlm: 3065936

Oak Ridge'i riikliku labori (ORNL) ja Paris-Saclay ülikooli teadlased avaldasid tehnilise dokumendi pealkirjaga "Hajaõppe optimeerimine suurte keelemudelite piiril".

Abstraktne:

"Suured keelemudelid (LLM) on näidanud märkimisväärset edu alusmudelitena, mis on peenhäälestuse kaudu kasulikud erinevatele allavoolu rakendustele. Hiljutised uuringud kahjude skaleerimise kohta on näidanud suuremate LLM-ide paremat jõudlust võrreldes nende väiksemate kolleegidega. Sellegipoolest tekitab miljardite parameetritega LLM-ide koolitamine olulisi väljakutseid ja nõuab märkimisväärseid arvutusressursse. Näiteks ühe triljoni parameetriga GPT-stiilis mudeli väljaõpetamine 20 triljonil märgil nõuab hämmastavalt 120 miljonit eksaflopsi arvutusi. See uuring uurib tõhusaid hajutatud koolitusstrateegiaid, et saada see arvutus Frontierist, maailma esimesest avatud teadusele pühendatud eksatasandi superarvutist. Võimaldame ja uurime erinevaid mudelite ja andmete paralleeltreeningu tehnikaid, nagu tenorite paralleelsus, torujuhtme paralleelsus ja killustatud andmete paralleelsus, et hõlbustada triljoni parameetriga mudeli koolitamist Frontier'is. Hindame neid tehnikaid ja nendega seotud parameetreid empiiriliselt, et teha kindlaks nende mõju mälujalajäljele, side latentsusele ja GPU arvutuslikule efektiivsusele. Analüüsime nende tehnikate keerulist koosmõju ja leiame strateegia nende kombineerimiseks, et saavutada hüperparameetrite häälestamise kaudu suur läbilaskevõime. Oleme empiirilise analüüsi ja hüperparameetrite häälestamise abil tuvastanud tõhusad strateegiad erineva suurusega suurte LLM-ide koolitamiseks. 22 miljardi, 175 miljardi ja 1 triljoni parameetriga saavutasime GPU läbilaskevõime 38.38%36.14%ja 31.96%, vastavalt. Me saavutasime 175 miljardi parameetri mudeli ja 1 triljoni parameetri mudeli koolituse 100% nõrk skaleerimise efektiivsus vastavalt 1024 ja 3072 MI250X GPU puhul. Samuti saavutasime tugeva skaleerimise efektiivsuse 89% ja 87% nende kahe mudeli jaoks.

Leia tehniline paber siin. Avaldatud detsember 2023 (eeltrükk).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang ja Prasanna Balaprakash. "Hajutatud koolituse optimeerimine piiril suurte keelemudelite jaoks." arXiv eeltrükk arXiv:2312.12705 (2023).

Lisalugemist
AI Races To The Edge
Järelduste tegemine ja mõned koolitused surutakse väiksematesse seadmetesse, kuna tehisintellekt levib uutesse rakendustesse.

Ajatempel:

Veel alates Pooltehnika