23:59
Comentarii Adauga Comentariu

ZeRO-Infinity și DeepSpeed: Deblocarea unei scale de model fără precedent pentru instruirea în profunzime a Inteligenței Artificiale



Blogul Microsoft Research

ZeRO-Infinity și DeepSpeed: Deblocarea unei scale de model fără precedent pentru instruirea în profunzime a Inteligenței Artificiale

Publicat 19 aprilie 2021

De echipa DeepSpeed

Inteligență artificială

De când a fost introdusă biblioteca de optimizare DeepSpeed ​​anul trecut, a lansat numeroase optimizări noi pentru instruirea modelelor mari de AI - îmbunătățirea scării, vitezei, costurilor și utilizabilității. Deoarece modelele mari au evoluat rapid în ultimul an, la fel și DeepSpeed. Indiferent dacă le permite cercetătorilor să creeze generația de limbi naturale Microsoft Turing de 17 miliarde de parametri (Turing-NLG) cu precizie de ultimă generație, obținând cel mai rapid record de formare BERT sau susținând formare de 10 ori mai mare folosind un singur GPU , DeepSpeed continuă să abordeze provocările din AI la scarăcu cele mai recente progrese pentru formarea la scară largă a modelelor. Acum, noua tehnologie de optimizare a memoriei ZeRO (Zero Redundancy Optimizer), inclusă în DeepSpeed, se află într-o transformare proprie. ZeRO-Infinity îmbunătățit oferă capacitatea sistemului de a trece dincolo de peretele de memorie GPU și de a antrena modele cu zeci de miliarde de parametri, un ordin de mărime mai mare decât sistemele de ultimă generație. De asemenea, oferă o cale promițătoare spre instruirea modelelor de 100 trilioane de parametri.

ZeRO-Infinity dintr-o privire: ZeRO-Infinity este o nouă tehnologie de formare profundă (DL) pentru formarea modelelor de scalare, de la un singur GPU la supercomputerele masive cu mii de GPU-uri. Alimentează dimensiuni de model fără precedent, utilizând capacitatea completă de memorie a unui sistem, exploatând simultan toată memoria eterogenă (GPU, CPU și memorie non-volatile express sau NVMe pe scurt). Aflați mai multe în lucrarea noastră, „ ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning ”. Cele mai importante momente ale ZeRO-Infinity includ:

Oferind capacitatea sistemului de a antrena un model cu peste 30 de trilioane de parametri pe 512 GPU-uri NVIDIA V100 Tensor Core, de 50 de ori mai mari decât stadiul tehnicii.

Oferind o eficiență excelentă de formare și o scalare a randamentului superliniar prin partiționarea și maparea de date noi, care pot exploata lățimile de bandă de memorie CPU / NVMe agregate și calculul procesorului, oferind peste 25 de petaflopi de transfer susținut pe 512 GPU-uri NVIDIA V100.

Continuarea misiunii echipei DeepSpeed ​​de a democratiza formarea de modele mari, permițând oamenilor de știință de date cu un singur GPU să regleze modele mai mari decât Open AI GPT-3 (175 miliarde de parametri).

Eliminarea barierei de intrare pentru formarea de modele mari, făcându-l mai simplu și mai ușor - ZeRO-Infinity depășește un trilion de parametri fără complexitatea combinării mai multor tehnici de paralelism și fără a necesita modificări în codurile de utilizator. Din câte știm, este singura tehnologie paralelă care face acest lucru. Videoclipul de mai sus arată modul în care ZeRO-Infinity valorifică în mod eficient GPU, CPU și NVMe în totalitate prin 1) partiționarea fiecărui nivel de model în toate procesele paralele de date, 2) plasarea partițiilor pe dispozitivele NVMe paralele de date corespunzătoare și 3) coordonarea mișcării datelor necesare pentru a calcula propagarea înainte / înapoi și actualizările de greutate pe GPU-urile paralele de date și respectiv CPU-uri.

Suntem, de asemenea, încântați să anunțăm integrarea DeepSpeed ​​cu Azure Machine Learning și soluțiile open-source. Mediul curatat DeepSpeed din Azure Machine Learning facilitează accesul utilizatorilor la Azure . DeepSpeed ​​este acum integrat în Hugging Face v4.2 și PyTorch Lightning v1.2. Utilizatorii Hugging Face și PyTorch Lightning își pot accelera cu ușurință modelele cu DeepSpeed ​​printr-un simplu steag „deepspeed”!

Abordarea nevoilor de formare de modele mari acum și în viitor cu ZeRO-Infinity

În ultimii trei ani, cel mai mare model dens antrenat a crescut de peste 1.000 de ori, de la o sută de milioane de parametri în era pre-BERT la peste o sută de miliarde de parametri acum. Cu toate acestea, în aceeași durată, memoria GPU simplă a crescut doar cu 5x (16 GB la 80 GB). Prin urmare, creșterea dimensiunii modelului a fost posibilă în principal prin progresele în tehnologia de sistem pentru instruirea modelelor DL ​​mari, cu tehnologii paralele precum paralelismul modelului, paralelismul conductelor și ZeRO permițând modelelor mari să se încadreze în memoria GPU agregată, creând o cale către instruirea modelelor mai mari și mai puternice.

Stadiul tehnicii în tehnologia de formare a modelelor mari este paralelismul 3D. Acesta combină paralelismul modelului (tranșarea tensorială) și paralelismul conductelor cu paralelismul datelor în moduri complexe pentru a scala modele în mod eficient, utilizând pe deplin memoria GPU agregată și calculul unui cluster. Paralelismul 3D a fost folosit în DeepSpeed și NVIDIA Megatron-LM , printre alte cadre.

În ciuda capacităților incredibile ale paralelismului 3D pentru formarea modelelor mari, ajungem acum la peretele de memorie GPU. Memoria GPU agregată pur și simplu nu este suficient de mare pentru a susține creșterea dimensiunii modelului. Chiar și cu cele mai noi GPU-uri NVIDIA A100, care au 80 GB memorie, paralelismul 3D necesită 320 de GPU-uri doar pentru a se potrivi cu un model de trilioane de parametri pentru antrenament. În plus, paralelismul 3D necesită refactorizarea semnificativă a codului de la oamenii de știință a datelor, creând o barieră mare la intrare. Trei întrebări apar:

Privind în viitor, cum susținem următoarea creștere de 1.000 de ori în dimensiunea modelului, trecând de la modele precum GPT-3 cu 175 de miliarde de parametri la modele cu sute de miliarde de parametri?

Concentrându-ne pe prezent, cum putem face ca marile modele de astăzi să fie accesibile mai multor oameni de știință care ar putea să nu aibă acces la sute la GPU-uri necesare în prezent pentru a se potrivi acestor modele?

Putem face mai ușoară pregătirea pentru modelele mari eliminând această nevoie de refactorizare a modelelor?

Astăzi, facem un salt înainte de paralelismul 3D prin introducerea ZeRO-Infinity, un sistem nou capabil să abordeze toate provocările menționate mai sus ale antrenamentului pentru modelele mari. ZeRO-Infinity extinde familia de tehnologie ZeRO cu noi inovații în cartografierea datelor și acces la memorie eterogenă de înaltă performanță, care permite ZeRO-Infinity să accepte dimensiuni masive ale modelului pe resurse GPU limitate prin exploatarea simultană a memoriei CPU și NVMe, neimputernicită de lățimea lor de bandă limitată .

ZeRO-Infinity poate antrena, de asemenea, aceste modele fără a fi nevoie să combine mai multe forme de paralelism în paralelism 3D. O face printr-o nouă abordare bazată pe calcul, centrată pe memorie, care vizează reducerea cerințelor de memorie GPU ale straturilor individuale mari, care altfel ar necesita paralelismul modelului (feliere tensoriale) pentru a se potrivi modelului în memoria GPU. În plus, ZeRO-Infinity simplifică formarea de modele mari, identificând și automatizând toate comunicațiile necesare pentru instruirea oricărei arhitecturi de model arbitrare, eliminând practic nevoia de refacturare a oricărui model chiar și atunci când se scalează la trilioane de parametri. Nu în ultimul rând, ZeRO-Infinity oferă un motor puternic de calcul și comunicare care se suprapune conceput pentru a împinge eficiența antrenamentului la limite ascunzând cât mai multă latență de comunicare.

Cu toate aceste inovații, ZeRO-Infinity redefinește capacitățile unui sistem DL, oferind o scală de model fără precedent, care este accesibilă și ușor de utilizat , obținând în același timp o eficiență excelentă a antrenamentului .

Scală de model fără precedent: instruiți modele de 30 de trilioane de parametri pe 512 GPU-uri ZeRO-Infinity oferă un salt de ordine de mărime în tehnologia sistemelor de instruire DL, deschizând o cale către susținerea următoarei creșteri de 1.000 de ori a scării modelului prin exploatarea eficientă a sistemelor de memorie eterogene pe generațiile actuale și viitoare de hardware. Acesta rulează un model cu peste un trilion de parametri pe un singur nod NVIDIA DGX-2 și peste 30 de trilioane de parametri pe 32 de noduri (512 GPU-uri). Cu o sută de noduri DGX-2 într-un cluster, proiectăm ZeRO-Infinity poate antrena modele cu peste o sută de miliarde de parametri . (vezi Figura 1 pentru detalii).

Figura 1: Compararea scării modelului între paralelism 3D și ZeRO-Infinity. Experimentele sunt efectuate pe clustere GPU utilizând sisteme NVIDIA DGX-2 16-GPU (noduri). Modelul scalează până la 32 trilioane de parametri pe 512 GPU-uri V100 (32 noduri DGX-2) pe baza rulărilor măsurate, în timp ce numărul de parametri pe 64 și 128 noduri DGX-2 se bazează pe proiecții. Pentru a permite formarea modelului la această scară, ZeRO-Infinity extinde familia de tehnologie ZeRO cu inovații distincte care vizează diferite blocaje ale memoriei.

1. Etapa 3 a ZeRO (ZeRO-3) permite eliminarea tuturor redundanțelor de memorie în formarea paralelă de date prin partiționarea stărilor modelului în procesele paralele de date.

Explorează modul în care ZeRO-3 elimină redundanțele de memorie

2. Infinity Offload Engine, o nouă bibliotecă de descărcare de date, permite exploatarea completă a arhitecturilor eterogene moderne de memorie prin descărcarea stărilor de model partiționate în memoria dispozitivului CPU sau NVMe, care sunt mult mai mari decât memoria GPU.

Figura 3: Defalcare a memoriei / stocării totale disponibile pe un singur sistem NVIDIA DGX-2. Are 3x memorie CPU și peste 50x stocare NVMe comparativ cu memoria GPU.

Explorează modul în care Infinity Offload Engine exploatează pe deplin memoria eterogenă 3. Punctul de control al activării cu descărcarea procesorului permite reducerea amprentei de memorie de activare, care poate deveni blocajul memoriei de pe GPU după ce memoria cerută de stările modelului este adresată de ZeRO-3 și Infinity Offload Engine.

Explorați modul în care punctele de control ale activării cu descărcarea procesorului conservă memoria

4. Placarea operatorului centrat pe memorie, o tehnică nouă de reprogramare a calculelor care funcționează împreună cu programul de acces și comunicare ZeRO, permite reducerea amprentei de memorie a straturilor individuale incredibil de masive care pot fi prea mari pentru a se potrivi în memoria GPU chiar și cu un singur strat la o vreme.

Explorează modul în care placarea operatorului centrat pe memorie reduce memoria de lucru pentru straturile mari

Acces mai larg la reglarea fină a modelelor extrem de mari: GPT-3 sau chiar modele mai mari pe un singur GPU

Figura 4: Compararea celor mai mari dimensiuni de model care pot fi instruite pe un singur nod NVIDIA DGX-2 utilizând diverse tehnologii de formare paralele DL. Nodul NVIDIA DGX-2 este format din 16 GPU-uri V100-32GB împreună cu 1,5 TB memorie CPU și 20 TB stocare NVMe utilizabilă. Culorile albastru, portocaliu și verde sunt utilizate pentru a reprezenta tehnologii care utilizează numai memoria GPU, GPU cu memorie CPU și GPU cu memorie atât pentru CPU, cât și pentru NVMe. ZeRO-Infinity poate rula de fapt cu peste un trilion de parametri chiar și pe un singur GPU, comparativ cu stadiul tehnicii, care este de 13 miliarde de parametri cu ZeRO Offload.

În timp ce pregătirea preliminară este primul pas important în crearea unui model masiv, reglarea fină pentru sarcini specifice este esențială pentru valorificarea întregului potențial al modelului pentru diferite scenarii. Reglarea fină a modelelor masive ușor accesibile pentru oamenii de știință a datelor ar putea permite crearea multor modele derivate pentru a satisface nevoia diferitelor scenarii de aplicație. Aceste sarcini ar putea varia de la corecția gramaticală la asistența la scriere, de la subtitrarea imaginii la generarea de cod - orice sarcină posibilă cu modelele mari de AI.

Spre deosebire de pretraining, care poate necesita milioane de ore de calcul GPU, reglarea fină a unui model cu sute de miliarde de parametri este mult mai ieftină, necesitând semnificativ mai puține ore de calcul GPU și se poate face pe un singur nod de calcul cu o mână de GPU-uri. În timp ce astfel de resurse de calcul sunt accesibile multor companii și utilizatori, din păcate, acestea sunt restricționate de memoria disponibilă pe aceste noduri de calcul, care la rândul său limitează dimensiunea modelului care poate fi reglat fin. Face inaccesibilă reglarea fină a modelelor mari pentru majoritatea companiilor și companiilor care nu au acces la clustere masive GPU.

ZeRO-Infinity schimbă complet acest peisaj, permițând oamenilor de știință de date cu acces la un singur nod, cum ar fi NVIDIA DGX-2, să regleze fin modelele cu peste un trilion de parametri (Figura 4). De fapt, poate rula modele cu peste un trilion de parametri chiar și pe un singur GPU al unui astfel de nod, deoarece are suficientă memorie CPU și NVMe. Aceasta este cu aproape 100 de ori mai mare decât stadiul tehnicii pentru antrenamentul GPU unic. Cu ZeRO-Infinity, blocajul memoriei nu mai este memoria GPU sau chiar memoria CPU. În schimb, le putem folosi acum împreună cu memoria NVMe mult mai mare și mai ieftină.

Prin ZeRO-Infinity, facem un alt pas spre democratizarea AI, permițând utilizatorilor și companiilor cu resurse limitate să valorifice puterea modelelor masive pentru aplicațiile lor specifice afacerii.


(Fluierul)


Linkul direct catre Petitie

CEREM NATIONALIZAREA TUTUROR RESURSELOR NATURALE ALE ROMANIEI ! - Initiativa Legislativa care are nevoie de 500.000 de semnaturi - Semneaza si tu !

Comentarii:


Adauga Comentariu



Citiți și cele mai căutate articole de pe Fluierul:

Peste 61.000 de români CER "Opriți Jaful. Vreau să las moștenire copiilor mei această țară!". NATIONALIZAREA RESURSELOR, OPRIREA CONCESIONĂRILOR PE NIMIC ȘI INTERZICEREA VÂNZĂRII TERENURILOR LA STRĂINI - e cea mai semnată Petiție de pe PetițieOnline.net.

Renault deschide comenzile în România pentru noul Arkana

Studiu. Explozia serviciilor digitale alimentează temerile legate de sănătate și confidențialitate

Fluierul sau Justițiarul nu vor primi și nu vor lua niciodată bani de la Guvern.Dar Digi24, Antena3 sau Realitatea?Diferența dintre PRESA INDEPENDENTĂ și slugile propagandiste din Presa care pupă zilnic fundul guvernanților.Cine va primi bani de la Guvern?

COMENTARIU Marius Oprea | Liberalii au pălării mari, pentru capete mici. Ramona Săseanu și municipiile ei "de județ".

Sonda spațială Voyager a detectat un "zumzet persistent" dincolo de sistemul nostru solar

Pesta porcină africană, confirmată într-o exploatație din Bistrița

Sentință maximă pentru două femei transgender arestate în Camerun. Shakiro și Patricia sunt acuzate de "tentativă de homosexualitate"

Coronavirus în România LIVE UPDATE 12 mai. Bilanț complet COVID-19

Anticorpii durează minim 8 luni. Medicul Virgil Musta spune că asta nu înseamnă că ești ferit de o nouă infecție

Ion Cristoiu: Acum chiar că Scandalul Ursul Arthur a fost înmormîntat. Cu Aleluia!

Mașină Tesla, supusă la testul șoselelor din Nigeria. Reacții hilare după un moment inedit în trafic

Ploi și vijelii în București. Prognoza METEO specială, valabilă începând de azi

Un bebeluș a ajuns în stare gravă la spital, lovit în somn de tatăl lui. Polițiștii au deschis dosar penal

Daniel Dines, CEO UiPath, discută cumpărarea unui pachet de acțiuni în One United Properties

HOROSCOP 12 mai. Aceste zodii scapă de probleme prin urechile acului. Vezi cine anume le sare în ajutor

Ministerul Sporturilor așteaptă propuneri pentru organizarea de competiții test cu spectatori

COMENTARIU Valeriu ȘUHAN: Cu "pejosul" între București și Ilfov…

Cât durează anticorpii după infecția cu SARS-CoV-2? Medicul Virgil Musta recomandă vaccinul la cel puțin 3 luni post-COVID

România este pe scenariu verde, dar de ce nu s-a ridicat starea de alertă? Arafat: "Nu trebuie interpretat că am scăpat"

Moment inedit pentru Serena Williams. Tenismena joacă miercuri cea de a 1000-a partidă din carieră

Supărat că nu a fost invitat, un bărbat din Colorado a ucis mai multe persoane la o petrecere aniversară

Cel puțin 35 de morți în Gaza, Israelul răspunde la atacurile cu rachete

Când ajung primii bani din fondul UE de redresare de 800 miliarde de euro

Taylor Swift a scris istorie la Brit Awards. Artista este prima femeie care a primit trofeul Global Icon

Avertizare METEO de vreme rea, emisă de ANM. Ploi torențiale, vijelie și grindină în toată România

Primăria Sectorului 2 caută voluntari pentru a face curățenie în curtea Institutului Oncologic

Cel puțin un mort, la Tel Aviv, în urma atacurilor cu rachete/ Confruntări armate în orășelul Lod

Codul de procedură penală va fi modificat. Legea, promulgată de Klaus Iohannis

Avionul prezidențial al lui Nicolae Ceaușescu va fi vândut la licitație GALERIE FOTO

Conflictul dintre Israel și Fâșia Gaza. Iron Dome, sistemul antirachetă care apără Israelul: cum funcționează și ce țări și-l doresc VIDEO

"Alternativa la reformarea TVR este desființarea ei". Mandatul de director interimar al Ramonei Săseanu, în viziunea șefului Comisiei care i-a dat votul

Ciolacu, despre interimatele subite de la TVR și SRR, decise de Parlament: Atacăm la CCR și sesizăm Comisia Europeană

Încep demolările într-un sector din București. Primul pas, o terasă construită ilegal: "Ne luăm înapoi spațiul verde"

Întârzieri la Metrou. Circulația trenurilor pe Magistrala 4 se desfășoară cu dificultate

Marius Tucă Show. Ora 19:00, la Aleph News. Invitații de azi: istoricul Marius Oprea și publicistul Ion Cristoiu

ONU, în alertă după violențele din Israel. Avertisment cu privire la un posibil "război total"

Oroare într-un parc de joacă din Tecuci. Un pedofil ar fi agresat sexual un copil de 5 ani

O carte pe zi: "Tigrul și steaua. Violență și exil în proza latino-americană a secolului XX"

Cupa României: Astra învinge Dinamo. A doua finalistă se decide miercuri seara, în meciul Viitorul Pandurii-Craiova

Guvernul Cioloş-Soros a nenorocit comerțul românesc cu produse alimentare după dictonul internaționali "Pentru străini mumă, Pentru români ciumă"

Arafat: La plajă cu siguranță nu va fi obligatorie masca

PSD: PNL și USR-PLUS au arătat că promisiunea transparenței totale a fost o minciună cinică

Peste 10.000 de mașini, ridicate într-un sector din București începând de azi

Ministrul Sănătății va prezenta luni, în Parlament, raportul preliminar privind decesele COVID

Violențele din Israel afectează zborurile. Anunțul TAROM despre legătura aeriană cu Tel Aviv

Polonia începe războiul cu băncile. Taxa suplimentara pentru Banci. 1 miliard de euro pe an stransi ca taxe de la banci vor merge in alocatiile pentru copii

Sărbătoarea progresisto-soroşistă "Fără Pantaloni la Metrou" sau Cum să Distrugem Morala Tradițională. Fanaticii progresişti au dansat în fundul gol la metrou cu crucea în mână ca să-şi bată joc de religie

IOHANNIS CE DISCUTI PE ASCUNS CU BANCILE? Gheorghe Piperea: "Reprezentanta Asociației Române a Băncilor a recunoscut public ca au existat intilniri informale si confidentiale cu administratia prezidentiala in legatura cu legea privind darea in plata"

ÎPS Teodosie refuză ideea vaccinării în biserică. "Biserica nu este anexa instituțiilor sanitare"

Bilanțul conflictului dintre Israel și Fâșia Gaza: peste 1.000 de rachete trimise spre Tel Aviv în ultimele 48 de ore

Surpriză veninoasă într-un birou din Orșova. Vipera s-a ascuns într-un loc neașteptat

Croația a emis mandat internațional de arestare pe numele lui Zoran Mamic, ex-antrenor al lui Dinamo Zagreb

Astra Giurgiu s-a calificat în finala Cupei României, învingând Dinamo București la penalty-uri

Ursula von der Leyen afirmă că a avut o "întrevedere constructivă" cu Florin Cîțu

Oana Stănciulescu răspuns ferm dat acuzațiilor făcute de Ambada Israelului, ambasadă pe care o acuză că a făcut "acuze dure şi nefundamentate": "Calomniatorii mei, indiferent de funcția publică pe care o dețin, vor răspunde în fața instanței de judecată"

Myanmar. Ia ghiciti cine a furat alegerile in Myanmar, fosta Birmanie? Aceeasi care au furat alegerile si in SUA. Liderul birmanez arestat de militari pentru fraudă la vot a avut legături strânse cu Hillary Clinton, Obama si Soros

Poșta Română a încheiat un acord cu Politehnica București. Ce proiecte vizează

Recompense pentru vaccinare. Ce primesc românii care se vaccinează

Cine sunt parlamentarii "criminali" care au initiat modificarile legislative impotriva oilor, a ciobanilor si a cainilor. Dar si toti cei care au votat "modificarile lor" sunt la fel de vinovati.


Pag.1 Pag.2 Pag.3 Pag.4 Pag.5 Pag.6 Pag.7
Pag.8 Pag.9 Pag.10 Pag.11 Pag.12 Pag.13

Nr. de articole la aceasta sectiune: 723, afisate in 13 pagini.