Il sistema può addestrare un modello GPT-3 da 175 miliardi di parametri in meno di quattro minuti
Di norma, l’addestramento di un modello linguistico IA di grandi dimensioni può richiedere settimane, mesi o addirittura anni. Una fascia temporale lunga, che Nnvidia vuole ridurre drasticamente. Qualche giorno fa, l’azienda ha presentato la più recente iterazione del suo supercomputer Eos, alimentato da oltre 10.000 GPU H100 Tensor Core e in grado di addestrare un modello GPT-3 da 175 miliardi di parametri su 1 miliardo di token in meno di quattro minuti. È tre volte più veloce del precedente benchmark sullo standard di settore MLPerf AI, stabilito dalla stessa Nvidia solo sei mesi fa. Eos sfrutta 10.752 GPU collegate insieme utilizzando la rete Infiniband di Nvidia (capace di spostare un petabyte di dati al secondo) e 860 terabyte di memoria a larghezza di banda elevata (aggregata di 36 PB/sec e 1,1 PB di interconnessi) per fornire 40 exaflop di potenza di elaborazione IA. L’intera architettura cloud è composta da 1344 nodi: server individuali a cui le aziende possono affittare l’accesso per circa 37.000 dollari al mese per espandere le proprie capacità di intelligenza artificiale senza costruire un’infrastruttura di proprietà.
Ad oggi, Nvidia ha stabilito sei record in nove test benchmark: il notch di 3,9 minuti per GPT-3, un limite di 2,5 minuti per addestrare un modello a diffusione stabile utilizzando 1.024 GPU Hopper, un minuto per addestrare DLRM, 55,2 secondi per RetinaNet, 46 secondi per 3D U-Net. Infine, il modello BERT-Large ha richiesto solo 7,2 secondi per l’addestramento. Nvidia si è affrettata a notare che la versione da 175 miliardi di parametri di GPT-3 utilizzata nel benchmark non è l’iterazione a grandezza naturale del modello (né lo era il modello Stable Diffusion). Il GPT-3 più grande offre circa 3,7 trilioni di parametri ed è semplicemente troppo grande e ingombrante per essere utilizzato come test di benchmarking. Servirebbero 18 mesi per addestrarlo sul vecchio sistema A100 con 512 GPU, mentre Eos richiede solo otto giorni. Il miglioramento delle prestazioni deriva dal fatto che il recente ciclo di test ha utilizzato 10.752 GPU H100 rispetto alle 3.584 GPU Hopper usate dall’azienda nelle prove di benchmarking di giugno. Nvidia sottolinea che, nonostante abbia triplicato il numero di GPU, è riuscita a mantenere un aumento delle prestazioni pari a 2,8 volte, ovvero un tasso di efficienza del 93%, grazie alla sua ottimizzazione del software.