1400 RISC
Untether AI in Canada ha sviluppato un dispositivo AI con oltre 1400 processori RISC-V chiamato Boqueria per l'elaborazione "a memoria".
Boqueria, discusso oggi alla HotChips Conference, è costruito sul processo a 7 nm di TSMC con 238 MB di SRAM. Il dispositivo ha una prestazione di 2 PetaFlops per tipi di dati AI FP8 a 8 bit con una potenza di 30 TFLOP/W che deriva dal mantenere l'elaborazione più vicina ai core AI con 729 banchi di memoria dual RISC-V.
Poiché il calcolo in memoria è significativamente più efficiente dal punto di vista energetico rispetto alle tradizionali architetture di von Neumann, è possibile eseguire più TFlop per un dato inviluppo di potenza. Con l'introduzione dei dispositivi runAI nel 2020, Untether AI ha raggiunto un livello di efficienza energetica di 8 TOP/W per il tipo di dati INT8.
L'architettura speedAI utilizzata in Boqueria migliora ulteriormente questo aspetto, offrendo 30 TFlops/W. Questa efficienza energetica è il prodotto dell'architettura di calcolo at-memory di seconda generazione, di oltre 1.400 processori RISC-V ottimizzati con istruzioni personalizzate, flusso di dati efficiente dal punto di vista energetico e dell'adozione di un nuovo tipo di dati FP8, che contribuiscono a quadruplicare l'efficienza rispetto al dispositivo runAI della generazione precedente.
Ogni banco di memoria dell'architettura speedAI ha 512 elementi di elaborazione con collegamento diretto alla SRAM dedicata. Questi elementi di elaborazione supportano i tipi di dati INT4, FP8, INT8 e BF16, insieme a circuiti di rilevamento zero per il risparmio energetico e il supporto per la scarsità strutturata 2:1.
Disposta in 8 file di 64 elementi di elaborazione, ciascuna fila ha il proprio controller di fila dedicato e funzionalità di riduzione cablata per consentire flessibilità nella programmazione e calcolo efficiente delle funzioni di rete del trasformatore come Softmax e LayerNorm. Le righe sono gestite da due processori RISC-V con oltre 20 istruzioni personalizzate progettate per l'accelerazione dell'inferenza. La flessibilità del banco di memoria gli consente di adattarsi a una varietà di architetture di reti neurali, comprese reti convoluzionali, di trasformazione e di raccomandazione, nonché modelli di algebra lineare
Il primo membro della famiglia, lo speedAI240, fornisce 2 PetaFlop di prestazioni FP8 e 1 PetaFlop di prestazioni BF16. Ciò si traduce in prestazioni più elevate, ad esempio eseguendo il framework BERT a oltre 750 query al secondo per watt (qps/w), 15 volte superiori all'attuale stato dell'arte delle principali GPU.
La ricerca di Untether AI ha stabilito che due diversi formati FP8 fornivano il miglior mix di precisione, portata ed efficienza. Una versione a 4 mantisse (FP8p per "precisione") e una versione a 3 mantisse (FP8r per "intervallo") hanno fornito la migliore precisione e velocità effettiva per l'inferenza su una varietà di reti diverse. Sia per le reti convoluzionali come ResNet-50 che per le reti di trasformatori come BERT-Base, l'implementazione dell'FP8 da parte di Untether AI comporta meno di 1/10 dell'1% di perdita di precisione rispetto all'utilizzo dei tipi di dati BF16, con un aumento quadruplicato della produttività e dell'efficienza energetica .
Il dispositivo speedAI240 è progettato per adattarsi a modelli di grandi dimensioni. L'architettura della memoria è multi-livello, con 238 MB di SRAM dedicati agli elementi di elaborazione che offrono 1 petabyte/s di larghezza di banda della memoria, quattro scratchpad da 1 MB e due porte LPDDR5 da 64 bit di larghezza, che forniscono fino a 32 GB di DRAM esterna.
Sono disponibili 16 linee PCIe Gen5 per la connettività host a 63 GB/s con tre porte PCIe Gen5 x8 per la connettività chip-to-chip e card-to-card, ciascuna delle quali fornisce 31,5 GB/s.
"I vantaggi dell'elaborazione in memoria sono stati dimostrati con il dispositivo runAI di prima generazione, mentre l'architettura speedAI di seconda generazione migliora l'efficienza energetica, il throughput, la precisione e la scalabilità della nostra offerta", ha affermato Arun Iyengar, CEO di Untether AI. "I dispositivi speedAI offrono una capacità che non ha eguali in nessun'altra offerta di inferenza sul mercato."
Untether AI dispone di un Software Development Kit (SDK) chiamato imAIgine che fornisce un percorso per far funzionare le reti ad alte prestazioni, con quantizzazione tramite pulsante, ottimizzazione, allocazione fisica e partizionamento multi-chip. L'SDK imAIgine fornisce inoltre un ampio toolkit di visualizzazione, un simulatore accurato del ciclo e un'API runtime facilmente integrabile ed è ora disponibile.