La tecnologia FinFet da 16 nm batte la legge di Moore

La generazione dei dispositivi programmabili in tecnologia da 16 nm è alle porte. Questi ultimi consentiranno ai progettisti di realizzare sistemi con un rapporto prestazioni/consumi da 2 a 5 volte superiore rispetto a sistemi confrontabili progettati con dispositivi in tecnologia da 28 nm. Questi vantaggi in termini di prestazioni per watt si basano su tre pilastri: la realizzazione del dispositivo nel processo 16FF+ (16nm FinFet Plus) di Tsmc, la memoria UltraRam di Xilinx ed un sistema innovativo di ottimizzazione delle interconnessioni a livello di sistema noto come SmartConnect. Inoltre, Xilinx ha anche presentato il proprio SoC Interamente Programmabile Zynq di seconda generazione. Il SoC multiprocessore (MPSoC) Zynq UltraScale+ presenta un processore applicativo quad-core Arm Cortex-A53 a 64 bit, un processore in tempo reale Arm Cortex-R5 a 32 bit ed un processore grafico Arm Mali-400MP, assieme a risorse di logica Fpga da 16 nm (con memoria UltraRam), un grande numero di periferiche, funzionalità per la sicurezza e per l’affidabilità ed una tecnologia innovativa di controllo dell’alimentazione. Tutto ciò consente di creare sistemi con un rapporto prestazioni/consumi 5 volte superiore rispetto ai sistemi progettati con il SoC Zynq da 28 nm.

I vantaggi della tecnologia FinFet
La tecnologia FinFet da 16 nm assicura ulteriore valore aggiunto rispetto a quanto la Legge di Moore è tradizionalmente in grado di fornire ai progettisti. Ne beneficerà una vasta gamma di applicazioni di prossima generazione, inclusi i sistemi Lte avanzati e Wireless 5G, le comunicazioni via cavo con prestazioni dell’ordine del terabit, i sistemi avanzati di guida assistita in campo automobilistico e le applicazioni industriali dell’Internet delle Cose. In base alla pura migrazione di processo verso la tecnololgia FinFet da 16 nm, Xilinx ha prodotto dispositivi che vantano un miglioramento del rapporto prestazioni/watt di un fattore 2 rispetto di dispositivi della serie 7 da 28 nm. La tecnologia 16FF+ di Tsmc è una tecnologia di processo estremamente efficiente, dal momento che elimina virtualmente le perdite di potenza del transistor associate ai processi precedenti su silicio realizzati con transistor planari.

I vantaggi della tecnologia UltraRam
Attualmente, stiamo assistendo ad un profondo contrasto fra la memoria on chip di cui si dispone, come la Lut Ram o la Ram distribuita e la Ram a blocchi, e la memoria che si ha all’esterno del chip, come la Ddr o la SRam off-chip. Esistono numerose applicazioni che richiedono grandi risorse di elaborazione, le quali necessitano di diversi tipi di memoria. Specialmente se si progettano sistemi più complessi e di grandi dimensioni, esiste una necessità crescente di avere una memoria più veloce su chip. Le Ram a blocchi sono troppo granulari e le risorse disponibili sono insufficienti. E se si aggiunge memoria esterna al chip, questo aumenta i consumi di potenza, complica gli I/O e fa aumentare i costi per distinta materiali. Queste sono le ragioni per cui Xilinx ha messo a punto la tecnologia UltraRam, aggiungendo un altro livello di gerarchia di memoria on-chip, assieme alla capacità di realizzare facilmente grandi blocchi di memoria all’interno del progetto. Ciò fa sì che sia più semplice per i progettisti posizionare la dimensione di memoria più adatta sul chip, garantendo al contempo la corretta temporizzazione . La memoria Lut o la Ram distribuita consente ai progettisti di aggiungere la Ram in tagli da pochi bit a kilobit, e la BRam consente ai progettisti di aggiungere blocchi di decine di megabit. L’UltraRam consentirà a coloro che useranno i dispositivi UltraScale+ di realizzare SRam su chip in blocchi da centinaia di megabit. Facendo ciò, i progettisti saranno in grado di creare sistemi con prestazioni superiori e più efficienti in termini di consumi che richiedono meno risorse di Ram esterne. Di conseguenza, i costi dei componenti risulteranno ridotti. Il dispositivo UltraScale+ di dimensioni maggiori, il componente VU13P, avrà 432 Mbit di UltraRam.

I vantaggi della tecnologia SmartConnect
Un’altra nuova tecnologia, nota come SmartConnect, fornisce ulteriori miglioramenti in termini di rapporto prestazioni/watt ai progetti basati sui dispositivi UltraScale+. SmartConnect è una co-ottimizzazione dei tool e dell’hardware e un modo intelligente di permettere ai progettisti di realizzare in modo più semplice i progetti, anche se questi ultimi stanno diventando più complessi. Tradizionalmente, dato che i progettisti inseriscono sempre più blocchi IP all’interno di un progetto, gli oneri aggiuntivi – in termini di requisiti di potenza e di area – aumentano. Con la tecnologia SmartConnect, Xilinx ha aggiunto ottimizzazioni alla Suite di Progettazione Vivado che considereranno l’intero progetto a livello di sistema. SmartConnect sarà disponibile con le topologie di interconnessione più efficienti per ottenere l’area più piccola e le massime prestazioni, sfruttando alcune nuove migliorie apportate alle interconnessioni AXI unitamente al silicio UltraScale+ da 16 nm. In un progetto reale  caratterizzato da otto unità di elaborazione video, tutte che si interfacciano con un processore e con la memoria, la logica di interconnessione può consumare circa la metà dell’area totale del progetto. Questo non solo impatta sui consumi ma limita anche la frequenza. SmartConnect può ridefinire automaticamente i blocchi di interconnessioni e ridurre i consumi di potenza del 20 per cento a parità di prestazioni.

Fpga UltraScale da 16nm a confronto con le soluzioni precedenti
Per illustrare i vantaggi in termini di rapporto prestazioni/watt in uno scenario di progettazione basata su Fpga, si consideri che un acceleratore hardware Cpri wireless in banda base e di compressione da 48 porte realizzato in un Fpga da 28 nm consuma 56 Watt. Lo stesso progetto realizzato però su un Fpga Virtex UltraScale+ da 16 nm consuma 27W, o il 55 per cento in meno, fornendo un vantaggio in termini di rapporto prestazioni/watt di un fattore 2,1. Con le tecnologie UltraRam e SmartConnect, il vantaggio in termini di prestazioni della versione del progetto basata su un dispositivo Virtex UltraScale+ balza a oltre un fattore 2,7 di miglioramento rispetto ad una realizzazione su Fpga Virtex 7 da 28 nm, con consumi inferiori del 63 per cento. Analogamente, un modulo PCI per l’elaborazione delle immagini con consumi complessivi di 15 W, un dispositivo Virtex 7 da 28 nm fornisce prestazioni pari a 525 operazioni al secondo. Al confronto, lo stesso progetto realizzato in tecnologia UltraScale da 16 nm fornisce 1255 operazioni al secondo, pari ad un aumento del rapporto prestazioni/watt di un fattore 2,4X. Aggiungendo i vantaggi delle tecnologie UltraRam e SmartConnect, il vantaggio in termini di rapporto prestazioni/watt della versione Virtex UltraScale+ passa ad oltre un fattore 3,6 superiore rispetto a quello della realizzazione su Fpga Virtex 7 da 28 nm. Con l’MPSoC UltraScale+ da 16 nm, Xilinx ha migliorato radicalmente le prestazioni fra il sistema di elaborazione e la logica programmabile, fornendo al dispositivo oltre 6000 interconnessioni che operano con una banda di picco di 500 GBps. Questo rende la connessione fra il sistema di elaborazione e il sistema logico dell’MPSoC Zynq UltraScale+ più veloce di un fattore 6 rispetto a quanto non sia possibile con il SoC Zynq da 28 nm. Ciò surclassa nettamente le architetture a due chip costituite da un ASSP e da un Fpga in termini di prestazioni a livello di sistema. Al centro dell’MPSoC Zynq UltraScale+ si trova il processore quad core Arm Cortex A53 da 64 bit, che fornisce prestazioni più che doppie rispetto al sistema di elaborazione dual Cortex A9 del SoC Zynq da 28 nm. Il sistema di elaborazione applicativo supporta la virtualizzazione hardware e l’elaborazione simmetrica, e supporta pienamente la suite TrustZone di Arm di funzionalità per la sicurezza. Xilinx ha anche fornito all’MPSoC Zynq UltraScale+ un sottosistema di elaborazione Arm Cortex R5 dual core, che consente agli utenti di aggiungere il funzionamento deterministico ai propri sistemi. Il processore in tempo reale assicura l’adattabilità istantanea del sistema per applicazioni che richiedono i massimi livelli di velocità, sicurezza e affidabilità. L’MPSoC Zynq UltraScale+ include anche numerose unità grafiche dedicate per assicurare ulteriori vantaggi in termini di prestazioni di elaborazione. L’unità dedicata di accelerazione grafica Arm Mali™ 400MP scarica i compiti ad alto contenuto di elaborazione grafica dalla Cpu centrale. Per complementare la Gpu, Xilinx ha aggiunto un’unità codec video sintetizzata su silicio al blocco di logica programmabile per la compressione/decompressione video che supporta lo standard video H.265 per 8Kx4K (15 fotogrammi al secondo) e 4Kx2K (60 fps). Una sorgente DisplayPort consente agli utenti di accelerare la pacchettizzazione dei dati video, eliminando al contempo la necessità di un chip trasmettitore DisplayPort TX esterno nel proprio sistema. L’MPSoC Zynq UltraScale presenta anche numerose migliorie alla memoria on-chip. I dispositivi di dimensioni maggiori nella famiglia di prodotti includeranno l’UltraRam oltre alla Ram a blocchi nella logica programmabile. Nel frattempo, le unità di elaborazione degli MPSoC Zynq UltraScale+ condividono cache L1 e L2. L’MPSoC presenta anche un’unità di interfaccia Ddr da 72 bit con Ecc (64 bit più 8 bit per l’Ecc). L’interfaccia vanta velocità massime di 2400 Mbps per la Ddr4, con supporto a capacità di DRam da 32 Gbyte con profondità di memoria superiori. Un’unità di sicurezza dedicata sull’MPSoC Zynq UltraScale+ consente di ottenere livelli di sicurezza di classe militare come l’avvio sicuro, la gestione delle chiavi e delle aree riservate, e le funzionalità di anti-manomissione – tutti requisiti standard per la comunicazione macchina-macchina e per le applicazioni di controllo connesso. Inoltre, il sistema di logica programmabile dell’MPSoC Zynq UltraScale+ include anche blocchi integrati per la connettività per i protocolli 150G Interlaken, 100G Ethernet MAC e PCIe Gen4. Un’unità analogica a segnale misto interna aiuta i gruppi di progettazione a collaudare i propri sistemi con System Monitor. Con tutte queste caratteristiche, è improbabile che ogni applicazione userà ogni unità di elaborazione disponibile nell’MPSoC. Di conseguenza, Xilinx ha dotato l’MPSoC Zynq UltraScale+ di un’unità di gestione dell’alimentazione dedicata estremamente flessibile. L’unità consente agli utenti di controllare i domini e le isole di alimentazione (a grana grossolana e fine) per alimentare solo quelle unità di elaborazione che il sistema usa. Per di più, i gruppi di progettazione possono programmare l’unità per il funzionamento dinamico, assicurando che il sistema utilizzi solo le funzionalità richieste per eseguire un dato compito e quindi si spenga. La Pmu gestisce inoltre una moltitudine di funzionalità per la sicurezza e per l’affidabilità quali le rilevazione e la mitigazione del segnale e dell’errore, la modalità in stato sicuro e l’isolamento e la protezione del sistema. Grazie a tutte queste caratteristiche di elaborazione aggiunte alle caratteristiche, in termini di rapporto prestazioni watt, della tecnologia da 16 nm sopra discusse, i progetti realizzati su MPSoC Zynq Ultra- Scale+ beneficeranno di un vantaggio di un fattore 5 in termini di rapporto prestazioni/watt rispetto ai progetti realizzati in un SoC Zynq da 28 nm.
Ad esempio, per creare un sistema di videoconferenza che riproduce video ad una risoluzione piena di 1080p, i progettisti hanno usato un SoC Zynq abbinato ad un ASSP H.264 separato. Con i vantaggi dell’MPSoC Zynq UltraScale+, i progettisti possono ora realizzare un sistema Uhd 4Kx2K in un MPSoC Zynq UltraScale+ con gli stessi consumi complessivi ed ottenere risparmi di un fattore 5 in termini di rapporto prestazioni/watt rispetto al sistema a due chip. In un’applicazione radio per la sicurezza pubblica che richiedeva un SoC Zynq assieme a due Assp, è possibile ora realizzare l’intero progetto in un MPSoC Zynq UltraScale+ con consumi inferiori del 47% e con prestazioni 2,5 volte superiori rispetto alla configurazione precedente, fornendo un vantaggio in termini di prestazioni/watt di un fattore 4,8. Analogamente, un sistema automotive di guida assistita multicamera realizzato precedentemente su due SoC Zynq da 28 nm può ridursi ad un MPSoc Zynq UltraScale+. Il sistema su chip singolo fornisce prestazioni 2,5 volte superiori rispetto al progetto basato su due chip e consuma il 50 per cento in meno di potenza. Questo assicura un vantaggio in termini di prestazioni/watt di un fattore cinque rispetto alla realizzazione precedente.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome