
INTRODUZIONE
CRAY X1 è finalmente arrivato. Di cosa stiamo parlando?
ma del più potente supercomputer esistente, capace nella
configurazione massima di oltre 50 TeraFLOPS, ossia 50 mila miliardi
di operazioni floating point al secondo. X1 rappresenta anche
la rivincita della tecnologia americana su quella giapponese che
con i 35TFLOPS del progetto NEC EarthSimulator aveva strappato
la leadership di settore a chi in pratica la deteneva da sempre.
Ma procediamo con ordine...
ANTEFATTO
Il settore dei SuperComputer
ha da sempre rappresentato il fiore all'occhiello della tecnologia
americana. Non dimentichiamoci che stiamo parlando della patria
dei primi grandi computer come l'ENIAC o dei primi microprocessori
come il 4004 di Intel, è quindi facilmente comprensibile come
l'avere la supremazia in questo settore sia segno di potenza economica
(non di rado i progetti costano centinaia di milioni di dollari),
tecnica e anche militare (spesso i supercomputer vengono usati
per simulare esplosioni nucleari, scenari di guerra etc...).
Gli USA hanno sempre avuto questa supremazia per cui, possiamo
dire, negli ultimi anni si sono adagiati sugli allori in questo
campo, limitando i fondi destinati alla costruzione di supercomputer
ed abbracciando la filosofia dei sistemi aggregati tipo cluster
che hanno costi ridotti ma anche prestazioni mediamente inferiori
ai più costosi sistemi custom vettoriali.
Azienda leader e simbolo dei supercomputer è Cray, fondata
da quel geniaccio di Seymor Cray e portata alla fama internazionale
per la potenza assoluta dei suoi modelli e per le soluzioni avveniristiche
nel campo del vector processing, delle interconnessioni, e delle
tecniche di raffreddamento (abbiamo
parlato di CRAY e del suo eccentrico fondatore in questo passato
numero di TDS). Altra azienda famosa per la potenza dei
suoi computer è IBM che fino all'inizio del 2002 deteneva il record
di potenza di picco con il suo ASCI White, un super computer
a cluster costituito da 8192 processori per un totale di 7 TFLOPS
di potenza di picco.
Ebbene questi due mostri sacri sono stati, sempre all'inizio
dell'anno, spazzati via dal progetto EarthSimulator di NEC che
tornando alla 'vecchia' tecnologia dei processori custom vettoriali
è riuscito a sfornare ben 35 TFLOPS con 'soli' 5104 processori,
ben 7 volte di più del precedente record di IBM!. Con l'avvento
di EarthSimulator gli USA hanno perso quindi la leadership nel
settore strategico dei supercomputer e questo smacco ha generato
un'ondata di orgoglio nazionale talmente potente da ridare impulso
e linfa vitale ad un settore che stava altrimenti diventando stagnante.
Con X1 la supremazia tecnologica torna in mano agli Stati
Uniti e alla Cray Inc. Non solo, X1 ha anche il più potente
processore mai creato, la più veloce rete di interconnessione
e la più avanzata tecnologia di raffreddamento.
La serie di super-computer X1 vuole inoltre tracciare un percorso
che porterà la società al raggiungimento della potenza
di calcolo di un PetaFlops (un milione di miliardi di FLOPS) entro
il 2010!
UNA FILOSOFIA IBRIDA
X1 rappresenta la nuova generazione
di supercomputer Cray basati su un approccio misto Vettoriale
- Massive Parallel Processing. Negli ultimi due decenni CRAY è
diventato sinonimo di supercomputer vettoriali realizzati con
relativamente pochi ma potentissimi processori vettoriali custom
progettati dalla stessa società. L'idea originale di super
computer nata da Seymor Cray è proprio quella basata sulla
tecnologia del computing vettoriale. Oltre alla elevata potenza
di calcolo, il super computer ha però sempre bisogno di
sofisticatissime tecnologie di interconnessione altrimenti si
rischia di avere una elevatissima potenza di picco scarsamente
sfruttabile nella realtà. Esempi di super computer vettoriali
sono il C90, il T90 e l'SV1.
Più recentemente, per
realizzare prodotti dal costo minore, CRAY ha abbracciato anche
la creazione di sistemi MPP (Massive Parallel Processing) che
utilizzando centinaia o più spesso migliaia di processori
commerciali (la serie T3D e T3E utilizza processori Alpha). Questi
sistemi sono sempre dotati di potenti e complesse interconnesioni.
Alla CRAY ci tengono a prendere le distanze dalla moda
dei super computer Cluster. Questi non sono altro che un enorme
agglomerato di normali computer collegati tra loro. L'assenza
di una forma di interconnesione efficace rende questi economici
sistemi molto inefficienti e quindi profondamnete diversi dai
sistemi MPP. A detta di Cray non è raro sperimentare rendimenti
di sistemi Cluster nell'ordine del 2-3% contro un rendimento tipico
del nuovo X1 intorno al 50%.
X1 coniuga il vector processing (usa infatti il più
potente processore vettoriale esistente al mondo come "mattone"
di base) con le tecniche di interconnessione e la configurazione
tipica dei sistemi MPP. Si riesce così
a combinare l'elevata banda e potenza specifica dei Vector computer
con la scalabilità degli MPP.
L'unità principale di elaborazione è l' MSP
(MultiStreamProcessor), un processore capace di 12.8 Gflops
di picco a doppia precisione e 25.6 Gflops a singola precisione,
oltre a 3.2 GOPS (miliardi di operazioni generiche al secondo)
a 32/64bit. Il processore sfrutta un nuovo ISA parzialmente compatibile
MIPS ma aggiunge potenti pipeline vettoriali portando avanti l'architettura
multi-streaming dell' SV1.
Come in ogni supercomputer che si rispetti, l'aspetto banda
è di fondamentale importanza. Il sistema è organizzato
in nodi di 4 processori con un totale di 16 canali di memoria
e una banda locale complessiva di 200 GB/s. I nodi vengono connessi
l'uno all'altro tramite una architettura a hyper-toroide che usa
non meno di 16 canali indipendenti per un accessibilità
punto punto da 25 GB/s. Nelle massime configurazioni X1 arriva
a 4 TB/s di banda globale aggregata.
Nella figura che segue viene messa in evidenza la potenza
del processore usato da X1 in confronto ai concorrenti. NEC e
IBM usano processori vettoriali custom mentre gli altri usano
processori commerciali.
In questa figura notiamo invece
l'eccellente lavoro svolto dai progettisti della CRAY sul fronte
interconnessioni. La disponibilità di banda locale e globale
di X1 è eccezionale e spazza via qualsiasi sistema concorrente,
specialmente i sistemi CLUSTER.

Riassumiamo i dati di targa
del supercomputer:
- Scalabile da 4 a 4000 processori.
- Processori da 12.8/25.6 peak GFLOPS con 4 unità scalari,
8 vettoriali, 2MB di cache.
- Banda verso la cache: 76 GB/s (50 GB/s for loads and 26 GB/s
for stores)
- Peak bandwidth to local main memory: 51 GB/s per processore
(38 GB/s sustained)
- Global interconnect main memory bandwidth: 102 GB/s per four
processor/memory node board
- I/O bandwidth is 4.8 GB/s per 4-processor node board and up
to 75 GB/s per cabinet
- Up to one I/O channel per processor. Each I/O channel is 1.2
GB/s full duplex, and is globally accessible by all processors
in the machine
- The latency: microsecond range in the largest configurations.
- Up to 819GFLOPS per cabinet
IL PROCESSORE PIU' VELOCE AL MONDO
Il mattone fondamentale sul
quale è costruito X1 è il processore MSP (Multi
Stream Processor). Come potete vedere in figura, si tratta
di un componente molto complesso costituito da 4 unità
scalari compatibili MIPS ciascuna dotata di una coppia di pipeline
vettoriali. Ciascun core scalare può eseguire due istruzioni
per colpo di clock ed è dotato delle propia L1 cache ed
ha funzioni di controllo. Ogni nucleo scalare funziona a 400MHz
con pipeline a bassissima latenza per complessivi 3.2Gop/s.
Le unità vettoriali sono complessivamente 8 e ciascuna
è capace di elaborare 2 FLOPS a doppia previsione o 4 a
singola precisione. Le unità vettoriali funzionano a 800MHz
e forniscono una potenza di picco di 12.5GFLOP o 25.6GFLOPS. l'
MSP contiene anche 4 cache interleaved 2 Way associative per complessivi
2MB di cache.
La configurazione con cross-bar permette accessi simultanei
e banda aggregata di ben 75GB/s. Verso la memoria esterna la cache
accede a 38GB/s sustained e sulla rete di interconnessione tra
nodi si raggiungono i 25GB/s.
L' MSP è costituito da più die di silicio
impacchettati in un multi-chip module (MCM) dotato di ben 83-strati
di vetro-ceramica!. Sull'MCM ci sono 34,000 fili di interconnessione
e ben 3,800 segnali escono dal modulo.
La dissipazione del calore prodotto dal procesore è
affidata al sistema "Fluorinert direct impingement evaporative
cooling".
In pratica ogni chip ha un ugello puntato sulla superficie
superiore che periodicamente spruzza un liquido inerte sul chip.
Questo evapora assorbendo il calore e si trasforma in un gas il
quale viene rimosso e fatto condensare su appositi scambiatori
di calore. Il sistema è a ciclo chiuso ed è estremamete
efficace. Alla Cray hanno grande esperienza con il Fluorinert
Heat Removal. Sul T90, ci sono intere board immerse nel Fluorinert.

Grazie alla elevata potenza
specifica e al sistema di raffreddamento, X1 permette di ottenere
una elevata densità di potenza per superficie occupata
dai cabinet e anche un consumo relativamente basso.
IL NODO
X1 è costituito da
nodi, ciascuno definito da un board contenente 4 MSP e velocissima
memoria locale. Attualmente ogni nodo contiene 16 GB di memoria
RAMBUS ma si pensa già ad espandere il quantitativo a 64GB
per nodo. Le memoria è divisa in 16 banchi con altrettanti
canali rambus e un crossbar permette un accesso simultaneo da
parte dei sedici banchi di cache dei processori (4 per ciascuno
dei 4 MSP). Particolari connessioni cross-bar collegano i vari
nodi tra loro mentre altre veloci connessioni basate su Fibre
ottiche multiple connettono aggregati di nodi ad altri aggregati.
L'accesso alla memoria del nodo avviene a 38GB sustained per ciascuno
dei 4 processori .

IL CABINET
X1 può essere composto
da Cabinet raffreddati ad aria o a liquido (ci riferiamo comunque
al raffreddamento del Fluorinert). Il cabinet ad aria può
contenere fino a 4 nodi mentre quello a liquido permette di addensare
16 nodi. In questa ultima configurazione il cabinet ospita 64
MPS, ossia 256 core e sviluppa una potenza di calcolo di 819 GFLOPS.
Un valore altissimo se si pensa che l'EarthSimulator richiede
ben 13 cabinet per la stessa potenza!
INFINE DUE PAROLE SUL PREZZO!
Le note dolenti come sempre
sono quelle relative ai prezzi. Non crederete mica che un cabinet
che produce una potenza di calcolo di 800GFLOPS, che richiede
una piscina di acqua fredda per il raffreddamento e che consuma
70KW costi poco? Il prezzo minimo per un cabinet con 4 nodi è
di circa 2.5 Milioni di dollari. La configurazione massima, capace
di 50TFLOPS, costa nell'ordine dei 300-400 milioni di dollari
e consuma oltre 4MegaWatt ! Che dire, al costo di un super computer
del genere, dovremmo aggiungerci anche quello della centrale elettrica
necessaria per alimentarlo...
Per
discutere di questa e di altre tecnologie , iscrivetevi al FORUM
di Lithium.it.
Per essere avvertiti di nuovi articoli iscrivetevi alla
NEWSLETTER
di Lithium.it
Alla
prossima puntata,
Stay on charge, Lithium.it !