Cray si è vista recapitare con un RMA decisamente costoso le schede madri che compongono il tanto citato supercomputer Titan, del Oak Ridge National Laboratory, assurto agli onori della cronaca per utilizzare le recenti GPGPU di nVidia Tesla K20X.

 

 

Le schede madri sono state rimandate nei laboratori di Seattle, sede di Cray, dopo che Titan aveva mostrato alcuni malfunzionamenti: “Problems with Titan were first discovered in February, when the supercomputer just missed its stability requirement, passing 92 percent of the jobs in a mandatory test of its systems”.

Alla fine si è scoperto, dopo alcuni test, che il problema derivava proprio dalle schede madri: vi è una percentuale eccessiva di oro nel materiale che compone i pin dei connettori dei socket. L'oro, utilizzato perché immunizza le connessioni dall'ossidazione ed aumenta la conducibilità elettrica, in questo caso sta provocando problemi di stabilità: “Munger also reported the problems with the connector pins, which Oak Ridge Today‘s John Huotari noted was due to too much gold mixed in with the solder. Gold is used for connectors because it does not oxidize quickly, and because of its high electrical conductivity; however, when mixed with solder that contains tin, the gold and tin can combine, making the combination brittle (PDF) under certain conditions. Cray is reportedly replacing the connectors to alleviate the problem”.

Cray, quindi, dovrà sostituire tutti i pin dei socket sulle schede madri, e non sarà un lavoro veloce. Sono più di 2 milioni i pin da sostituire. Secondo le ultime notizie le schede madri dovrebbero essere rimontate ai primi di aprile, tra circa tre settimane. Una volta fatto ciò verrà ripetuto il test di stabilità. I dirigenti di Cray sperano che tutto si risolva per il meglio. Un secondo sbaglio di tale portata sarebbe imperdonabile, soprattutto dal punto di vista dell'immagine.