Aug 08, 2023
Notre habitude en matière d'IA change déjà la façon dont nous construisons des centres de données • The Register
Analyse La course folle pour sécuriser et déployer l'infrastructure d'IA oblige les opérateurs de centres de données à réévaluer la façon dont ils construisent et gèrent leurs installations. Dans votre centre de données typique, l'air froid est aspiré
Analyse La course folle pour sécuriser et déployer l'infrastructure d'IA oblige les opérateurs de centres de données à réévaluer la façon dont ils construisent et gèrent leurs installations.
Dans votre centre de données typique, l'air froid est aspiré à travers un rack rempli de systèmes de calcul, de réseau et de stockage. A l'arrière, l'air chauffé est ensuite capté et éjecté par l'infrastructure de refroidissement de l'installation.
Ce paradigme fonctionne très bien pour les racks de 6 à 10 kW, mais commence à s'effondrer lorsque vous commencez à déployer les types de systèmes utilisés pour former des modèles d'IA comme GPT-4. Les nœuds GPU modernes peuvent facilement consommer l’énergie d’un rack entier. Et cela oblige les opérateurs de centres de données à apporter de sérieuses modifications à leur conception.
Tesla semble être le dernier à s’en rendre compte. Comme nous l'avons signalé plus tôt cette semaine, le constructeur américain de véhicules électriques recherche des personnes pour l'aider à construire « les premiers centres de données de ce type ».
Dans une offre d'emploi récente, la société a déclaré qu'elle recherchait un responsable principal du programme d'ingénierie pour les centres de données, qui "dirigera la conception et l'ingénierie de bout en bout des premiers centres de données de Tesla de ce type et sera l'un des membres clés de son équipe d'ingénierie.
Cette personne serait également chargée de superviser la construction d'un nouveau centre de données. Cela suggère que cela n'a peut-être aucun rapport avec les rapports de The Information affirmant que Tesla a récemment repris un bail de centre de données à Sacramento abandonné par Twitter suite à l'acquisition du réseau social par le PDG Elon Musk.
Bien que l'on ne sache pas exactement ce que l'entreprise entend par "centres de données les premiers en son genre" - nous avons demandé à Tesla et nous n'avons pas encore reçu de réponse - cela pourrait avoir quelque chose à voir avec l'accélérateur personnalisé Dojo AI qu'elle a présenté à Hot Chips l'année dernière. .
L’entreprise prévoit d’investir plus d’un milliard de dollars dans ce projet d’ici la fin 2024 pour accélérer le développement de son logiciel de conduite autonome. S'exprimant en juillet, Musk a révélé que le système complet pourrait dépasser 100 exaFLOPS, ce que nous présumons être les performances du BF16.
Cela signifie que Tesla va devoir trouver un endroit capable d’héberger la chose, et quelqu’un pour garder les lumières allumées et tous ces points flottants. Et d’après ce que nous savons de l’accélérateur Dojo, concevoir et gérer une installation capable de fournir une alimentation et un refroidissement adéquats pour faire fonctionner l’accélérateur d’IA pourrait être un peu un cauchemar.
Dojo est un supercalculateur composable, entièrement développé en interne par Tesla. Tout, du calcul à la mise en réseau, en passant par les E/S, l'architecture du jeu d'instructions, l'alimentation électrique, le conditionnement et le refroidissement, a été conçu sur mesure dans le but exprès d'accélérer les algorithmes d'apprentissage automatique de Tesla.
L’élément de base de ce système est le chiplet D1 de Tesla. Vingt-cinq d'entre eux sont regroupés à l'aide de la technologie système sur plaquette de TSMC dans la vignette Dojo Training. Au total, le système d'un demi-pied cube dispose de 11 Go de SRAM, de 9 To/s de connectivité tissulaire et peut gérer 9 pétaFLOPS de performances BF16. Vous pouvez trouver une description complète de l’énorme accélérateur d’IA sur notre site frère, The Next Platform.
Bien sûr, regrouper toutes ces performances dans un format aussi compact présente des défis uniques, comme comment alimenter et refroidir un seul accélérateur de 15 kW, sans parler des six d'entre eux qui composent le système 1 exaFLOPS Dojo V1. Et ce ne sont que les accélérateurs. Vous devez également alimenter et refroidir tous les systèmes de support utilisés pour alimenter et coordonner le flux de données via les accélérateurs.
Il y a ensuite la question du maillage à haut débit, qui pourrait s'avérer prohibitif en termes de déploiement de ces tuiles. À ces vitesses, plus vous pouvez les tasser près, mieux c'est, mais aussi plus la charge thermique sera importante. En tant que tel, il ne serait pas surprenant que Tesla abandonne complètement l’idée d’utiliser des racks traditionnels au profit de quelque chose de complètement unique.
Cet humble vautour aimerait personnellement voir un retour aux conceptions sauvages et farfelues de supercalcul d’antan. Les superordinateurs étaient autrefois étranges et amusants. Vous ne me croyez pas ? Recherchez simplement le CM-1 ou le Cray-2 de Thinking Machine. C'étaient de belles machines.