Apprenez des langues naturellement grâce à des contenus frais et authentiques !

Sujets populaires
Explorer par région
Le logiciel TorchPass de Clockwork.io prévient les accidents d'entraînement à l'IA en permettant la migration GPU en direct, en économisant des millions de personnes chaque année dans de grands groupes d'IA.
Clockwork.io a lancé TorchPass, une solution logicielle qui permet la migration GPU en direct et la tolérance aux défauts dans de grands groupes d'entraînement AI, empêchant les redémarrages coûteux lors de pannes matérielles, de problèmes de réseau ou de bogues de pilotes.
Le système maintient la continuité de la formation sans contrôle, supporte les pannes réactives, proactives et basées sur la maintenance, et peut économiser plus de 6 millions de dollars par année dans un système de 2 048 GPU.
À mesure que les taux de défaillance augmentent dans les grappes massives – le temps moyen de chute à la défaillance à seulement 1,8 heures dans un système 16 384 GPU – TorchPass améliore la fiabilité, l'utilisation des GPU et l'efficacité de la formation des modèles.
Les premiers adoptants signalent une amélioration du débit, de la résilience et de la performance des accords de service, offrant une solution logicielle à un obstacle majeur aux coûts dans l'infrastructure de l'IA.
Clockwork.io's TorchPass software prevents AI training crashes by enabling live GPU migration, saving millions annually in large AI clusters.