Apprenez des langues naturellement grâce à des contenus frais et authentiques !

Appuyez pour traduire - enregistrement

Explorer par région

flag Le logiciel TorchPass de Clockwork.io prévient les accidents d'entraînement à l'IA en permettant la migration GPU en direct, en économisant des millions de personnes chaque année dans de grands groupes d'IA.

flag Clockwork.io a lancé TorchPass, une solution logicielle qui permet la migration GPU en direct et la tolérance aux défauts dans de grands groupes d'entraînement AI, empêchant les redémarrages coûteux lors de pannes matérielles, de problèmes de réseau ou de bogues de pilotes. flag Le système maintient la continuité de la formation sans contrôle, supporte les pannes réactives, proactives et basées sur la maintenance, et peut économiser plus de 6 millions de dollars par année dans un système de 2 048 GPU. flag À mesure que les taux de défaillance augmentent dans les grappes massives – le temps moyen de chute à la défaillance à seulement 1,8 heures dans un système 16 384 GPU – TorchPass améliore la fiabilité, l'utilisation des GPU et l'efficacité de la formation des modèles. flag Les premiers adoptants signalent une amélioration du débit, de la résilience et de la performance des accords de service, offrant une solution logicielle à un obstacle majeur aux coûts dans l'infrastructure de l'IA.

9 Articles