Les Processeurs graphiques (GPU) et clusters de calcul spécialement conçus pour exécuter efficacement des travaux informatiques orientés vers l’IA. Actuellement, la société américaine NVIDIA se situe à la pointe de cette technologie.

Les plateformes physiques spécialisées sont le futur du machine learning, deep learning ou autres technologies d’intelligence artificielle. Et ce, dans chaque secteur et pour n’importe quelle tâche dans le monde numérique dans lequel nous allons vivre.
L’évolution rapide de l’intelligence artificielle est en train de faire exploser le nombre d’accélérateurs matériels destinés à l’apprentissage machine et au deep learning. Les puces d’accélération d’intelligence artificielle (IA) sont en ébullition. Ces puces visent à accélérer les modèles à base de réseaux de neurones qui animent les multiples applications de l’IA : assistants vocaux, reconnaissance d’image, moteurs de recommandation… À chaque requête, un modèle de deep learning pré-entraîné tourne dans le cloud pour donner une réponse, opération appelée inférence. Certains de ces algorithmes sont exécutés plusieurs dizaines de milliards de fois par jour. Une quantité faramineuse de calculs à réaliser à toute vitesse et sans faire exploser la consommation énergétique.

Or le deep learning nécessite des calculs spécifiques. Il s’agit essentiellement de multiplications de grandes matrices, qui se décomposent en une multitude d’opérations arithmétiques indépendantes. Le microprocesseur classique (CPU), utilisé dans les ordinateurs, au fonctionnement séquentiel, permet de faire tourner l’ensemble des algorithmes, mais n’est pas très efficace pour chacun d’entre eux. Les processeurs graphiques (GPU), à l’origine développés pour améliorer la qualité d’image des jeux vidéo, se sont avérés bien plus performants pour le deep learning. Leur architecture les dédie à la réalisation de multiples calculs en parallèle, alors que les CPU les exécutent un par un. Désormais, les GPU sont le moteur de l’essor du deep learning, et par la même occasion de Nvidia, le géant américain des cartes graphiques optimisées pour l’IA.

Pour autant, les architectures d’accélérateurs matériels IA innovantes continuent de s’étendre. Il serait faux de penser que les unités de traitement graphique (GPU) sont l’architecture unique. Au cours des dernières années, les start-ups et les fournisseurs de puces ont introduit une nouvelle génération d’architectures matérielles optimisées pour le deep learning, le traitement du langage naturel et d’autres technologies IA.
Parmi les nouvelles architectures de « chipsets » (puces) optimisées par intelligence artificielle, citons les unités de traitement de réseau neuronal (NNPU), les FPGA (Field Programmable Gate Arrays), les circuits intégrés spécifiques aux applications (« Application Specific Integrated Circuit » ou ASIC) et diverses approches connexes regroupées sous le nom d’architectures neurosynaptiques. Ces nouvelles architectures de puces accélératrices d’intelligence artificielle sont adaptées à des rôles très spécifiques dans l’écosystème IA naissant.

 

IA écran

Les FPGA sont des circuits intégrés composés d’un réseau de cellules librement connectables, et les ASIC sont, quant à eux, des circuits intégrés à application spécifique, sont des technologies spécialisées, donc plus rapides que les CPU et les GPU pour la tâche pour laquelle ils sont conçus, et moins consommatrices en énergie.
Les FPGA peuvent être reprogrammées, dans une certaine mesure, afin d’implémenter directement sur le silicium la fonctionnalité désirée au lieu d’exécuter une application logicielle. L’ASIC va plus loin : l’architecture est définitive et offre une efficacité maximale pour les calculs visés, mais pas de flexibilité dans la tâche à accomplir.

Des architectures complexes, comportant nombre de CPU, GPU, FPGA et ASIC sont utilisées en robotique. Elles permettent de gérer des dizaines d’algorithmes pour aider les robots à détecter les environnements de manière autonome, à répondre efficacement et à travailler en toute sécurité avec des ingénieurs humains.

Les accélérateurs d’intelligence artificielle commencent à pénétrer chaque niveau dans les architectures distribuées de calcul haute performance, de serveur hyperconvergé et de stockage dans le cloud. Le flux d’innovations est régulier sur tous ces segments pour supporter un traitement toujours plus rapide, efficace et précis de l’IA. Ces environnements applicatifs distincts vont accélérer des tâches spécifiques. Une architecture de puce IA va se concentrer sur l’apprentissage automatique, un autre sur le deep learning, le traitement du langage naturel, etc. Elles impliquent aussi différents niveaux d’autonomie et d’interactivité.

Performance, prix, efficacité énergétique… sont des critères essentiels de compétitivité.
Chaque innovation matérielle d’accélération d’IA doit pouvoir être résistante et puissante. Dans les métriques opérationnelles, chaque « chipset » doit se conformer à des contraintes en termes de facteurs de forme, d’efficacité énergétique, d’émissions de chaleur et électromagnétique et de robustesse. Point de vue économique, il doit être compétitif en termes de performances et de coût de possession pour les différents tiers et les tâches pour lesquels il est déployé. Les références comparatives de l’industrie vont devenir un facteur clé pour déterminer si une technologie d’accélérateur d’IA a le bon équilibre prix-performance pour survivre sur ce marché hautement concurrentiel.
Les accélérateurs d’IA sont loin d’être une monoculture. Au-delà des principaux fabricants de « chipsets IA », tels que Nvidia et Intel, les ASIC et FPGA pour les charges de travail spécifiques à une plateforme abondent.

Il est quasiment certain que d’autres scénarios d’intelligence artificielle « à la marge » émergeront bientôt. Ils nécessiteront leurs propres puces, plateformes matérielles et comparateurs. Le prochain grand segment de croissance des « chipsets IA » pourrait être l’accélération des nœuds périphériques pour l’extraction de crypto monnaies.

Ces nouvelles générations de puces promettent de belles accélérations, mais se heurtent à une limite : l’accès à la mémoire. En effet, les réseaux de neurones actuels nécessitent de stocker une centaine de millions de paramètres en mémoire. L’accès à cette mémoire devient un goulot d’étranglement pour les solutions de parallélisme. Sans compter l’effroyable consommation énergétique associée à ces longs allers-retours électroniques entre stockage et traitement de l’information. L’enjeu principal est alors le rapprochement physique de la mémoire et du cœur de calcul pour que la puce ait accès à l’information plus vite et en consommant moins d’énergie.
De nombreuses recherches sont menées autour d’architectures et de composants dits « near memory processing » (calcul près de la mémoire), voire « in memory processing » (calcul dans la mémoire). Certaines puces dites neuromorphiques visent à s’approcher du cerveau humain, où calcul et mémoire sont confondus dans le couple synapse-neurone. Pour l’IA version deep learning, la meilleure puce serait le cerveau humain.