Selon Yann LeCun, référence en la matière, l’apprentissage profond ou deep learning « est une technique d’apprentissage qui permet d’entrainer une machine à accomplir une tâche au lieu de la programmer explicitement (…), il caractérise un réseau de neurones artificiels, dont l’architecture et le fonctionnement sont inspirés de ceux du cerveau. Le cerveau humain est composé de 86 milliards de neurones, des cellules nerveuses connectées les unes aux autres. Les réseaux de neurones artificiels sont, eux aussi composés de nombreuses unités, des fonctions mathématiques assimilables à des neurones très simplifiés.

Dans le cerveau, l’apprentissage modifie les connexions entre les neurones ; il en va de même dans les réseaux de neurones artificiels. Comme ces unités sont souvent organisés en couche multiples, on parle donc de réseaux et d’apprentissage ‘profond’ ».

Le concept de Machine Learning date du milieu du 20ème siècle. Dans les années 1950, le mathématicien britannique Alan Turing imagine une machine capable d’apprendre. Au cours des décennies suivantes, différentes techniques de Machine Learning ont été développées pour créer des algorithmes capables d’apprendre et de s’améliorer de manière autonome.

Parmi ces techniques, on compte les réseaux de neurones artificiels. C’est sur ces algorithmes que repose le Deep Learning, qui regroupe des technologies comme la reconnaissance d’images ou la vision robotique. Les réseaux de neurones artificiels sont inspirés par les neurones du cerveau humain. Ils sont constitués de plusieurs neurones artificiels connectés entre eux. Plus le nombre de neurones est élevé, plus le réseau est « profond ».
Au sein du cerveau humain, chaque neurone reçoit environ 100 000 signaux électriques des autres neurones. Chaque neurone en activité peut produire un effet excitant ou inhibiteur sur ceux auxquels il est connecté. Au sein d’un réseau artificiel, le principe est similaire. Les signaux voyagent entre les neurones.

Toutefois, au lieu d’un signal électrique, le réseau de neurones assigne un certain poids / force de connexion à différents neurones. Un neurone qui reçoit plus de charge exercera plus d’effet sur les neurones adjacents. La couche finale de neurones émet une réponse à ces signaux.

Pour comprendre comment fonctionne le Deep Learning, prenons un exemple concret de reconnaissance d’images. Imaginons que le réseau de neurones soit utilisé pour reconnaître les photos qui comportent au moins un chat. Pour pouvoir identifier les chats sur les photos, l’algorithme doit être en mesure de distinguer les différents types de chats, et de reconnaître un chat de manière précise quel que soit l’angle sous lequel il est photographié.

Afin d’y parvenir, le réseau de neurones doit être entraîné. Pour ce faire, il est nécessaire de compiler un ensemble d’images d’entraînement pour pratiquer le Deep Learning. Cet ensemble va regrouper des milliers de photos de chats différents, mélangés avec des images d’objets qui ne sont pas des chats. Ces images sont ensuite converties en données et transférées sur le réseau. Les neurones artificiels assignent ensuite un poids aux différents éléments. La couche finale de neurones va alors rassembler les différentes informations pour déduire s’il s’agit ou non d’un chat.

deep learning
deep learning 2

Le réseau de neurones va ensuite comparer cette réponse aux bonnes réponses indiquées par les humains. Si les réponses correspondent, le réseau garde cette réussite en mémoire et s’en servira plus tard pour reconnaître les chats. Dans le cas contraire, le réseau prend note de son erreur et ajuste le poids placé sur les différents neurones pour corriger son erreur. Le processus est répété des milliers de fois jusqu’à ce que le réseau soit capable de reconnaître un chat sur une photo dans toutes les circonstances. Cette technique d’apprentissage est appelée « apprentissage supervisé ».

Une autre technique d’apprentissage est celle de l’apprentissage non supervisé. Cette technique repose sur des données qui ne sont pas étiquetées. Les réseaux de neurones doivent reconnaître des patterns au sein des ensembles de données pour apprendre par eux-mêmes quels éléments d’une photo peuvent être pertinents.

Grâce à l’explosion du nombre de données étiquetées ainsi qu’à l’amélioration des performances des ordinateurs, les réseaux de neurones sont revenus sur le devant de la scène. En 2007, une base de données regroupant des millions d’images étiquetées en provenance d’Internet, ImageNet, a été lancée. Grâce à des services comme Amazon Mechanical Turk, proposant aux utilisateurs deux centimes pour chaque image étiquetée, la base de données a très rapidement été alimentée. Aujourd’hui, ImageNet regroupe 10 millions d’images étiquetées.

Les réseaux de neurones d’apprentissage profond ont également évolué et contiennent désormais bien plus de couches différentes. Le deep learning de Google Photos comporte par exemple 30 couches. Une autre évolution massive est celle des réseaux de neurones convolutives. Ces réseaux ne s’inspirent pas seulement du fonctionnement du cerveau humain, mais aussi du système visuel.

Au sein d’un tel réseau, chaque épaisseur applique un filtre sur les images pour identifier des patterns ou des éléments spécifiques. Les premières épaisseurs détectent les principaux attributs, tandis que les dernières épaisseurs repèrent les détails les plus subtils et les organisent en éléments concrets. Ainsi, ces réseaux convolutifs sont en mesure d’identifier des attributs hautement spécifiques, comme la forme des pupilles ou la distance entre le nez et les yeux, afin de reconnaître un chat avec une précision inouïe.

Le Deep Learning a de nombreuses utilités. C’est cette technologie qui est utilisée pour la reconnaissance faciale de Facebook par exemple, afin d’identifier automatiquement vos amis sur les photos. Comme expliqué précédemment, l’apprentissage automatique est également la technologie centrale de la reconnaissance d’images.

Pour traduire des conversations orales en temps réel, des logiciels comme Skype ou Google Traduction s’appuient aussi sur l’apprentissage automatique.

C’est également grâce à cette technologie que l’intelligence artificielle Google Deepmind AlphaGo est parvenue à triompher du champion du monde. Depuis quelques années, avec l’apparition des réseaux de neurones convolutifs, le Deep Learning est au cœur de la vision par ordinateur et de la vision robotique.