2 petaflops pour le Deep Learning

A l’occasion de sa GPU Technology Conference 2018, Nvidia a présenté la nouvelle version du DGX, son superordinateur DGX-2 clé-en-main dédié au deep learning (voir plus bas un petit historique sur ce sujet).
Le DGX-2 dispose en effet d’une vitesse de calcul de 2 pétaFLOPS, et peut entraîner le réseau de neurones Fairseq de Facebook en 1,5 jour, contre 15 jours pour le DGX premier du nom. Les cartes Tesla V100 passent à 32 GB de RAM. Ce gain de performance a été rendu possible par plusieurs améliorations. D’abord l’augmentation de la mémoire vive présente sur les 16 cartes Tesla V100 que comporte le DGX, qui a doublé en passant de 16 Go à 32 Go de mémoire HBM2. Une mise à jour dont bénéficie également la dernière carte professionnelle Quadro GV100 de Nvidia.

20 fois plus de bande passante qu’en PCIe.
Le changement déterminant est la présence de 12 interconnecteurs NVSwitch, que l’entreprise a également dévoilé pour la première fois durant la conférence. NVSwitch possède une bande passante 20 fois supérieure à celle du standard PCIe utilisé jusqu’ici. Combinés au sein du DGX-2, ces switchs permettent à chacun des 16 GPU d’être connecté aux 15 autres avec une bande passante de 300 Go par seconde. Au total, la bande passante simultanée du système est de 2,4 To par seconde. Cette meilleure interconnexion augmente grandement les capacités du système pour les applications qui dépendent du calcul parallèle comme le deep learning. Lors de la conférence, Jensen Huang a même qualifié (de façon un peu abusive) ce système de « plus grand GPU au monde ». Evidemment, NVSwitch n’est pas réservé qu’au DGX-2 et sera aussi mis à disposition de clients aux besoins plus spécifiques en matière de calcul haute performance.

Les dernières caractéristiques
Pour un prix de 399 000 dollars vous avez à votre disposition 30 To de stockage sur SSD NVME, 1,5 To de mémoire système et deux processeurs Intel Xeon Platinum. Il pèse 160 kg et consomme 10 kilowatts d’électricité. Il sera commercialiser au troisième trimestre 2018.

°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°

L’apprentissage profond c’est quoi ?
Le Deep Learning (ou apprentissage profond) est l’une des principales technologies de Machine Learning et d’intelligence artificielle. Le Deep Learning est dérivée du Machine Learning (apprentissage automatique), il convient donc de comprendre ce qu’est le Machine Learning.

Le concept de Machine Learning date du milieu du 20ème siècle.
Dans les années 1950, le mathématicien britannique Alan Turing imagine une machine capable d’apprendre, une « Learning Machine ». Au cours des décennies suivantes, différentes techniques de Machine Learning ont été développées pour créer des algorithmes capables d’apprendre et de s’améliorer de manière autonome. Parmi ces techniques, on compte les réseaux de neurones artificiels. C’est sur ces algorithmes que reposent le Deep Learning, mais aussi des technologies comme la reconnaissance d’images ou la vision robotique. Les réseaux de neurones artificiels sont inspirés par les neurones du cerveau humain. Ils sont constitués de plusieurs neurones artificiels connectés entre eux. Plus le nombre de neurones est élevé, plus le réseau est « profond ».

Comment cela marche ?
Au sein du cerveau humain, chaque neurone reçoit environ 100 000 signaux électriques des autres neurones. Chaque neurone en activité peut produire un effet excitant ou inhibiteur sur ceux auxquels il est connecté. Au sein d’un réseau artificiel, le principe est similaire. Les signaux voyagent entre les neurones. Toutefois, au lieu d’un signal électrique, le réseau de neurones assigne un certain poids à différents neurones. Un neurone qui reçoit plus de charge exercera plus d’effet sur les neurones adjacents. La couche finale de neurones émet une réponse à ces signaux. Pour comprendre comment fonctionne le Deep Learning, prenons un exemple concret de reconnaissance d’images. Imaginons que le réseau de neurones soit utilisé pour reconnaître les photos qui comportent au moins un chat. Pour pouvoir identifier les chats sur les photos, l’algorithme doit être en mesure de distinguer les différents types de chats, et de reconnaître un chat de manière précise quel que soit l’angle sous lequel il est photographié. Un exemple, afin d’y parvenir, le réseau de neurones doit être entraîné. Pour ce faire, il est nécessaire de compiler un ensemble d’images d’entraînement pour pratiquer le Deep Learning. Cet ensemble va regrouper des milliers de photos de chats différents, mélangés avec des images d’objets qui ne sont pas des chats. Ces images sont ensuite converties en données et transférées sur le réseau. Les neurones artificiels assignent ensuite un poids aux différents éléments. La couche finale de neurones va alors rassembler les différentes informations pour déduire s’il s’agit ou non d’un chat. Le réseau de neurones va ensuite comparer cette réponse aux bonnes réponses indiquées par les humains. Si les réponses correspondent, le réseau garde cette réussite en mémoire et s’en servira plus tard pour reconnaître les chats. Dans le cas contraire, le réseau prend note de son erreur et ajuste le poids placé sur les différents neurones pour corriger son erreur. Le processus est répété des milliers de fois jusqu’à ce que le réseau soit capable de reconnaître un chat sur une photo dans toutes les circonstances. Cette technique d’apprentissage est appelée « supervised learning » ou apprentissage supervisé. Une autre technique d’apprentissage est celle de l’ »unsupervised learning », ou apprentissage non supervisé. Cette technique repose sur des données qui ne sont pas étiquetées. Les réseaux de neurones doivent reconnaître des patterns au sein des ensembles de données pour apprendre par eux-mêmes quels éléments d’une photo peuvent être pertinents.

L’évolution …
Parmi les autres techniques populaires de Machine Learning, on compte l’« adaptative boosting » ou AdaBoost. Cette technique introduite en 2001 par Paul Viola et Michael Jones de Mitsubishi Electric Research Laboratories permet de détecter les visages en temps réel sur une image. Plutôt que de reposer sur un réseau de neurones interconnectés, AdaBoost filtre une image à partir d’un ensemble de décisions simples pour repérer les visages. Cette technique et d’autres ont bien failli faire oublier les réseaux de neurones. Toutefois, grâce à l’explosion du nombre de données étiquetées, les réseaux de neurones sont revenus sur le devant de la scène. En 2007, une base de données regroupant des millions d’images étiquetées en provenance d’internet, ImageNet, a été lancée. Grâce à des services comme Amazon Mechanical Turk, proposant aux utilisateurs deux centimes pour chaque image étiquetée, la base de données a très rapidement été alimentée. Aujourd’hui, ImageNet regroupe 10 millions d’images étiquetées. Les réseaux de neurones Deep Learning ont également évolué et contiennent désormais bien plus de couches différentes. Le deep learning de Google Photos comporte par exemple 30 couches. Une autre évolution massive est celle des réseaux de neurones convolutifs. Ces réseaux ne s’inspirent pas seulement du fonctionnement du cerveau humain, mais aussi du système visuel. Au sein d’un tel réseau, chaque épaisseur applique un filtre sur les images pour identifier des patterns ou des éléments spécifiques. Les premières épaisseurs détectent les principaux attributs, tandis que les dernières épaisseurs repèrent les détails les plus subtils et les organisent en éléments concrets. Ainsi, ces réseaux convolutifs sont en mesure d’identifier des attributs hautement spécifiques, comme la forme des pupilles ou la distance entre le nez et les yeux, afin de reconnaître un chat avec une précision inouïe.

L’utilisation du deep learning
C’est cette technologie qui est utilisée pour la reconnaissance faciale de Facebook par exemple, afin d’identifier automatiquement vos amis sur les photos. C’est également cette technologie qui permet à la reconnaissance faciale Face ID de l’iPhone X d’Apple de s’améliorer au fil du temps. Comme expliqué précédemment, l’apprentissage automatique est également la technologie centrale de la reconnaissance d’images. Pou traduire des conversations orales en temps réel, des logiciels comme Skype ou Google Traduction s’appuient aussi sur l’apprentissage automatique. C’est également grâce au Deep Learning que l’intelligence artificielle Google Deepmind AlphaGo est parvenue à triompher du champion du monde. Depuis quelques années, avec l’apparition des réseaux de neurones convolutifs, le Deep Learning est au cœur de la vision par ordinateur et de la vision robotique. Comme l’explique le professeur Peter Corke, étant donné que le Deep Learning constitué de réseaux de neurones artificiels imitent le fonctionnement du cerveau humain, les possibilités offertes par cette technologie augmenteront à mesure que nous découvrons les secrets de notre propre organe. En comprenant l’algorithme sur lequel repose le cerveau humain, et les moyens que nous a apporté l’évolution au fil du temps pour comprendre les images, l’ingénierie inversée nous permettra de porter le potentiel du cerveau humain sur les réseaux artificiels.

Poster un Commentaire

Veuillez Connexion pour commenter
  S’abonner  
Notifier de