Perceptron à multicouches de conneries
"Le Perceptron, le début d’une intelligence artificielle.
Les capacités d’apprentissage du cerveau humain sont fascinantes. Avec les capacités calculatoires promises par l’informatique et dans l’objectif d’imiter le cerveau humain, la théorie des réseaux de neurones a commencé à poindre au milieu du XXème siècle, notamment avec l’introduction du perceptron en 1957 par Franck Rosenblatt.
Neurone formel
On estime que le cerveau humain contient entre un et cent milliards de neurones. Chaque neurone est connecté en moyenne à 10.000 autres par le biais de synapses. Les stimulations synaptiques perçues par un neurone peuvent activer celui-ci qui transmet alors un signal électrique aux neurones suivants ou à d’autres cellules.
Le perceptron a pour objectif d’imiter la stimulation d’un neurone (sortie) par des neurones voisins (entrée). Dans un premier temps, nous allons considérer des neurones binaires : un neurone a la valeur 1 s’il est actif et la valeur 0 sinon. L’état du neurone de sortie correspond à la réponse du perceptron tandis que les p neurones d’entrée déterminent la variable fonctionnelle sur laquelle opère le perceptron. Le perceptron apparaît alors comme une fonction……
Nous définissons l’erreur globale du perceptron comme étant la moyenne des erreurs locales commises sur les exemples de la base d’apprentissage. L ’enjeu est désormais de minimiser cette erreur globale en déterminant des poids synaptiques adaptés. L’algorithme de descente de gradient (voir encadré) est un outil adapté au problème de minimisation. Cependant, pour le mettre en place, il convient que la fonction à minimiser soit de classe C1 .
Pour l’instant, l’erreur globale n’est pas une fonction de classe C1 en les poids synaptiques à cause de l’irrégularité de la fonction de Heaviside précédemment introduite. Pour palier à ce défaut, nous n’allons plus supposer binaire le neurone de sortie mais nous allons l’autoriser à prendre des valeurs comprises entre 0 et 1 ; cela permettra éventuellement d’interpréter comme une probabilité la réponse du perceptron....
L’algorithme de descente de gradient est adapté à la minimisation de l’erreur produite par un tel réseau. Notamment, il s’interprète comme une rétropropagation de l’erreur en sortie en erreurs partielles commises par les neurones activés à la couche précédente.
En pratique, pour concevoir un réseau de neurones, on réfléchit préalablement à son architecture en fonction de l’action que l’on veut voir réalisée. On procède ensuite à son apprentissage ce qui est une étape longue comte tenu de la lenteur des algorithmes en jeux. Cependant, une fois calibré, la réponse d’un réseau de neurone est quasi immédiate et celui-ci peut être facilement reproduit.
De nos jours les réseaux de neurones se rencontrent notamment dans les domaines suivants :
– la reconnaissance optique de caractère, par exemple le tri du courrier en fonction du code postal,
– la prédiction bancaire : à partir de l’expérience de leurs précédents clients, les banques ont calibré un réseau de neurones qui quantifie le risque commis lors d’un accord de prêt."
Ils l'ont dit, ils l'ont fait et nous on est dans la merde, c'est la crise…
Et ces algorythmes sont utilisés dans tous les domaines prometteurs de recherche, notamment en linguistique informatique pour la traduction automatique de texte, cela a-t-il servi aux Grecs récemment?
Christian Hivert Le Libonés Le 28 juillet 2011