Nous allons comparer la performance des différents algorithmes (GD, LM,
LM1, LM2 et AM-LM) pour un RNN. Pour les deux problèmes définis
précédemment, nous examinons la période de convergence et le nombre
d'itérations requises pour atteindre une certaine valeur fixe de
MSE. Les algorithmes ont été considérés convergeant si le MSE est de
(resp.
) pour le premiers
(resp. le deuxième) problème. Pour l'algorithme GD, nous avons fixé
à 0,1. Pour l'algorithme LM, nous avons fixé à 2 et la
valeur initiale de à 0,1. Pour l'algorithme AM-LM, les valeurs de
et sont fixées à 0,90 et à 0,5 respectivement. Nous
montrons dans l'ensemble des figures 19
et 20 la variation du MSE en fonction du
nombre d'itérations et du temps de convergence pour les premier et deuxième problèmes.
Figure:
Les performances des algorithmes GD, LM, LM2 et AM-AM d'apprentissage du premier problème.
[GD]
[LM]
[LM2]
[AM-LM]
Sur les figures 19(a) et 19(b), nous pouvons voir
que LM surpasse considérablement GD. Ce dernier prend 20,01s en
112 itérations contre 1,2s en 9 itérations pour LM, pour atteindre le
même niveau d'erreur ; ainsi, LM converge 8 fois plus vite. Pour le deuxième
problème, GD prend 38s en 270 itérations contre 0,87s en 7 itérations
pour LM. Dans ce problème, LM est 43 fois plus rapide que GD.
Maintenir les poids positifs dégrade la performance des algorithmes. On
constate ceci à la lecture des figures 19(b),
et 19(c) pour le premier problème, et des
figures 20(b), 20(c), et 20(d) pour le
deuxième problème. Comme nous pouvons le voir, LM s'exécute mieux que LM1
et LM2. Nous pouvons également voir que LM1 s'exécute mieux que LM2. Pour
le premier problème, LM1 ne converge pas. C'est parce que la plupart des
poids sont mis à zéro et par conséquent la matrice hessienne devient
singulière. Cependant, en général, LM et LM2 exécutent mieux que
GD. Par conséquent, nous pouvons conclure que la contrainte de
positivité sur les poids ne devrait pas être employée car elle dégrade trop la performance des algorithmes d'apprentissage.
Dans la figure 19(d), nous constatons qu'AM-LM surpasse tous
les autres algorithmes d'apprentissage. Cet algorithme est environ 3
fois plus rapide que LM et 52 fois plus rapide que GD pour le premier problème. Nous pouvons aussi voir que dans trois itérations, il a convergé à contre
pour les autres algorithmes d'apprentissage pour le premier problème. Nous verrons après, pour le premier problème, que LM peut converger dans seulement 2 itérations et prendre seulement 0,22s. D'ailleurs, l'AM-LM peut converger dans seulement une itération et prendre 0,14s. Dans certains cas, les deux algorithmes peuvent atteindre une erreur pratiquement nulle.
Le problème de XOR est résolu par l'algorithme AM-LM. Selon
l'initialisation des poids, la convergence nécessite une à huit
itérations. Dans certains cas, il converge vers un niveau d'erreur quasiment zéro. La
méthode du gradient (GD) prend 2140 itérations pour atteindre un MSE de
[87].
Figure:
Les performances des algorithmes GD, LM, LM1, et LM2
d'apprentissage du deuxième problème.