next up previous contents index
Next: Performance d'autres mesures de Up: La mesure de la Previous: Une base de données   Contents   Index


Évaluation de la qualité de la parole par le RN

Figure: La corrélation entre les valeurs réelles et prévues de MOS (langage arabe).
[BD d'apprentissage] \fbox{\includegraphics[width=.42\textwidth]{Speech/Arabic-Training-Scatter.eps}} [BD de teste] \fbox{\includegraphics[width=.42\textwidth]{Speech/Arabic-Testing-Scatter.eps}}

On utilise un RN de type feedforward à trois couches pour chaque ensemble d'échantillons (chaque langue) se composant de 4 entrées (les paramètres) dans la couche d'entrée, 5 neurones cachés, et un neurone de sortie (la mesure de qualité). Nous avons entraîné chaque RN en utilisant les 80 premiers échantillons des bases de données montrées dans le tableau 5.2 dans les cas des langues arabe et espagnole et 50 échantillons dans le cas de la langue française. Les échantillons restants ont été employés pour examiner les RN. En comparant les valeurs réelles de la qualité avec celles évaluées par les RN, nous les montrons dans les figures 5.45.5 et 5.6 pour les BD arabe et espagnole respectivement. Des nuages de points sont aussi montrés pour ces cas sur les figures 3(a)4(a) et 5(a). De même, nous avons utilisé les RN qualifiés pour évaluer les qualités pour les échantillons de test. Ces échantillons ne sont pas parmi ceux servant à entraîner ces RN. Nous traçons sur les figures 5.7(a)5.7(b) et 5.7(c) les valeurs prévues contre les réelles. Nous montrons également des nuages de points pour ces cas sur les figures 3(b)4(b) et 5(b). De ces figures, nous pouvons constater deux résultats importants : d'abord, les RN ont la capacité d'apprendre très exactement l'évaluation du MOS pour un ensemble donné de paramètres d'entrée. Ceci est clairement montré dans les figures en utilisant les BD d'apprentissage. En second lieu, les RN peuvent avoir une évaluation très précise de MOS pour toutes les nouvelles valeurs des paramètres d'entrée. Ceci est montré dans les figures en utilisant les BD de test. On peut observer de ces figures que les notes de la qualité de la parole produites par le modèle de RN sont en parfait accord avec les résultats obtenus par les sujets participant à l'expérience d'essai subjectif de la qualité. On peut établir de ces résultats que les algorithmes d'apprentissage donnent aux RN l'avantage de l'adaptabilité, qui leurs permet de fonctionner dans des environnements dynamiques. Les statistiques sont comme montrées dans le tableau 1. Comme nous pouvons observer, les résultats sont très encourageants, l'approche via les RN nous a permis d'obtenir un modèle très bon de la relation non linéaire entre la qualité et les paramètres qui l'affectent.

Table: La performance de RN pour apprendre le problème et sa réaction aux exemples non-vus.
Langage Bases de données d'apprentissage Bases de données de test
  Coefficient de corrélation MSE Coefficient de corrélation MSE
Arabe 0,966 0,035 0,967 0,035
Espagnol 0,969 0,035 0,961 0,045
Français 0,965 0,048 0,957 0,055

Figure: La corrélation entre les valeurs réelles et prévues de MOS (langage espagnol).
[BD d'apprentissage] \fbox{\includegraphics[width=.45\textwidth]{Speech/Spanish-Training-Scatter.eps}} [BD de teste] \fbox{\includegraphics[width=.45\textwidth]{Speech/Spanish-Testing-Scatter.eps}}

Figure: La corrélation entre les valeurs réelles et prévues de MOS (langage français).
[BD d'apprentissage] \fbox{\includegraphics[width=.45\textwidth]{Speech/French-Training-Scatter.eps}} [BD de teste] \fbox{\includegraphics[width=.45\textwidth]{Speech/French-Testing-Scatter.eps}}


next up previous contents index
Next: Performance d'autres mesures de Up: La mesure de la Previous: Une base de données   Contents   Index
Samir Mohamed 2003-01-08