note
| - L'objectif de ce travail de thèse, est de comparer et de proposer des méthodes de choix de modèles, lorsque la classification (classification automatique et discrimination) s'appuie sur un modèle de mélange gaussien. Les modèles considérés sont de deux sortes : les modèles gaussiens (ensemble de contraintes sur les matrices de variance et sur les proportions) et le nombre de classes (pour la classification automatique uniquement). Un logiciel, qui regroupe plusieurs méthodes d'estimation des paramètres du mélange, tout en tenant compte des contraintes imposées par le modèle gaussien, a été écrit dans le langage Splus. Ensuite, nous avons comparé, dans la cadre du choix du modèle gaussien, bon nombre de critères classiques. Ces comparaisons se font avec une \"optique classification\" : le meilleur modèle est celui qui produit la meilleure partition en classification automatique, et est celui qui produit la meilleure règle de classement en discrimination. En classification automatique, le critère AIC3 de Bozdogan donne les meilleurs résultats. En discrimination, deux critères se distinguent : le critère AIC3, de nouveau, ainsi que le critère de validation croisée. En classification automatique, nous proposons simplement d'utiliser le critère de vraisemblance classifiant de Symons pour trouver le nombre de classes (le modèle gaussien est connu). Ce critère très simple peut s'interpréter comme une pénalisation de la vraisemblance par une mesure de la classifiabilité des données, et également, dans certains cas, comme une pénalisation du célèbre critère des k-means de Sebestyen. Les nombreux essais (sur des données simulées et sur des données réelles) montrent des résultats très encourageants, si les classes sont bien séparées, pour résoudre le délicat problème du nombre de classes.
|