les données et le reste pour mes stagiaires de l'année 2018-2019, Marc Xu et Eric Son Dutt
- me donner leur login
- et je les invite
- fait pour Marc 'marcxu'
- fait pour Eric 'Bibirani01'
- sur vos machines, faire git clone "" du dossier dans son ensemble
- dans vos répertoires respectifs, créez, avec un Rstudio, un projet ("xx.Rproj") ce sera votre projet principal de travail.
- à partir de ce projet, créez autant de fichiers .Rmd (c'est à dire Rmarkdown, on oublie les fichiers scripts simples .R) que nécessaires
- alors que Git est installé sur les machines de l'UFR, Marc et Eric ne parviennent pas à le lancer.
- apparemment OK
- Marc et Eric ont commencé une présentation en reveal.json
Etablir un modèle de prédiction de la clairance à partir de descripteurs géométriques et physico-chimiques de petits composés. Deux méthodes seront utilisées :
- SVM
- réseaux de neurones
- une référence dans le domaine dumachine learning (apprentissage supervisé) : ESL par Hastie, Tibshirani & Friedman
- un article sur les SVM : SVM
- les SVM vu par Tanagra (en français) : SVM
Il y a trois fichiers :
- le premier data edragon provient d'un logiciel libre,
- c'est celui là que nous allons utiliser.
- le second data MOE provient d'un logiciel payant (cher),
- nous n'allons donc pas l'utiliser.
- le fichier "propre" à utiliser pour faire les modèles data. Ce fichier a été créé à partir des deux précédents en :
- enlevant l'individu abérrant
- enlevant les descripteurs ayant des données manquantes
- enlevant les descripteurs non ou peu variants, car non informatifs
- enlevant les descripteurs trop corrélés entre eux
- sélectionnant des descripteurs corrélés à la variable d'intéret, la clairance
Cependant, ce second fichier (MOE) contient une données très importante pour nous, la Clairance (CI).
- lire les deux jeux de données
- vous avez lu des matrices ? des data.frames ? autre chose ?
- vérifier que les noms des lignes sont les mêmes
- les noms des lignes doivent être les noms des composés étudiés
- vérifier que les composés sont bien dans le même ordre
- pourquoi est-ce important ?
- récupérer la colonne "CI" du fichier MOE et l'ajouter au fichier edragon
- faire un jeu de données d'étude
- combien ce fichier a t'il de ligne ?
- combien de colonnes ?
- quels sont les entetes des lignes ?
- si ce n'est pas le cas, donner le nom du composé
-
comment visualiser ces données ?
- on laisse tomber pour l'instant
- on fera plus tard, cf Etape 3
-
y a t'il des valeurs aberrantes ?
- que faut-il en faire ?
- les garder ?
- les enlever ? qu'est-ce que ca veut dire les enlever ?
- enlever la ligne
- enlever la colonne
- remplacer la valeur aberrante par xx
- que faut-il en faire ?
-
ici, on ne peut regarder dans le détail que la clairance (
CI
)- faire histogramme et boxplot de
CI
- voir qu'un des composés a une valeur extreme (beaucoup plus élevée que les autres)
- on enlève ce composé
- faire histogramme et boxplot de
-
y a t'il des données manquantes (999 dans le fichier) ?
- comment traiter ces valeurs manquantes ?
- remplacer "-999" par NA (`which(, arr.ind))
- compter le nombre de NA par colonne (
apply
etsum
etis.na
)- on enlève les descripteurs ayant des données manquantes, quelque soit ce nombre (
na.omit
)
- on enlève les descripteurs ayant des données manquantes, quelque soit ce nombre (
- on vérifie qu'il n'y a plus de NA (ou de -999)
-
y a t'il des variables "constantes" (variance nulle) ?
- si oui, on les enlève => 3 lignes de programme
- calcul de la variance de toutes les colonnes (descripteurs) (
apply
) - ne garder que celles de variance non nulle (
which
) - on vérifie qu'il n'y a plus de constante
-
Au final, combien de lignes et de colonnes reste t-il ?
- ACP, multidimensional scaling
- classification (clustering), classification hiérarchique ascendante (
hclust
) etkmeans
- apprendre la méthode choisie (SVM ou NN) sur un jeu "facile", type iris de Fisher.
- appliquer à nos données ...
cf programme de L2S5
-
Essayez de prendre le temps de regarder ce que j'ai fait par rapport à ce que vous avez fait (pareil, différents, intéressants dans l'un), nous aurons ainsi une vue assez complète du sujet.
-
On peut alors passer à l'utilisation de ces méthodes sur le jeu de données.
-
Pour vendredi 22 mars, une présentation chacun présentant
- un résumé de la méthode choisie : je ne vous demande pas de me dire les formules mathématiques, mais d'essayer de m'expliquer ce qui se passe, les points + et -, les paramètres à optimiser
- l'un de vous présente la table de confusion et le calcul du taux de bien prédits, la sensibilité et la spécificité et l'autre présente la courbe ROC.
- l'application sur les données "iris"
- un début d'application sur les données "membranes", si possible j'ai réservé notre salle de réunion pour la présentation à partir de 14h.