class: center, middle, inverse, title-slide # Formuler sa question scientifique ## .doana-title[
] ### DoAna - Statistiques Réunion ### 2020 --- layout: true .my-footer[![](img/logoDoAna.png) .footer-title[Formuler sa question scientifique]] --- name: plan ## Sommaire *** 1) Le protocole expérimental - Vocabulaire - Exemples de protocoles - Visualiser son protocole - Bien définir sa question - Le plan de gestion de données 2) Stratégie à avoir au moment d'entreprendre l'analyse - Conditions préalables - Étapes pour une analyse paramétrique - Écriture du modèle --- class: inverse, center, middle # Le protocole expérimental ## Etape préalable à toute expérimentation --- ## Vocabulaire *** .pull-left[ - Individu statistique, unité d'observation, unité d'expérimentation - Variables à expliquer vs. explicative - etc. ] .pull-right[ .height450[![](img/11-question_lechat-soupe-age.jpg)] ] ??? - le vocabulaire (pas les maths) est la clé pour comprendre les stats ! - le chat : on mesure la chaleur émise (**variable explicative n°1**) par chaque bougie (**unité observation**) et la température (**variable à expliquer**) de la soupe (**unité expérimentale**) en fonction du nombre de bougies (**variable explicative n°2**) : 2 échelles possibles - un individu est une bougie à un âge T (`temp_soupe ~ chaleur_bougie * nombre_bougies`) - un individu est l'ensemble des bougies à l'âge T (`temp_soupe ~ nombre_bougies`) - **brainstorming** pour trouver des exemples ensemble <!-- A VOIR OU JE METS CA : QCM ? --> - **Vocabulaire** (erreurs courantes) : - différence entre modèle ANOVA et table d’Anova - différence entre anova, régression et ancova - différence entre glm gaussien et lm - différence entre glm binomial et régression logistique - différence entre test de Tukey (comparaisons multiples sur un lm) et comparaison de Tukey (comparer les modalités 2 à 2) - différence entre écart-type (standard deviation) et erreur type (standard error) - différence entre histogramme et barplot - différence en moyenne et médiane : un chien moyen a moins de 4 pattes et un chien médian a 4 pattes --- ## Exemples de protocoles *** - **Factorial design/plan factoriel** : plusieurs facteurs d’intérêt expliquent la variable d’intérêt Y, ils sont fixes et croisés les uns avec les autres. - **Dose-response design/modèle dose-réponse** : quel effet de l’augmentation d’une dose d’un traitement sur Y ? Relation en général non linéraire. - **Nested design/modèle emboîté** : au moins une paire de facteurs est emboîtée au lieu d’être croisée comme les autres. **Hierarchical nested design** : tous les facteurs sont emboîtés. Les facteurs emboîtés dans les autres sont souvent aléatoires. - **Split-plot design/plan en parcelles divisées **: un facteur de traitements par individus et un facteur de traitements entre individus. - **Block design/plan par blocs** : facteur bloquant aléatoire (peut être considéré comme fixe dans certains cas) généralement croisé avec le traitement, défini un ensemble de mini-plans d’expériences. - **Repeated measures et dose-escalation design** : les modalités du facteur indexant les répétitions sont partagées par tous les individus et non aléatoires. - ...et d'inombrables d'autres combinaisons ! ??? Design | Description ---------------|--------------------------------------------------------------- repeated measures design | Mesures prises dans le temps/espace, avec les mêmes points temporels/spatiaux pour chaque unité expérimentale. higher-order nested design | Mesures prises dans le temps mais les modalités temporelles (essais) ne sont pas les mêmes entre chaque unité expérimentale. block design | Une mesure par traitement par individu choisi aléatoirement sur chaque bloc. L’unité expérimentale est l’individu. split-plot design | Généralisation du dernier : un traitement au niveau du bloc et un traitement au niveau des positions. Deux niveaux d’unité expérimentale. crossover design (bloquage par individu) | Plusieurs traitements par individu avec un traitement par point temporel. Une mesure par individu par point temporel. La séquence de traitement est différente pour chaque individu. L’unité expérimentale est individu.temps. dose-escalation design | Plusieurs traitements par individus avec un traitement par point temporel. Une mesure par individu par point temporel. La séquence de traitement est non aléatoire et est la même pour tous les individus. L’unité expérimentale est individu.temps. n’importe quel design | Plusieurs points de mesures (différentes) sont pris à la date finale pour chaque unité expérimentale dans la même expérience. --- ## Visualiser son protocole *** - graphiques avec **ggplot2** -- - tables de contingence avec `ftable()` ```r # cyl = nb de cylindres # vs = forme du moteur (v-shaped ou normal) # am = transmission automatique ou manuelle ftable(cyl ~ vs + am, data = mtcars) ## cyl 4 6 8 ## vs am ## 0 0 0 0 12 ## 1 1 3 2 ## 1 0 3 4 0 ## 1 7 0 0 ``` ??? comparer la consommation des voitures en fonction de certaines caractéritiques -> ici, protocole pas carré ! --- ## Bien définir sa question *** Qu'est-ce que l'on attend à la fin de l'expérimentation ? - Savoir quelles variables (`X`) sont **influentes** sur la variabilité de la variable à expliquer (`Y`) - **Comparer** des traitements/modalités d'une variable explicative (`X`) - **Prédire** de nouvelles données (`Y`) par les variables explicatives (`X`) -- <br> <br> > Pour chaque type de question, une stratégie différente sera employée. --- ## Le plan de gestion de données *** <a class="a-img" href=https://gitlab.com/doana-r/initiation-r/-/raw/master/PGD.pdf?inline=false> ![](img/11-question_PGD.png) </a> ??? à regarder ensemble ! --- template: plan --- class: inverse, center, middle # Stratégie à avoir au moment d’entreprendre l’analyse statistiques (dans le monde des bisounours) --- ## Conditions préalables *** .pull-left[ - Tous les effets pouvant augmenter la variabilité des résultats sont identifiés et inclus dans le protocole - L’échantillon a une taille suffisamment importante - La réponse / variable d’intérêt contient l’information la plus précise possible - Il a été vérifié que les effets non contrôlés n’induisent qu’un minimum de **biais**. ] -- .pull-right[![](img/11-question_biais.jpg)] ??? Interaction entre le nombre de testicules et le sexe. Si on oublie de regarder la variable sexe, il y a un biais et on conclue, à tort, que l'humain moyen à un testicule ! Source de l'image : https://scientificliteracymatters.com/2015/03/the-problem-with-statistical-evidence/ --- ## Étapes pour une analyse paramétrique *** 1. **Explorer les données** : graphiques (valeurs aberrantes, distribution des variables, …), tables de contingence (interaction entre les facteurs, résumé des données, …) -- 1. **Choisir un modèle** pertinent (cf. diapos suivantes) -- 1. **Vérifier les hypothèses** du modèle (exemple pour un modèle linéaire : indépendance des individus, normalité et homoscédasticité de la variance résiduelle de la variable d’intérêt, …) à faire *AVANT* de regarder les résultats mêmes -- 1. **Tester les effets** globaux (table d’ANOVA) -- 1. **Regarder les prédictions** du modèle face aux observations -- 1. (facultatif) **Comparer les moyennes** prédites d’un facteur donné : tests dit *post-hoc* (après modélisation) ou de comparaisons multiples. Étape possible sur le facteur seulement s’il n’interagit pas avec d’autres facteurs. --- ## Écriture du modèle *** ### 1. Formules - C'est quoi comme objet dans R ```r class(Y ~ X) ## [1] "formula" typeof(Y ~ X) ## [1] "language" ``` -- - Synthaxe de base : `Y ~ A + B + A:B` <!-- Application concrète avec des textes en français à traduire en formules (EUX) --> --- ## Écriture du modèle *** ### 2. Distribution de la variable d’intérêt *toutes choses égales par ailleurs* ? Cette information permettra de choisir : - la fonction de R à utiliser - la partie de gauche de la formule On écrit : ```r modele(var_a_expliquer ~ ) ``` --- ## Écriture du modèle *** ### 2. Distribution de la variable d’intérêt *toutes choses égales par ailleurs* ? Exemple |Distribution|Modèle :----------------------------------------------|:-----------|:----------------- Diamètre de tronc d'une même essence dans la même forêt du même âge | normale | linéaire Comptage de larves de poissons piégés de la même manière le même jour | poisson | glm poisson Résultat d'un test PCR pour détecter la COVID (succès/échec) | binomiale | gml binomial Classement de dégâts causé par un champignon sur plusieurs feuilles d'un arbre (entre 0 et 4, 0: feuille saine, 4: feuille gravement atteinte) | multinomiale | multinomial Proportion de mortalité d'une espèce de mouche face à une dose donnée d'un insecticide | non linéaire (courbe dose-réponse) | non linéaire ??? - **Exercice** : faire deviner le contenu du tableau - Nécessite-t-elle une transformation pour réduire l’hétéroscédasticité ? Log normalité, boxcox... Est-elle bornée (pourcentage, un poids ne peut être négatif…) ? Transformation arcsin (?) --- ## Écriture du modèle *** ### 3. Identification des variables explicatives. - **ANOVA** (variables qualitatives), **régression** (variables quantitatives) ou **ANCOVA** (mélange des deux) ? - **Emboîtement** entre les facteurs (*nestedness*) : `A + A:B` ou `A + B %in% A` signifie que `B` est emboîté dans `A` - Choix des **interactions** : quel sens a `A:B` ? Avez-vous fait un graphique pour la représenter ? `A + B + A:B` se raccourcit en `A * B`. - Si variable aléatoire prenant en compte la non-indépendance des observations : **modèle mixte** -- On choisit : - la partie droite de la formule - si le modèle est bien adapté finalement... ```r modele_mixte_peut_etre( ~ A + B + C + A:B + A:C + (1|D) + (A|D) ) ``` ??? - C'est pas trivial ! - Attention, à trop rajouter de variables explicatives, on peut atteindre nombre de paramètre à estimer > nombre d'observations, d'où l'intérêt d'un protocole adapté - Ex **emboîtement** : traitements appliqué à différentes zones de la peau de souris : zone emboîté dans souris - Ex **aléatoire** : - on regarde des fruits dans des arbres, 2 fruits appartement à un même arbre ne sont pas indépendant, il faut prendre en compte la variabilité inter-arbres, de plus, on s'en fiche de comparer l'arbre A et l'arbre B - des blocs dans une parcelle pour prendre en compte variabilité du terrain, les plants dans un bloc ne sont pas indépendants - Dans le doute, mieux vaut partir du modèle complet et réduire ensuite en enlevant les variables non significatives - Malheureusement, je ne serai pas exhaustive ici, ni pour la suite des étapes de modélisation, c'est réellement du cas par cas... --- ## Méfiance... *** <img src="11-question_files/figure-html/venn-1.png" width="70%" style="display: block; margin: auto;" /> ??? Quand on démarre, on ne se doute pas de la quantité de pièges qui nous attendent. On croit que l'on sait faire, mais le plus grand piège c'est l'ignorance. En stat, elle peut être fatale. Ex de Fred avec les branches de manguier... Moi-même j'ai toujours peur de faire des choses et d'être une terroriste en puissance sans le savoir ! Source de la figure : http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram --- class: inverse, bottom, center ### Sortons de chez les Bisounours et passons à la pratique ! -- -- -- ### ☺ -- -- -- [Accueil](/)