UOH - Psychométrie et Statistique en L1 - 6. Techniques de recodage des données
header_UOH header_UOHPSY
Accueil arrow Comprendre arrow Statistique descriptive arrow 6. Techniques de recodage des données
6. Techniques de recodage des données Convertir en PDF Version imprimable Suggérer par mail
Appréciation des utilisateurs: / 25
FaibleMeilleur 
Écrit par Éric Raufaste   
Index de l'article
1. Pourquoi recoder des données ?
2. Recodage par application de fonctions
3. Recodage par centration-réduction
4. Recodage par répartition en classes

Objectif. Présenter la notion de recodage et l'illustrer par un ensemble des principales techniques utilisées pour transformer des données.

Prérequis. Aucun.

Résumé. Un premier écran présente la logique générale et l'utilité de la technique du recodage. L'écran suivant présente des transformations de variables par application de fonction, ce qui sert en particulier pour normaliser des distributions afin de pouvoir appliquer dessus diverses techniques statistiques qui exigent la normalité. Le troisième écran présente la technique de centration-réduction. Enfin le dernier écran expose des techniques de recodage opérant sur la base des effectifs. Il existe aussi des techniques de classification fondées sur des analyses statistiques plus sophistiquées (classification hiérarchique, nuées dynamiques, ...) mais ces techniques ne sont a priori pas du niveau L1 et nous ne les verrons pas ici.


 

recodage.pngLorsque vous ouvrez un logiciel de statistique, vous trouvez souvent parmi les menus des options avec des intitulés du type "recoder des données" ou "transformer des variables". Il peut s'agir aussi de libellés qui constituent des cas particuliers de recodage ou de transformation de variable comme "centrer-réduire","remplacer les valeurs manquantes", etc. Cet article a pour objectif d'expliquer pourquoi on a besoin d'employer de telles techniques ainsi que de présenter les principales méthodes de recodage des données. 

 

1. Pourquoi recoder des données ?

Les raisons de procéder à un recodage des données sont très diverses. 

1.1. Éliminer du bruit inutile

Lorsque l'on agrège les notes obtenues par un individu à plusieurs épreuves (par exemple à des tests psychologiques), l'opération de moyennage va souvent nous donner un résultat avec un certain nombre de décimales, par le seul jeu des opérations mathématiques. Mais en fait cette précision n'a strictement aucun sens psychologique. Par exemple imaginez une épreuve du bac, où l'on teste les performances en mathématique, physique, anglais, etc... Lorsqu'on calcule ensuite la moyenne de l'élève, on peut trouver quelque chose comme 10,24583. Quel sens donner à ces chiffres ? Si l'on prend le 10, on voit à quoi ça correspond : la personne a « la moyenne », et donc on pourra lui donner le bac. mais que signifie le 0.24583 ?  pas grand-chose pour le 2, encore moins pour le 4 et au delà, on gagnerait en fait à se passer de cette pseudo-précision qui représente largement plus du bruit que de l'information réelle. D'où l'idée d'arrondir.

Mais arrondir n'est que le premier niveau de l'élimination du bruit. Par exemple dans de nombreux cas, on peut demander aux sujets de donner une note sur une échelle qui va de 0 à 100, par degrés de 1 :  À quel degré aimez-vous les patates bouillies ? 0 « pas du tout », 100 « j'en suis fou »...  Même si les sujets donnent une valeur entière, donc qu'il nest pas possible d'arrondir, en pratique nous ne distinguons pas tant de degrés dans nos appréciations. Sur nos propres données, nous avons par exemple pu constater que la précision avec laquelle des médecins évaluent le risque d'une maladie dépasse rarement 5% (Raufaste, Da Silva Neves, & Mariné, 2003). 

1.2. Pour pouvoir appliquer certaines techniques de calcul

Dans un certain nombre de cas on peut souhaiter pratiquer des analyses qui requièrent que les variables  prennent des valeurs discrètes. Par exemple, l'analyse de variance utilise habituellement des variables prédictrices ayant un tout petit nombre de modalités. Ou encore, vous voulez comparer les scores sur une variable dépendante (par exemple la performance scolaire) d'individus ayant un QI plus élevé que la moyenne contre ceux ayant un QI plus bas que la moyenne. Le QI étant une variable prenant de très nombreuses valeurs, il sera plus simple alors de recoder le score brut de QI en deux valeurs, par exemple 1 pour ceux qui ont moins que la moyenne et 2 pour ceux qui ont plus que la moyenne.

Dans d'autres cas, la variable de départ a très peu de modalités mais celles-ci se présentent sous une forme qui n'est pas compatible avec les formats utilisés par le logiciel de statistique que vous voulez utiliser. Par exemple, imaginons que vous ayez les libellés « Homme » et « Femme » pour coder le sexe des individus. Or de nombreux logiciels de statistiques travaillent avec des valeurs numériques mais lorsqu'il s'agit de variables nominales.  En reprenant le codage classique de l'INSEE, on pourra alors par exemple recoder 1 pour les hommes et 2 pour les hommes.

Un autre cas important du besoin de recodage est lié aux pré-requis d'utilisation de certaines techniques. Par exemple de nombreuses techniques statistiques supposent que les données soient normalement distribuées. Or dans souvent les données ne le sont pas. On peut donc appliquer diverses transformations pour donner àune forme normale à la distribution.

1.3. Pour pouvoir comparer des données entre elles

De plus en plus en psychologie cognitive, on utilise des appareils permettant d'enregistrer les mouvements oculaires pour savoir, en temps réel, ce que les sujets sont en train de regarder. Des informations préciseuses sont apportées par les diamètres pupillaires qui, à éclairage constant, traduisent des variations émotionnelles ou des variations d'effort dont les sujets ne sont même pas conscients. Le problème c'est qu'on ne peut pas directement comparer les diamètres pupillaires d'un individu à l'autre puisque au départ les différents individus n'ont pas les yeux de la même taille. Comment faire ? Une solution consiste alors à appliquer une opération appelée centration-réduction, qui a pour effet, avant même de commencer les calculs de comparaison, de ramener les mesures prises sur les différents sujets à quelque chose qui soit indépendant de la taille de leur œil.

 

Nous allons maintenant passer maintenant à la page suivante pour voir de plus près quelques techniques de recodage.

 




Dernière mise à jour : ( 10-01-2009 )
 
< Article précédent   Article suivant >

Citation

Approaches to statistics that start from an a priori scale type and then proscribe the kinds of hypotheses that may be computed based on that scale type are simply bad science and bad data analysis.
Paul. V. Velleman and Leland Wilkinson
 

Sondage

Pour étudier la statistique et la psychométrie en L1, ce site est...
 
© 2023 UOH - Psychométrie et Statistique en L1
Joomla! est un logiciel libre distribu sous licence GNU/GPL.