Page 1 sur 3
Objectifs. Introduire la notion de représentation graphique d'une distribution et la distinction entre représentation théorique et représentation à partir d'échantillons.
Prérequis. Les différents articles de la grande leçon Psychologie, statistique et psychométrie, et en particulier l'article de généralités sur les distributions statistiques. Essentiel sur les histogrammes.
Résumé. Cet article se propose de développer la notion générale de distribution, sans entrer dans les paramètres mathématiques permettant de caractériser les distributions, mais plutôt en montrant d'abord la construction graphique de ces distributions, puis en présentant différents types de distributions et les éléments qui les engendrent.
1. La construction graphique des distributions théoriques
Attention : Pour bien comprendre cette section, il peut être utile de rappeler ce qu'est un histogramme et savoir comment il est possible d'en construire. Rappelons qu'un histogramme est un mode de représentation graphique qui met en relation une (ou plusieurs) variables discrètes (par exemple des catégories, des classes ordinales, ou des intervalles numériques disjoints) et une variable numérique.
Une distribution est fondamentalement une représentation de la façon dont les observations (théoriques ou empiriques) se distribuent, se répartissent, sur les différentes valeurs d'une variable. Par exemple, imaginons un sociologue qui voudrait examiner les salaires des femmes en France, pour les mettre en relation, par exemple, avec le niveau d'étude. Ne pouvant accéder à l'ensemble des salaires de toutes les femmes travaillant en france, il va se rabattre, comme dans la grande majorité des recherches scientifiques, sur les salaires d'un petit échantillon de femmes. Il va s'arranger pour que cet échantillon ne soit quand même pas trop petit, et surtout qu'il soit représentatif de la population cible, à savoir la population française. Admettons donc qu'il ait bien sélectionné son échantillon, et qu'il se trouve à la tête d'un ensemble de, disons, 1000 salaires de femmes. Admettons aussi qu'il a vérifié que ses données ne contiennent pas déjà d'erreur de recueil ou de saisie. Que faire ensuite ?
La première chose à faire, c'est précisément de regarder la forme de la distribution des salaires dans son échantillon. Mais pour étudier cela, il nous faut faire un détour par un rappel un peu conceptuel de ce qu'est une distribution.
Dans le cas général, une distribution statistique théorique décrit la probabilité de trouver une valeur dans un échantillon : la surface sous la courbe représente une proportion d'observations. Par exemple la courbe suivante décrit une distribution « normale». On remarque que la probabilité (techniquement on parle plutôt de « densité de probabilité ») d'avoir une observation autour de zéro est la plus forte et qu'elle décroît d'autant plus qu'on s'éloigne du zéro. Elle devient quasiment nulle très rapidement.
|