Recherche des termes et des concepts dans notre boîte à outils

Le monde merveilleux des statistiques possède parfois son propre langage. Des mots qui ont une définition spécifique afin que tout le monde sache ce qu'ils signifient. Nous expliquons notre vocabulaire dans cette boîte à outils, afin que tu puisses mieux comprendre comment utiliser et interpréter ces mots.

Mode, médiane, moyenne sont des paramètres dits de position qui permettent d’avoir une idée de l’ordre de grandeur d’une série d’observations. Ils ne donnent aucune idée de la dispersion des observations.

Pour cela, il faut utiliser des paramètres de dispersion comme l’amplitude.

L’amplitude représente l’écart entre la plus petite valeur observée et la plus grande. L’amplitude montre l’étendue de la série d’observations.

Plus l’amplitude est grande, plus les valeurs observées sont éloignées les unes des autres ; plus l’amplitude est petite, plus les valeurs observées sont proches les unes des autres.

Prenons 2 classes de 14 élèves chacune. Les élèves ont été notés sur 10 pour un devoir.

Voici les résultats observés dans les deux classes.

Amplitude

Les notes dans la classe n°2 sont donc beaucoup plus étalées que les notes dans la classe n°1.

Les données sont indispensables à toute étude statistique.

Un statisticien recueille les données nécessaires pour répondre à la question que l’on se pose.

    Exemples:

    • Combien de temps les enfants de ton âge passent-ils devant la télévision?

    • Quel est l’âge de la population belge?

    • Entre deux variétés différentes de pomme de terre, laquelle a le rendement le plus élevé?

    • Quelle est la taille des oreilles des éléphants d'Afrique?

    D’où viennent les données ?

    Il existe plusieurs sources de données :

    • les données d’expérimentation : ces données sont obtenues par les scientifiques qui mettent en place des plans d’expérimentation pour tester tout un tas d’hypothèses sur l’efficacité d’un médicament, par exemple ou la résistance de certaines variétés de plantes aux maladies, … 

    •  les données administratives : ce sont des données qui ont été collectées par une autre administration. Ces données existent déjà.  Il est donc inutile de redemander les informations aux citoyens ou aux entreprises. Cela permet de gagner du temps, gagner de l’argent et surtout de ne pas embêter inutilement les gens. 

    • les données d’enquête : quand les données ne sont pas disponibles, il n’y a pas d’autre choix que celui de les collecter via des enquêtes. Une enquête, c’est un formulaire avec des questions auxquels les gens sont invités à répondre. Savais-tu que Statbel était l’un des seuls organismes en Belgique à pouvoir imposer des enquêtes obligatoires aux citoyens, aux entreprises et aux organisations ?

    Pour te donner des exemples, les statistiques présentées dans les thèmes population, évolution de la population et nationalités sont basées sur les données du registre national, qui sont des données administratives. Les statistiques agricoles, elles, sont en partie basées sur des données d’enquête.

    L’échantillon représente un sous-ensemble de l’univers (la population) sur lequel porte l’étude statistique.

    Pourquoi étudier un échantillon plutôt que l’univers dans son entièreté ?

    Pour des raisons de moyens tout simplement.

    Interroger toutes les unités qui font partie de l’univers coûte très cher et demande du temps.

    Mais attention, l’échantillon doit être  représentatif de la population.

    Pour ne pas se tromper dans les conclusions de l’étude, il est impératif que l’échantillon soit représentatif, c’est-à-dire qu’il doit présenter les mêmes caractéristiques que l’univers duquel il est issu.

    Imagine une classe de 24 enfants, avec 6 filles et 18 garçons.

    Imagine que tu t’intéresses à l’état de satisfaction de la classe au sujet d’une sortie scolaire.

    Imagine que tu ne puisses pas interroger toute la classe et que tu décides d’interroger un échantillon de 6 enfants.

    Tu choisis d’interroger 5 filles et 1 garçon au niveau de leur satisfaction.

    Les 5 filles sont insatisfaites. Le garçon est satisfait.

    D’après cet échantillon, tu pourrais tirer la conclusion que la majorité de la classe n’est pas satisfaite de la sortie scolaire.

    Est-ce la réalité ? Non. Car l’échantillon n’est pas représentatif. Les filles dans ton échantillon sont surreprésentées, tandis que les garçons sont sous-représentés. Et dans la réalité de cette classe, les filles ne sont pas du même avis que les garçons.

    Les résultats que tu aurais obtenus si tu avais interrogé tous les élèves de la classe auraient pu être très différents.

    La fréquence cumulée est la somme de toutes les fréquences jusqu'à une valeur précise dans la série de données considérée.

    Pour calculer une fréquence cumulée, il est nécessaire que la série statistique soit ordonnée, c’est-à-dire que les observations soient classées par ordre croissant.

    On peut cumuler des fréquences absolues mais aussi des fréquences relatives.

    Prenons les notes sur 10 d’un contrôle effectué par les 24 élèves d’une classe présentées sous forme d’une distribution de fréquences.

    Notes sur 10012
    3
    4
    5
    6
    7
    8
    9
    10
    Total
    Nombre d'élèves ayant eu cette note
    1
    2
    1
    0
    1
    2
    5
    5
    4
    2
    1
    24

    Dans ce tableau, les notes des élèves sont déjà classées par ordre croissant.

    Le nombre d’élèves à avoir eu une note inférieure ou égale à 5/10 est égal à 1+2+1+0+1+2=7
    Le nombre d’élèves à avoir eu une note supérieure à 5/10 est égal à
    5+5+4+2+1=17

    Si tu veux en savoir plus, on parle de fréquences cumulées dans le thème ‘Population’.

    L’effectif ou fréquence absolue est le nombre de fois qu’une même valeur est observée dans une série statistique.

    L’effectif total est le nombre total d’observations.

    Prenons les notes sur 10 d’un contrôle effectué par les 24 élèves d’une classe présentées sous forme d’une distribution de fréquences.

    Notes sur 10012345678910
    Nombre d'élèves ayant eu cette note12101255421
    • 2 élèves ont obtenu la note de 1/10: 2 est l’effectif ou la fréquence absolue de la note de 1/10
    • 4 élèves ont reçu la note de 8/10: 4 est l’effectif ou la fréquence absolue de la note de 8/10
    • L’effectif ou la fréquence absolue de la note de 4/10 est 1.

    L’effectif total peut être obtenu en sommant (en cumulant) les effectifs de toutes les observations : 1+2+1+0+1+2+5+5+4+2+1=24
    24 représente le nombre total d’observations; c’est aussi le nombre d’élèves dans la classe.

    La fréquence relative d’une observation est obtenue en divisant l’effectif de cette observation par l’effectif total de la série statistique.

    Fréquence relative

    La fréquence relative est toujours comprise entre 0 et 1. Elle peut s’exprimer en pourcent.

    La somme de toutes les fréquences relatives est toujours égale à 1.

    Prenons les notes sur 10 d’un contrôle effectué par les 24 élèves d’une classe présentées sous forme d’une distribution de fréquences.

    Notes sur 10012
    3
    4
    5
    6
    7
    8
    9
    10
    Total
    Nombre d'élèves ayant eu cette note
    1
    2
    1
    0
    1
    2
    5
    5
    4
    2
    1
    24
    • La fréquence absolue de la note de 7/10 est égale à 5. L’effectif total est 24.
    • Si nous divisons 5 par 24, nous obtenons 0.208.
    • 0.208 est la fréquence relative de la note de 7/10.

    Cela signifie que 20,8% des élèves de la classe ont eu 7/10 au contrôle.

    Tu peux faire l’exercice pour toutes les notes allant de 0 à 10.

    Un graphique permet de représenter visuellement des données.

    Un graphique doit comporter :

    • un titre, pour que tu saches ce qu’il contient comme information
    • une légende pour t’aider à te repérer
    • des données
    • la source de ces données 

    Il existe des graphiques de différentes formes : courbe, diagramme en bâtons, histogramme, camembert, … 

    Certains graphiques comportent des axes. Ces graphiques permettent de visualiser la relation qui existe entre une variable dépendante et une variable indépendante. 

    L’axe horizontal s’appelle l’axe des abscisses. Il est associé à la variable indépendante (que l’on nommera souvent par la lettre x). 

    L’axe vertical s’appelle l’axe des ordonnées et est associé à la variable dépendante (que l’on nommera souvent par la lettre y).

    Un diagramme en bâtons permet de représenter des observations selon leur fréquence. Plus le bâton sera grand, plus la fréquence de l’observation sera grande.

    Les courbes montrent généralement une évolution.

    Un camembert montre la part de différents éléments dans un total.

    Pour passer d’un graphique en camembert à un diagramme en bâtons, tu dois connaître la fréquence totale, c’est-à-dire, le nombre total d’observations. Il te suffit ensuite d’appliquer chaque pourcentage à ce total pour retrouver la fréquence de chaque élément.

    Des graphiques, tu en trouveras dans tous les thèmes.

    La médiane est un paramètre de position qui permet de résumer l’information contenue dans un ensemble parfois très important de données.

    La médiane est une valeur observée ou non qui va couper la série statistique en 2 de telle façon que la moitié des valeurs observées lui soient inférieures et que l’autre moitié des valeurs observées lui soient supérieures.
    La médiane est la valeur centrale de la série d’observations.

    Pour déterminer la médiane, il faut d’abord ordonner la série des observations par ordre croissant.


    Imaginons que nous nous intéressons à la taille des élèves d’une classe mesurée en cm.

    Voici les tailles relevées des 15 élèves de la classe.
    Yana 135 cm, Alice 130 cm, Jules 132 cm, Samuel 150 cm, Fabio 133 cm, Lucile 138 cm, Emma 129 cm, Louis 133 cm, Ilan 134 cm, Selena 128 cm, Adriano 136 cm, Aisha 133 cm, Sofiane 135 cm, Aaron 140 cm et Noémie 139 cm.

    Dans un premier temps, on va ordonner la série d’observations de la plus petite à la plus grande. On demande donc aux élèves de se ranger par ordre de taille croissante et voici ce que l’on obtient :

    Selena128 cm
    Emma129 cm
    Alice130 cm
    Jules
    132 cm
    Emilie
    133 cm
    Fabio
    133 cm
    Louis
    133 cm
    Ilan
    134 cm
    Paul
    135 cm
    Michèle
    135 cm
    Nicolas
    136 cm
    Lucile
    138 cm
    Noémie
    139 cm
    Patrick
    140 cm
    Samuel
    150 cm

    Il faut ensuite repérer le milieu de la série.

    Selena128 cm













    7 observations sont inférieures à 134 cm
    Emma129 cm
    Alice130 cm
    Jules132 cm
    Emilie133 cm
    Fabio133 cm
    Louis133 cm
    Ilan134 cm134 cm est la valeur qui coupe la série en 2
    134 cm est la médiane
    Paul135 cm7 observations sont supérieures à 134 cm



    Michèle135 cm
    Nicolas136 cm
    Lucile138 cm
    Noémie139 cm
    Patrick140 cm
    Samuel150 cm
    • Quand le nombre d’observations est impair, la médiane est une valeur observée de la série statistique.
    • Quand le nombre d’observations est pair, la médiane n’est pas une valeur observée de la série statistique.

    Imaginons que Fabio ait changé d’école. Il n’y a donc plus que 14 élèves dans la classe. La série des observations ordonnées peut se présenter de la manière suivante :

    Selena128 cm













    7 observations sont inférieures à 134,5 cm
    Emma129 cm
    Alice130 cm
    Jules132 cm
    Emilie133 cm
    Louis133 cm
    Ilan134 cm
    134,5 cm ist la valeur qui coupe la série en 2
    134,5 cm est la médiane
    Paul135 cm7 observations sont supérieures à 134,5 cm



    Michèle135 cm
    Nicolas136 cm
    Lucile138 cm
    Noémie139 cm
    Patrick140 cm
    Samuel150 cm

    Dans ce cas, la médiane n’est pas une valeur observée de la série statistique.

    Si tu veux en savoir plus, on parle de la médiane dans le thème ‘Population’.

    Le mode est l’observation qui a l’effectif (ou la fréquence) le plus grand (la plus grande).

    C’est la donnée la plus fréquente ou la plus souvent observée.

    Le mode est un paramètre de position.

    Voici la distribution de fréquences des âges des joueurs d’une équipe de football.

    AgeNombre de joueurs
    191
    201
    21
    1
    23
    1
    24
    2
    25
    3
    26
    1
    28
    2
    30
    1
    32
    1
    35
    1

    Total

    15

    Quel est l’âge le plus observé dans cette équipe ? Quelle est l'observation la plus fréquente ? Pour répondre à ces questions, tu dois repérer la fréquence la plus grande.


    AgeNombre de joueurs
    19
    1
    20
    1
    21
    1
    23
    1
    24
    2
    25
    3
    26
    1
    28
    2
    30
    1
    32
    1
    35
    1

    Total

    15

    3 est la fréquence la plus grande et correspond à l’âge de 25 ans. 

    25 ans est l’âge le plus observé dans l’équipe, c’est l’observation la plus fréquente. 

    25 ans est le mode de la série.

    Si tu veux en savoir plus, on parle du mode dans le thème ‘Population’ mais aussi dans le thème ‘Accidents de la route’.

    La moyenne (arithmétique) est un paramètre de position qui permet de résumer l’information contenue dans un ensemble parfois très important de données.

    Pour calculer la moyenne, il faut additionner toutes les observations et diviser le total obtenu par le nombre d’observations.

    Moyenne


    Par exemple:

    Jules a reçu 5 muffins, Alice en a reçu 3, Samuel en a reçu 1, Yana en a reçu 10 et Lucile en a reçu 6.

    Moyenne muffin Graphic 1

    Mettons tous les muffins en commun.

    Moyenne muffin Graphic 2

    Au total, il y a 25 muffins.
    Répartissons ensuite les muffins équitablement entre chacun des enfants.

    Moyenne muffin Graphic 3

    Chacun des enfants recevra 5 muffins. La moyenne est donc de 5 muffins.

    La moyenne pourrait être interprétée comme le nombre de muffins que chacun recevrait si l’ensemble des muffins était réparti équitablement entre les enfants.


    Si tu veux en savoir plus, on parle de la moyenne dans le thème ‘Population’ et dans le thème ‘Agriculture’.

    La moyenne et la médiane sont toutes les deux des paramètres de position.

    Un paramètre de position indique une valeur typique autour de laquelle les observations sont réparties.

    Cette valeur typique est une sorte de résumé de toute la série d’observations.

    Si tu calcules la moyenne et la médiane d’une série d’observations, tu calcules donc 2 valeurs typiques de ta série qui peuvent parfois être très différentes l’une de l’autre.

    Comment choisir selon les cas celle qui a le plus de sens ?

    Imaginons ceci. On va parler de fruits cette fois, 14 cerises et une pastèque. Les cerises sont légères, elles pèsent seulement 10 grammes chacune. La pastèque, en revanche, est énorme et pèse 5 kilos , soit 5000 grammes !

    Maintenant, on veut calculer combien pèse en moyenne chaque fruit. Pour faire ça, on ajoute le poids de toutes les cerises et de la pastèque, puis on divise cette somme par le nombre total de fruits, qui est de 15.

    (14x10) +5000
                15

    Après avoir fait le calcul, on trouve que la moyenne est de 333,33 grammes par fruit, ce qui est environ 0,33 kilo. Mais c'est beaucoup trop lourd pour une cerise, même pour une grosse cerise !

    Essayons maintenant de calculer la médiane, le poids médian de nos fruits: 10, 10, 10, 10, 10,... 5.000, la médiane est de 10 grammes. Bien plus représentatif de notre ensemble de fruits, non?

    Moyenne ou médiane?

    Cet exemple te montre que si ta série d’observations comporte certaines valeurs très grandes ou au contraire, très petites, alors la moyenne de ta série n’a pas forcément de sens. Il est alors préférable d’utiliser la médiane comme valeur ‘typique’ de ta série.

    Un pourcentage va représenter une proportion par rapport à un ensemble et s’exprimer par rapport à 100.  Un pourcentage est une fraction sur 100. On utilise le symbole %.

    20% signifie 20 parts sur 100 ou 20/100.

    Un pourcentage qui ne se rapporte à rien, n’a pas de sens.

    20% de quoi ?

    Exemple 1

    Imagine un carré, constitué de 100 petits carrés. Sur ces 100 petits carrés, 20 sont coloriés en jaune, 10 sont coloriés en bleu, 25 en orange, 1 en rouge, 44 ne sont pas coloriés.

    Carré

    La proportion de carrés jaunes par rapport à l’ensemble est donc de 20/100 ou 20% ; la proportion de carrés bleus est de 10/100 ou 10% ; la proportion de carrés orange est de 25/100 ou 25% et la proportion de carrés rouges est de 1/100 ou 1% et la proportion de carrés non coloriés est de 44/100 ou 44%.

    Exemple 2

    Dans une classe, il y a 4 filles et 16 garçons.

    Quel est le pourcentage de filles dans la classe ?

    La proportion de filles dans la classe (4 filles sur un total de 20) peut s’écrire 4/20. Pour calculer le pourcentage, il faut exprimer cette fraction par rapport à 100.

    Pour trouver la réponse, tu dois multiplier le dénominateur par 5 et donc, le numérateur par 5.

    Il y a donc 20% de filles dans la classe.

    Les pourcentages, il y en a à foison dans le thème des nationalités.

    La proportionnalité est une notion qui s’applique à des variables reliées entre elles par un même nombre.

    Si en multipliant par un même nombre non nul (différent de zéro), les valeurs prises par une variable, on obtient les valeurs prises par l'autre variable, alors on dit que ces variables sont proportionnelles.

    Le nombre par lequel il faut multiplier la valeur de la première variable pour trouver celle de la deuxième variable s’appelle le coefficient de proportionnalité.

    Proportionnalité

    Des variables proportionnelles peuvent être représentées dans un tableau de proportionnalité.

    Nombre de litres d'essence consommés2,54610
    Nombre de kilometres parcourus5080120200

    Le nombre de litres d’essence consommés et le nombre de kilomètres parcourus sont-elles deux variables proportionnelles ? Autrement dit, par quel nombre faudrait-il multiplier la première ligne du tableau pour trouver la deuxième ligne ?

    *20Nombre de litres d'essence consommés2,54610
    Nombre de kilometres parcourus5080120200


    20 est le coefficient de proportionnalité. Ce nombre représente le nombre de kilomètres parcourus pour un litre d’essence. Les deux variables sont donc bien proportionnelles.

    Tu remarqueras que:

    2,5 * 1,5 = 4Dans un tableau de proportionnalité, tu peux multiplier les valeurs d’une colonne par un nombre pour trouver les valeurs d’une autre colonne.
    50 * 1,5 = 80
    2,5 * 4 = 10
    50 * 4 = 200
    4 + 6 = 10Dans un tableau de proportionnalité, tu peux additionner les valeurs de 2 colonnes pour trouver les valeurs d’une autre colonne.
    80 + 120 = 200


    Si des variables sont proportionnelles et que tu connais 3 valeurs, la règle de trois peut te permettre de trouver la 4ème valeur.

    9 ananas coûtent 36€. Combien coûtent 11 ananas?

    Pour résoudre ce problème, on peut d’abord chercher le prix de 1 ananas et ensuite multiplier le prix obtenu par 11.

    • €36 : 9 = €4 pour 1 ananas
    • €4 x 11 = €44 pour 11 ananas

      11 ananas coûteront donc €44.

      Une observation est une valeur observée pour une variable donnée. Elle peut être qualitative ou quantitative.

      Prenons un exemple : dans le cadre d’une étude sur l’âge des joueurs d’une équipe de football, on a demandé son âge à chacun des joueurs.

      La variable ou la caractéristique que l’on étudie dans ce cas est l’âge des joueurs.

      Voici les résultats obtenus:

      24, 25, 30, 24, 25, 23, 28, 32, 20, 19, 35, 26, 28, 21, 25

       L’ensemble des observations constitue une série.

      Cette série peut être ordonnée en classant les valeurs des observations de la plus petite à la plus grande:

      19, 20, 21, 23, 24, 24, 25, 25, 25, 26, 28, 28, 30, 32, 35

       Cette série peut également être retranscrite dans un tableau que l’on appelle une distribution de fréquences.


      AgeNombre de joueurs
      191
      20
      1
      21
      1
      23
      1
      24
      2
      25
      3
      26
      1
      28
      2
      30
      1
      32
      1
      35
      1

      Total

      15

      La statistique est la science des données. C’est l’ensemble des méthodes qui permettent de recueillir et d’analyser des données. Les objectifs de la statistique sont les suivants : 

      • recueillir des données sur une caractéristique, un sujet, un thème, un phénomène via l’analyse d’une population ou d’une partie de cette population. C’est ce que l’on appelle collecter des données. 
      • extraire des informations des données. C’est le rôle de la statistique descriptive qui à l’aide de paramètres, de graphiques et de tableaux, va permettre de résumer les informations contenues dans les données. 
      • généraliser les conclusions d’une partie de la population à l’ensemble de cette population : c’est l’inférence statistique.

      Toutes les statistiques présentées sur ce site internet sont produites par Statbel, l’office belge de statistiques. Statbel est une Direction générale du Service Public Fédéral Economie.

      L’univers ou la population est l’ensemble des unités (aussi appelées individus) sur lesquelles porte une étude statistique. 

      • Population belge : ensemble des habitants de Belgique (unité=un habitant de Belgique)
      • Parc automobile belge : ensemble des automobiles immatriculées en Belgique (unité=une automobile)
      • Ensemble des arbres d’une forêt (unité=un arbre)
      • Les éléphants d’Afrique (unité = un éléphant)
      • Les élèves d’une école (unité = un élève)

      Les caractéristiques auxquelles l’on s’intéresse dans une étude statistique s’appellent des variables. Variable car la valeur de ces caractéristiques peut varier d’un individu de l’étude à l’autre.

      Certaines variables peuvent s’exprimer:

      • par un nombre: la taille, le poids, le salaire,... Ce sont les variables quantitatives
      • par des qualités: couleur des yeux, le sexe,… Ce sont les variables qualitatives

      Les variables que tu rencontreras en voyageant à travers les thèmes de Statbel Junior sont des variables quantitatives.

      Statbel

      North Gate

      Boulevard du Roi Albert II 16

      1000 Bruxelles

      statbel@economie.fgov.be

      0800 120 33

      Suivez-nous sur

      Made byBits of Love

      SPF Économie / PME, Classes moyennes et Énergie / ©2023 Statbel