L’année scolaire et universitaire est maintenant bien engagée. Pour ne pas risquer de se laisser dépasser par les événements, il est fortement recommandé d’assimiler les notions nouvelles avec régularité. Les mathématiques ne représentent pas le pôle le plus important des formations de technicien supérieur, mais permettent néanmoins d’engranger des points qui peuvent s’avérer précieux au moment du décompte final de l’examen. En outre, le programme de cette matière, s’il est abordé avec l’attention et le sérieux nécessaires, est loin d’être insurmontable et les résultats obtenus peuvent faire la différence dans le cas de demande de poursuite d’études. C’est d’ailleurs également le cas pour d’autres disciplines dites générales, par opposition aux matières techniques.
Comme je l’ai déjà souligné dans le billet précédent, le blog de Mathtecsup vous propose de suivre en direct et régulièrement le déroulement d’une préparation efficace à l’épreuve de mathématiques de l’examen du BTS. A raison d’une fois par semaine environ, je reviendrai donc en détail sur les notions que je traite moi-même avec mes étudiants. Toutefois, il ne se substitue en aucune façon au site Mathtecsup qui subira encore certaines évolutions au cours de cette année et que vous pouvez continuer à consulter comme bon vous semble. La différence réside surtout dans le fait que le blog vous propose une progression chronologique dans l’étude des notions du programme alors qu’avec le site, vous disposez de l’ensemble du programme. D’autre part, vous pouvez si vous le souhaitez déposer vos interrogations en commentaires, auxquels je me ferai autant que possible un plaisir de répondre.
Avant de commencer votre préparation d’un bon pied, je vous précise que le présent article sera le dernier en accès libre. Je vous avais parlé en effet dans le précédent message de la création d’un espace membre sur ce blog. Ce sera donc chose faite dans le prochain billet. Rassurez-vous, l’inscription sera absolument gratuite, ainsi que l’accès aux articles du blog une fois votre inscription validée. Par ce procédé, je tiens simplement à m’entourer de personnes réellement intéressées et motivées par cette préparation. Débutons donc dès maintenant par un survol des notions de statistique descriptive, qui est le thème que j’aborde la plupart du temps à la rentrée avec mes étudiants : les statistiques à une variable en 1ère année et à deux variables en deuxième année. Sans tarder, au boulot!
1. Calcul d’une moyenne
Comme ce sera souvent le cas sur le blog de Mathtecsup, plutôt que de vous faire ingurgiter quantité de formules que vous trouverez de toute façon sur le site de Mathtecsup, ce sont ici des méthodes pratiques que je vous exposerai, avec le plus de détails et d’explications possibles.
Vous connaissez sans doute les trois manières de présenter une série statistique. La première consiste à l’énoncé de toutes les valeurs de la série données sous forme brute. Par exemple, le relevé des prix du litre d’essence en euros dans dix stations service d’une grande ville qui pourrait être : 1,48 ; 1,49 ; 1,49 ; 1,50 ; 1,51 ; 1,51 ; 1,51 ; 1,52 ; 1,53 et 1,53. Dans cas, pour calculer la moyenne de cette série, il suffit d’ajouter les dix valeurs relevées et de diviser le total par 10, qu’on appelle encore l’effectif total de la série. Effectuez ce calcul : vous devriez obtenir pour valeur 1,507€ qui est donc le prix moyen du litre d’essence dans la ville en question.
Quand vous avez affaire à ce type de série statistique, dont les valeurs sont listées sous forme de données brutes, la moyenne est donc obtenue en additionnant toutes les valeurs données et en divisant par le nombre de valeurs qui est l’effectif total de la série. Jusque là, rien de bien compliqué, vous en conviendrez.
Une autre manière de fournir une série statistique est de présenter les valeurs dans un tableau d’effectifs, où les valeurs de la série figurent sur la 1ère ligne du tableau et leurs effectifs respectifs, c’est-à-dire le nombre de répétitions des valeurs auxquels ils correspondent, sur la 2ème ligne. C’est le cas par exemple de la série suivante, qui donne les résultats sur 20 d’un groupe de 20 étudiants de BTS à un examen de mathématiques :
| Note obtenue |
5 |
8 |
10 |
11 |
13 |
16 |
19 |
| Effectif |
2 |
3 |
5 |
4 |
3 |
2 |
1 |
Dans ce cas de figure, il vous faudra multiplier chaque valeur par son effectif correspondant (5 par 2, 8 par 3, 10 par 5, etc…), d’ajouter le tout puis de diviser par l’effectif total qui est ici de 20. Si vous effectuez ce calcul, vous devriez obtenir 10,9, qui représente donc la note moyenne de ce groupe à l’examen.
Terminons ce paragraphe avec la dernière façon de présenter une série statistique à une variable. Il s’agit des séries qu’on appelle continues, qui sont données sous forme d’intervalles, encore appelées classes, par opposition aux séries que nous avons étudiées précédemment et qui sont qualifiées de discrètes. Nous ne nous attarderons pas sur ce type de série car il suffit de remplacer chaque intervalle de valeur par son centre pour se ramener au cas précédent.
On appelle en effet série continue une série statistique où les données peuvent prendre n’importe quelle valeur située dans un intervalle. C’est le cas par exemple d’une série où l’on s’intéresse à la taille d’un groupe de personnes. Les différentes tailles relevées se situent généralement entre 150 et 210 cm. On classera alors ces données dans des intervalles d’amplitude 10 cm, ce qui donnera par exemple :
| Taille en cm |
[150 ; 160[ |
[160 ; 170[ |
[170 ; 180[ |
[180 ; 190[ |
[190 ; 200[ |
[200 ; 210[ |
Effectif |
3 |
5 |
15 |
12 |
13 |
2 |
Comme nous l’avons dit auparavant, on remplace chaque intervalle (ou classe) par son centre, c’est-à-dire successivement 155, 165, 175, 185, 195 et 205 et la moyenne se calcule alors comme dans la situation précédente. Effectuez ce calcul par vous-même : vous devez obtenir 181,6 cm, qui est donc la taille moyenne de ce groupe de personnes.
La moyenne d’une série statistique est un caractère (ou une caractéristique) de position. Le caractère que nous allons étudier maintenant sert à mesurer quant à lui la dispersion d’une série statistique.
2. Calcul d’un écart type
Considérons par exemple deux séries de notes, donnant les résultats de deux groupes d’étudiant à un examen de mathématiques. Ces séries sont données par les deux tableaux suivants :
| Note obtenue 1er Groupe |
5 |
8 |
10 |
11 |
13 |
16 |
19 |
| Effectif |
2 |
3 |
5 |
4 |
3 |
2 |
1 |
| Note obtenue 2ème Groupe |
9 |
10 |
11 |
15 |
| Effectif |
4 |
6 |
7 |
3 |
La moyenne a déjà été calculée dans le paragraphe précédent et vaut 10,9. Si vous calculez celle du deuxième groupe, vous devez également obtenir 10,9. Peut-on dire pour autant que les deux groupes ont le même profil ? Pour répondre à cette question, nous allons utiliser un critère appelé écart type. Auparavant, introduisons une quantité particulière que l’on nomme la variance de la série. Il existe deux manières de calculer une variance et les deux se ramènent en fait à un calcul de moyenne. Nous n’utiliserons que la seconde qui s’obtient en calculant la moyenne des carrés des différentes valeurs et en retranchant le carré de la moyenne de la série au résultat obtenu.
Ainsi, pour calculer la variance de la première série, calculez tout d’abord les carrés des valeurs fournies, soit dans l’ordre 25, 64, 100, 121, 169, 256 et 361. Procédez ensuite au calcul de la moyenne de cette série des carrés, sans oublier les effectifs correspondants à chaque valeur, c’est-à-dire 2 pou 25, 3 pou 64, 5 pour 100, et ainsi de suite. Enfin, une fois ce calcul effectué, il restera à soustraire le carré de la moyenne de la série, qui était de 10,9. Si vous faites le calcul de cette variance comme indiqué, le résultat que vous obtenez doit être de 11,49.
Par définition, l’écart type est la racine carrée de la variance, ce qui donne dans le cas de notre exemple 3,39. Calculez de même la variance puis l’écart type de la série des valeurs du deuxième groupe. Vous devez respectivement obtenir 3,49 pour la variance et 1.89 pour l’écart type. Pour finir, interprétons ces différents résultats. Les deux séries ont la même moyenne, mais au vu de leurs valeurs, on peut constater avant même de calculer leur variance et leur écart type que celles de la première semblent plus dispersées que celles de la deuxième. Cela se traduit numériquement par un écart type plus important pour la première série.
En fait, l’écart type est précisément un caractère numérique traduisant l’importance de la dispersion d’une série. Plus il est faible, plus les valeurs de la série sont regroupées autour de la moyenne de la série. A contrario, plus il est fort et plus les valeurs sont éloignées de cette moyenne. Concrètement, l’écart type représente l’éloignement moyen des valeurs d’une série par rapport à sa moyenne. Pour résumer, on dira encore qu’une série est plutôt homogène si son écart type est petit alors qu’elle sera hétérogène si celui-ci est grand.
La moyenne et l’écart type serviront de paramètres importants dans le cadre de la statistique inférentielle qui constitue une partie importante du programme de 2ème année. Dans le prochain billet, nous nous intéresserons aux histogrammes et au polygone des effectifs cumulés, ainsi qu’à la médiane et aux quartiles d’une série statistique. Passons maintenant aux notions relatives aux statistiques à deux variables.
3. Nuage de points
Une série statistique à deux variables est la donnée de valeurs relatives à deux caractères relevés sur une population et pour lesquels on souhaite établir un lien de corrélation afin d’établir des estimations pour des valeurs inconnues non relevées par expérimentation. Une telle série est présentée sous la forme d’un tableau à deux lignes où les valeurs du 1er caractère figurent sur la 1ère ligne et les valeurs du 2ème caractère sur la 2ème ligne. Contrairement aux statistiques à une variable, il n’est jamais ici question d’effectifs correspondants aux valeurs de la série. L’effectif total de la série sera tout simplement le nombre de colonnes du tableau. Par exemple, le tableau suivant donne l’évolution comparée du prix de la baguette de pain et du salaire horaire moyen horaire en euros, relevés dans un certain pays au cours de cinq années consécutives.
| Prix de la baguette |
0,45 |
0,48 |
0,51 |
0,53 |
0,57 |
| Salaire horaire moyen |
7,52 |
7,53 |
7,54 |
7,55 |
7,56 |
Le nuage de points d’une série est l’ensemble des points représentés dans un repère à l’échelle convenablement choisie, dont les coordonnées sont fournies par les colonnes du tableau, l’abscisse étant sur la 1ère ligne et l’ordonnée sur la 2ème ligne. Pour établir un lien de corrélation, il est nécessaire que l’allure du nuage suive la courbe d’une fonction particulière. Dans le cas qui nous préoccupe aujourd’hui, cette fonction sera une fonction affine et le lien liant les deux variables (le prix de la baguette et le salaire horaire moyen) sera établi par une équation de droite appelée droite de régression. Voyons comment obtenir les coefficients de cette équation de droite.
4. Droite de régression de y en x
Si vous avez construit le nuage de points précédent dans un repère, vous avez dû constater que celui-ci prend une forme allongée rappelant celle d’une droite, même si les points ne sont pas parfaitement alignés. Il serait possible de construire une infinité de droites passant par certains de ces points, et suffisamment proches de l’ensemble des points du nuage. Parmi toutes ces droites, on a démontré qu’il en existe une seule qui soit la plus proche possible des points du nuage, c’est-à-dire pour laquelle la somme des distances mesurées de chacun des points du nuage à cette droite soit la plus petite possible. Cette droite particulière s’appelle droite de régression de y en x, ou encore droite des moindres carrés, pour rappeler cette notion de distance minimale. Rassurez-vous, cette démonstration n’est pas au programme et vous n’aurez jamais à calculer les distances citées auparavant.
Les formules donnant les coefficients de l’équation de la droite de régression ont été établies une fois pour toutes et c’est cela uniquement que vous aurez à utiliser. Mais nous allons avoir besoin tout d’abord d’une quantité calculée à partir des valeurs de la série statistique à deux variables appelée covariance.
4.1. Covariance
Comme pour la variance, il existe deux formules permettant de calculer la covariance d’une série statistique double, que vous pouvez trouver sur le site Mathtecsup, mais vous n’utiliserez que la plus simple, qui consiste à multiplier chaque valeur de la 1ère ligne par la valeur qui lui correspond sur la 2ème ligne, de faire la moyenne de ces produits et de retirer le produit des moyennes de chaque ligne au résultat obtenu. Cela signifie qu’il faut calculer au préalable la moyenne de chaque série représentée par chacune des lignes du tableau.
Effectuons le calcul de la covariance de la série de notre exemple. Concernant le prix moyen de la baguette, vous devez obtenir 0,508€. Pour la moyenne des salaires horaires moyens, le résultat est de 7.54€. Procédons ensuite à la moyenne des produits des valeurs de la série double. Il nous faut donc multiplier 0,45 par 7,52, 0,48 par 7,53 et ainsi de suite puis de faire la moyenne de ces produits. Si vous faites ce calcul, vous devez obtenir 3,8309. A ce résultat, retirez ensuite le produit des deux moyennes obtenues précédemment, c’est-à-dire 0,508 par 7,54, et vous obtiendrez la valeur de la covariance qui est alors de 0,00058.
4.2. Coefficient directeur de la droite de régression
Le coefficient directeur de la droite de régression, soit encore le coefficient a de l’équation de cette droite sous la forme y=ax + b s’obtient en divisant la covariance dont nous avons parlé dans le paragraphe précédent, par la variance de la série de la 1ère variable, c’est-à-dire de la série des prix de la baguette dans l’exemple qui nous concerne. Rappelons que cette variance se calcule en soustrayant à la moyenne des carrés des valeurs le carré de la moyenne qui vaut dans notre exemple 0,508. Si vous calculez cette variance par vous-même, vous devez obtenir 0,001696. Il nous reste alors à diviser la valeur de la covariance obtenue au paragraphe précédent, soit 0,00058, par cette variance et cela nous donne la valeur de a qui est donc de 0,34199.
4.3. Point moyen du nuage de points et ordonnée à l’origine de la droite de régression
On appelle point moyen du nuage de points le point, généralement noté G, dont les coordonnées sont les moyennes respectives de chaque série de valeurs. Dans notre exemple, le point G a pour coordonnées 0,508 et 7,54. On prouve que ce point moyen appartient à la droite de régression, ce qui nous permet de déterminer le coefficient b de l’équation de la droite de régression. En effet, l’équation de cette droite étant y = ax + b, et le coefficient a étant désormais connu, il suffit de remplacer x et y par les moyennes respectives de chaque série pour obtenir le coefficient b. Celui-ci s’obtient alors en soustrayant à la moyenne de la 2ème série le produit du coefficient a par la moyenne de la 1ère série. Comme la moyenne de la 2ème série (des salaires horaires) vaut 7,54, le coefficient a vaut 0,34199 et enfin la moyenne de la 1ère série vaut 0,508, vous devez obtenir 7,36627.
L’équation de la droite de régression s’écrit donc finalement : y = 0,34199x + 7,36627.
4.4 Utilisation de l’équation de la droite de régression
Nous avons déterminé un lien entre le prix de la baguette dans le pays en question et le salaire horaire moyen. Nous pouvons donc maintenant calculer par exemple quel serait le salaire horaire correspondant à un prix de la baguette fixé à 0,75€. Il suffit pour cela de remplacer x par 0,75 dans l’équation établie précédemment et de calculer la valeur de y correspondante. Si vous effectuez ce calcul, vous devez en principe obtenir environ 7,62€. De même si l’on souhaite savoir combien coûterait la baguette si le salaire horaire était de 8€, il nous faut remplacer cette fois y par 8 et déterminer la valeur de x correspondante. Faîtes ce calcul : vous devez trouver environ 1,85€.
Voilà pour ce billet qui, je l’espère, vous aura été utile pour vous plonger (ou vous replonger) dans les études statistiques à une ou deux variables. A bientôt pour un prochain article. N’hésitez pas à me faire part de vos impressions et de vos questions en commentant ce post : je m’efforcerai de vous répondre. Bon travail en attendant.