Exercices corrigés de la statistique
Exercice 1:
Soit la liste suivante des prénoms d’un groupe d’étudiants suivis entre parenthèses d’une indication du nombre de livres lus dans l’année (A = peu, B = moyen, C = beaucoup, D = exceptionnel) : Pierre (C), Paul (C), Jacques (A), Ralph (B), Abdel (A), Sidonie (B), Henri (C), Paulette (B), Farida (B), Laure (C), Kevin (D), Carole (B), Marie-Claire (A), Jeannine (C), Julie (C), Ernest (C), Cindy (C), Vanessa (D), José (C), Aurélien (C).
1. Définissez la distribution de ces étudiants suivant leur appétit de lecture (population, caractère, etc.)?
2. Construisez le tableau représentatif de cette distribution?
3. Représentez cette distribution à l’aide d’un diagramme en tuyaux d’orgue?
1. La population est constituée des 20 étudiants nommés, chacun constituant une unité statistique. Le caractère est l’appétit de lecture, chaque étudiant étant caractérisé par un appétit plus ou moins grand (ou égal) par rapport aux autres. Cet appétit serait un caractère quantitatif s’il était mesuré par un nombre de livres lus. Une indication du nombre de livres lus n’est pas une quantité mais une qualité, même s’il y a un ordre: moyen n’est pas un nombre. Le caractère est donc qualitatif (et ordinal).Les modalités sont au nombre de quatre : A, B, C, D. Elles sont chacune une rubrique de la nomenclature des degrés de lecture.
2. Le tableau est alors constitué de quatre lignes (une par modalité) et deux colonnes (une pour la nomenclature et une pour les effectifs), sans oublier le titre et la source des données :
Répartition du groupe en degrés de lecture
Ou, si on veut gagner de la place, deux lignes et quatre colonnes :
Répartition du groupe en degrés de lecture
3. Le diagramme représentatif en tuyaux d’orgue consiste en 4 parallélépipèdes rectangles droits (un pour chaque modalité), tous de même largeur et d’aire (et donc de hauteur) proportionnelle à l’effectif correspondant à chaque modalité :
Exercice 2:1. Le bureau des statistiques du Cengio a mesuré les quantités produites par quatre secteurs de sa zone de compétence, ce qui a donné les chiffres suivants (en unités de valeur) :
a- Caractérisez la distribution statistique correspondant à ces données (population, caractère, etc.).
b- Représentez cette distribution par un diagramme en secteurs circulaires.
2. La même mesure effectuée par le bureau de Faggiana a donné ces chiffres (en unités de valeur) :
a- Même travail que sur les données du Cengio.
b- Représentez les deux séries sur un même graphique, par deux demi-cercles opposés sur une droite horizontale, l’aire de chaque demi-cercle étant dans la même proportion de la valeur totale correspondante. (Calculez les angles des secteurs pour une représentation par un graphique en secteurs semi-circulaires et le rapport entre les rayons de chaque demi-cercle).
1. a- On pourrait certes définir une distribution des secteurs suivants leur niveau de production (en faisant des classes : moins de 80 000 ; etc.), mais au vu des données (et aussi de la question b- suivante !) il est naturel et habituel de considérer la distribution du produit suivant les secteurs d’origine.
La population est constituée des 432000 UV de produit des quatre secteurs considérés, chaque UV constituant une unité statistique : l’UV de produit.
Le caractère est le secteur productif d’origine, chacun correspondant à type de produit, ce qui est une qualité. Le caractère est donc qualitatif.
Les modalités sont au nombre de quatre : Marbre, Peaux, Chimie, Tourisme. Elles sont chacune une rubrique de la nomenclature des secteurs de production (en comptabilité nationale on a les NAF, nomenclatures d’activités et de produits, dont NAF 60, 222 et 700 ; on pourrait parler ici d’une NAF 4).
b- Le diagramme en secteurs circulaire représente les effectifs correspondant aux modalités par des portions de cercle, des secteurs, dont les aires sont proportionnelles aux effectifs. On trace donc un cercle de rayon quelconque et la proportionnalité des aires est obtenue par celle des angles.
On construit le tableau suivant :
Il vient alors le diagramme ci-dessous (en utilisant un rapporteur, par exemple) :
2. a- On a évidemment la même distribution, la population étant cette fois constituée des 345 000 UV de produit des quatre secteurs considérés. On construit alors le tableau suivant :
On obtient les mêmes angles, c’est-à-dire qu’il y a juste une différence d’échelle entre les mesures des deux bureaux des statistiques. Le diagramme est alors identique au précédent (qui représente les données calculées par le bureau du Cengio).
b- Pour tracer un diagramme en secteurs semi-circulaire, on rapporte les effectifs à 180°, on obtient donc les angles en divisant par deux ceux correspondants du diagramme circulaire.
Quant aux rayons des deux demi camemberts, ils doivent être dans un rapport tel que les aires desdits demi camemberts soient dans le rapport de 345 600 à 432 000.
Soient A et r l’aire et le rayon du demi camembert représentatif des données du bureau du Cengio,
A’ et r’ ceux du demi camembert représentatif des données du bureau de Faggiana.
On trace alors le diagramme demandé :
Exercice 3: Dans la République du Cheutland, une enquête en vue de la réduction du montant des allocations familiales, a été réalisée auprès d’une population de femmes de 40 ans. Cette enquête a donné les résultats suivants :
1. Caractériser la distribution.
2. Tracer le diagramme différentiel.
3. Définir et représenter la fonction de répartition.
4. Donner la proportion des femmes ayant moins de 4 enfants.
5. Etablir la distribution des enfants selon le nombre de leurs frères et sœurs.
1. population : 100 femmes de 40 ans ; unité statistique : une femme ; caractère : le nombre d’enfants (caractère quantitatif discret) ; modalités : au nombre de 5 (0, 1, 2, 3,4).
2. La distribution statistique étant discrète, le diagramme différentiel est un diagramme en bâtons. Dans ce diagramme, on porte en abscisse les différentes modalités du caractère c’est à dire les différentes valeurs prises par la variable (0, 1, 2, 3,4) ; en ordonnée seront indiqués soit les effectifs soit les fréquences relatives afférentes à chaque modalité.
3. La fonction de répartition d’une variable X notée F est une application de l’ensemble R dans l’ensemble R, qui à toute valeur donnée x de R, associe le nombre d’individus appartenant à la population pour lesquels la valeur de la variable est strictement inférieure à x.
En termes de proportion, la fonction de répartition est une application de l’ensemble R dans l’intervalle [0,1], qui à toute valeur donnée x de R, associe la proportion des individus appartenant à l’ensemble statistique pour lesquels la valeur de la variable est strictement inférieure à x.
4. La proportion des femmes ayant moins de 4 enfants se lit directement dans le tableau : 0,8 ou 80%.
5. A partir de la distribution précédente, il faut construire une nouvelle distribution des enfants selon le nombre de leurs frères et sœurs. La variable x’i (nombre de frères et de sœurs) prend les valeurs i=1, 2, 3. L’effectif correspondant est alors déterminé par les produits ni.xi.
Exercice 4:La CIPRES (organisme d’enquête et de sondage) a réalisé une enquête, pour le compte du syndicat CGBC, sur le nombre de salariés de 40 entreprises industrielles de la région d’Aquitaine équatoriale. Le dépouillement des questionnaires a donné les résultats suivants :
1. Définir la population (ensemble statistique), l’unité statistique (individu), le caractère et ses différentes modalités.
2. A partir des données de l’enquête, établir la distribution des entreprises selon le nombre de salariés. Pour ce faire, on définit 5 classes de valeur de la variable d’amplitudes respectives : 20, 10, 10, 20, 20. La borne inférieure de la distribution est fixée à 20 et la borne supérieure à 100.
3. Tracer le diagramme différentiel.
4. Définir la fonction de répartition et tracer le diagramme intégral.
1. L’ensemble statistique est constitué par les 40 entreprises enquêtées. L’unité statistique objet de l’observation est l’entreprise. Le caractère, le nombre de salariés, est un caractère quantitatif. Les modalités sont les valeurs prises par le caractère, elles s’échelonnent de 20 à 99.
2. Les données brutes issues de l’enquête sont discrètes. En effet à chaque unité statistique correspond un effectif entier spécifique de salariés. La transformation en distribution continue répond à plusieurs préoccupations : simplification, clarté des représentations graphiques... Il est à noter que cette transformation engendre une perte d’information par rapport aux données brutes.
3. La distribution étant continue, le diagramme différentiel est un histogramme.
Les classes de valeur de la variable possèdent des amplitudes différentes, il convient donc de rectifier les effectifs ou les fréquences en vue de la représentation graphique. Le PGCD des amplitudes a pour valeur 10. Cette valeur constitue l’unité (u = 10) dans laquelle sont exprimées les amplitudes des 5 classes. L’amplitude de la classe i a pour nouvelle valeur : a’i = a i /u. On calcule ensuite la densité d’effectif ou de fréquence d’i = ni/ a’i ou d’i = fi/ a’i. Ces valeurs sont portées sur l’axe des ordonnées.
4. Le diagramme intégral est la courbe des fréquences cumulées croissantes, représentative de la fonction de répartition. Cette courbe est en fait une ligne brisée.
.