Les outils statistiques pour les laborantins

Les outils statistiques sont très utilisés dans un laboratoire, on les utilise quotidiennement pour évaluer certaines données ou tout simplement rendre un résultat à partir de plusieurs mesurages.

Certains nous paraissent évidents, car ils font ou faisaient partis de notre cursus scolaire, d'autres nous semblent plus difficile à utiliser par méconnaissance de leurs objectifs et de leurs cadres d’applications.

Nous allons tenter de démystifier les plus utilisés à partir d'exemples numériques:

Préambule:

Les tests ne sont pas conçus pour prouver ou réfuter des hypothèses.

L'hypothèse que nous tenterons de réfuter dans les différents exemples est généralement toujours celle où il n'y a pas de changement (par exemple: différence entre deux écarts-types d'une population), c'est pour que cela nous l'appelons l'hypothèse nulle H0, elle doit être très simple et représente le statu quo, c'est à dire qu'il n'y a pas de différence entre les processus en cours de test.

Il y'a également l'hypothèse alternative H1, elle représente une diversité dans les situations (une différence inférieure ou supérieure).

Cette méthodologie repose sur 5 étapes distinctes:

1: Formuler le problème pratique en termes d'hypothèses

2: Calculer une statistique (T), une fonction purement issue des données. Elle doit avoir deux caractéristiques :

2.1: Elle doit se comporter différemment lorsque H0 est vrai à partir du moment où H1 est vraie et,

2.2: leur distribution de probabilité doit être calculable dans l'hypothèse où H0 est vraie.

Il est également souhaitable que les tables de distribution de cette probabilité existent.

3: Il faut choisir une tendance, nous devons être en mesure de se prononcer sur T qui sera plutôt dirigé vers H1 étant vrai plutôt que H0.

On ne doit jamais conclure en acceptant H0.

4:Il faut déterminer le niveau du risque α, c'est le risque que l'on prend si on rejette l'hypothèse H0 alors qu'elle est vraie, en général α se situe entre 5 et 10% que l'on notera 0,05 et 0,10 et on l'appelle une erreur de type I.

Il est également possible de ne pas rejeter H0 alors qu'elle est fausse et que H1 est vrai, c'est une erreur de type II et que l'on note β en statistique.

5: Examiner si la valeur de T se situe proche de la prise de non décision ou bien est très largement dans les conditions des tables de distribution.

La grande majorité des tests considèrent que les distributions sont normales.

Les applications numériques peuvent parfois utiliser des erreurs aberrantes par rapport à la performance des équipements, il s'agit avant tout de montrer les difficultés sur la prise de décision.

Rappel d'une Loi normale:

La Loi normale ou gaussienne (distribution) occupe une place importante dans les statistiques et les mesures. Sa courbe familière en forme de cloche permet de calculer la probabilité de trouver un résultat dans une fourchette donnée. L'axe des abscisses correspond à la valeur de la variable considérée et l'axe des y est la valeur de la densité de probabilité.

L'aire hachurée représente la probabilité de la valeur entre les bornes x1 et x2, elle s'obtient en calculant l'intégrale de f(x) entre x1 et x2.

µ représente l'espérance mathématique (la moyenne) et la largeur de la distribution est donnée par la variance σ², la racine carrée de la variance correspond à l'écart type σ des valeurs pour obtenir la moyenne.

Moyenne et écart-type:

Supposons n = 10 mesurages qui donnent les valeurs suivantes:

10,2
9,7
10,3
10,1
9,8
10,5
10,0
9,6
10,4
9,5

La moyenne donnée par:

est l'estimation de µ et vaut: 10,01

L'écart-type est donné par:

s est une estimation de σ et vaut: 0,348

En calculant f(10,01), on trouve 1,146 et f(10,5)= 0,425 =LOI.NORMALE(10,5;10,01;0,348;FAUX) [EXCEL] pour déterminer la gaussienne.

Supposons maintenant que cette série de 10 mesurages est répétée un grand nombre de fois. La moyenne de toutes les valeurs de x tend vers la moyenne µ de la population.

L'écart-type moyen de la population est donné par:

La variance est le carré de l'écart-type:

Z-Test sur la moyenne d'une population (variance connue)

Objectif: pour étudier l'importance de la différence entre la moyenne µ0 obtenue lors d'un process et la moyenne d'un prélèvement réalisé sur ce process (contrôle qualité).

Contraintes: connaître la variance du process σ², la distribution doit être normale.

Problème: une burette automatique délivre 400 µl de réactif (µ0) lors d'un mesurage, l'écart-type σ de ce processus est de 10µl.

Mensuellement, l'opérateur réalise 10 mesures du volume versé, il trouve une moyenne = 406 µl.

Que peut-on penser de la qualité de distribution de la burette?

Hypothèses et alternatives:

Scénario N°1 H0: µ=µ0 et H1:µ≠µ0 (hypothèse bilatérale)

Scénario N°2 H0: µ=µ0 et H1:µ>µ0 (hypothèse unilatérale)

Prise de risque: α = 0,05 (unilatérale et bilatérale:0,025)

La Table des valeurs critiques pour une distribution normale donne pour α = 0,05: Z = 1,64 (unilatérale) et α = 0,05: Z = 1,96 (bilatérale)

Test statistique:

Z = 1,9

Conclusion:

Pour le scénario 1 (distribution bilatérale), Le Z-test est compris entre -1,96 et + 1,96, l'hypothèse nulle H0 ne peut pas être rejetée et il fort probable qu'avec plus de prélèvements, la moyenne x̄ se rapprocherait de µ0.

Pour le scénario 2 (distribution unilatérale), le Z-test est supérieur à 1,64 et l'hypothèse nulle H0 doit être réfutée, seule l'alternative H1 reste valable et la burette présente une dérive.

t-Test sur la moyenne d'une population (variance inconnue)

Objectif: pour étudier l'importance de la différence entre la moyenne µ0 obtenue lors d'un process et une valeur de référence.

Contraintes: la distribution doit être normale, l'échantillonnage doit être de petite taille (n<20).

Problème: une burette automatique délivre un volume fixe moyen (µ0) de 405 µl de réactif lors de 9 mesurages, l'écart-type s estimée de ce processus est de 4 µl.

Le certificat de l'équipement nous annonce une valeur moyenne x̄ = 400 µl.

Que peut-on penser de la qualité de distribution de la burette?

Hypothèses et alternatives:

Scénario N°1 H0: µ=µ0 et H1:µ≠µ0(hypothèse bilatérale)

Prise de risque: α = 0,05 (bilatérale:0,025)

La Table des valeurs critiques pour une distribution de Student donne pour α = 0,05 et ν=9-1=8 degrés de liberté donc t8;0.025=±2,3.

Test statistique:

t = 3,75

Conclusion:

Pour le scénario avec une distribution bilatérale, le t est supérieur à 2,3 et l'hypothèse nulle H0 doit être réfutée, seule l'alternative H1 reste valable et la moyenne du volume fixe est différent (supérieure) à la valeur du certificat (il aurait fallu obtenir 403 µl), un réglage s'impose.

Z-Score

Objectif: le Z-score est utilisé pour comparer une valeur à une population, si le Z-score est inférieur ou égal à 2.0 (probabilité de 95%), on peut conclure de la justesse d’une méthode ou de la valeur dans le niveau de gamme considéré.

Contraintes:/

Problème:

Calcul du Z-score d'un laboratoire par rapport aux 10 résultats obtenus lors d'un essai interlaboratoires: xi=10,5

10,2
9,7
10,3
10,1
9,8
10,5
10,0
9,6
10,4
9,5

Prise de risque:α = 0,05

Test statistique:

xi=10,5; Moyenne =10,01; Ecart-type s=0,348 et donc Z = 1,41

Conclusion:

Le Z-score est inférieure à 2, la valeur est satisfaisante.

Test de Fisher F (2 variances)

Objectif: ce test permet d'étudier l'importance des variances de deux séries de mesures provenant de deux process indépendants (P1 et P2), la variance la plus forte est toujours mise au numérateur: s1

Contraintes: il est limité à deux séries de mesures qui doivent avoir une distribution normale.

Problème: un laboratoire a mis en place un nouvel équipement (P2) et espère obtenir avec ce nouveau process, un écart-type s2 plus petit que celui obtenu avec le process (P1).

Que peut-on dire sur les deux variances de ces deux populations? Est-il probable qu'elles diffèrent?

Hypothèses et alternatives:

 

Scénario H0: s1=s2 et H1:s1>s2 (hypothèse unilatérale)

Prise de risque: α = 0,05

Test statistique:

1 2 3 4 5 6 7 8 9 10 x̄  s
P1
10.2
9.7
10.3
10.1
9.8
10.5
10.0
9.6
10.4
9.5
10.01 0.348
P2 11.3 11.1 11.5 11.5 11.0 11.4 11.3 / / / 11.30 0.191

 

s1² = 0.121 ; s2² = 0.036 et F = 3.3

F doit être comparé à la Table de Fisher-Snedecor qui nécessite de connaitre les degrés de liberté de chacune des séries et dans notre cas, nous avons respectivement 10 et 7 valeurs donc ν1=10-1=9 et ν2=7-1=6.

La table donne une valeur critique Fc = 4,10, ce qui est supérieur à 3.3, cela signifie que l'hypothèse nulle ne peut pas être rejetée, le laboratoire ne peut donc affirmer avec une confiance de 95% que son nouvel équipement fournisse un écart-type plus petit.

Test du khi²

Objectif: Pour étudier la différence entre un échantillon de variance s et la variance d'une population σ.

Contraintes: il est supposé que les valeurs de l'échantillon suivent une loi normale.

Problème: je réalise 10 mesurages sur un échantillon E1, ce qui me donne un écart-type de s=3,46.

Le suivi régulier de l'échantillon E1 sur plusieurs mois me donne un écart-type de σ=3,01.

La variabilité de mon échantillon à t-elle changée?

Hypothèses et alternatives:

Scénario N°1 H0: s=σ et H1:s≠σ (hypothèse bilatérale)

Scénario N°2 H0: s=σ et H1:s>σ (hypothèse unilatérale)

Prise de risque: α = 0,05

Test statistique:

Soit s l'écart-type de mon laboratoire avec 9 degrés de liberté (10-1) et σ l'écart-type de la population.

chi²= 11,9

En consultant la Table du chi², on constate que pour un nombre de degré de liberté de 9 et une probabilité de 95%, le chi²= [2,70;19,02] pour le scénario 1 et le chi²= [3,33;16,92] pour le scénario 2, la valeur du chi² est comprise entre les bornes, l'hypothèse nulle ne peut pas être rejetée, la différence entre les deux variances n'est pas significative, mon échantillon n'a pas changé.

Table des valeurs critiques pour une distribution normale

Table des valeurs critiques pour une distribution de student

Table de Fisher-Snedecor

Table du chi²