Au cours de l’année écoulée, les statistiques ont occupé une place inhabituellement importante dans l’actualité. Quelle est la précision du test Covid-19 que vous utilisez ? Comment les chercheurs connaissent-ils l’efficacité des nouvelles thérapies contre cette nouvelle maladie ?
Chacune de ces questions implique un certain degré d’incertitude, mais il est toujours possible de faire des prédictions précises tant que cette dernière est bien comprise. L’un des outils utilisés par les statisticiens pour quantifier l’incertitude est appelé la marge d’erreur.
Des données limitées
Je suis statisticien, et une partie de mon travail consiste à faire des déductions et des prévisions. Avec un temps et un argent illimités, je pourrais simplement tester ou sonder tout le groupe de personnes qui m’intéressent pour évaluer la question que j’ai en tête et trouver la réponse exacte. Par exemple, pour connaître le taux d’infection par la Covid-19 dans un pays, je pourrais simplement tester l’ensemble de sa population. Cependant, dans la vraie vie, on ne peut jamais accéder à 100 % d’une population.
Au lieu de cela, les statisticiens prélèvent un échantillon d’une petite partie de la population et construisent un modèle pour faire une prédiction. En utilisant les théories statistiques, le résultat de l’échantillon est extrapolé pour représenter l’ensemble de la population.
Idéalement, un bon échantillon doit être représentatif de la population totale, y compris le sexe, la diversité d’origine, socio-économique, les modes de vie et d’autres mesures démographiques. Plus l’échantillon est grand, plus il ressemble à la population réelle, et plus les statisticiens ont confiance dans leurs prévisions. Mais il y aura toujours une certaine incertitude.
Quantifier l’incertitude
Prenons par exemple le développement de médicaments. Il est toujours vrai de prédire qu’un nouveau médicament sera efficace entre 0 % et 100 % pour toute la population mondiale. Mais ce n’est pas une prédiction très utile. C’est le travail d’un statisticien de réduire cet intervalle à quelque chose de plus utile. Les statisticiens l’appellent généralement un intervalle de confiance, et c’est dans cette fourchette de prédictions que les statisticiens sont très confiants de donner le vrai chiffre.
Si un médicament a été testé sur 10 personnes et que chez 7 d’entre elles il a eu un effet, l’efficacité du médicament est estimée à 70 %. Mais comme l’objectif est de prédire l’efficacité dans l’ensemble de la population, les statisticiens doivent tenir compte de l’incertitude liée au fait de ne tester que 10 personnes.
Les intervalles de confiance sont calculés à l’aide d’une formule mathématique qui englobe la taille de l’échantillon, la gamme des réponses et les lois de la probabilité. Dans cet exemple, l’intervalle de confiance se situerait entre 42 % et 98 %, soit une fourchette de 56 points de pourcentage. Après avoir testé seulement 10 personnes, vous pourriez dire avec un degré de confiance élevé que le médicament est efficace pour 42 % à 98 % des personnes dans l’ensemble de la population.
Si vous divisez l’intervalle de confiance par deux, vous obtenez la marge d’erreur – dans ce cas, 28 %. Plus la marge d’erreur est grande, moins la prédiction est précise. Plus la marge d’erreur est faible, plus la prédiction est précise. Une marge d’erreur de près de 30 % reste une fourchette assez large.
Cependant, imaginez que les chercheurs aient testé ce nouveau médicament sur 1 000 personnes au lieu de 10 et qu’il ait été efficace sur 700 d’entre elles. L’efficacité du médicament sera toujours estimée à environ 70 %, mais cette prédiction est beaucoup plus précise. L’intervalle de confiance pour l’échantillon le plus large sera compris entre 67 % et 73 % avec une marge d’erreur de 3 %. On peut dire que ce médicament devrait être efficace à 70 %, plus ou moins %, pour l’ensemble de la population.
corona