Vidéo pop :: La loi de Benford

Dans cette vidéo, nous découvrons le fait surprenant que beaucoup de séries statistiques contiennent des nombres avec comme premier chiffre un, plus que d’autres premiers chiffres possibles, et nous envisageons pourquoi cela arrive.

11:17

Transcription de la vidéo

Dans cette vidéo, nous allons voir une façon ingénieuse utilisée par les comptables judiciaires pour détecter la fraude. Elle a été utilisée pour découvrir les escroqueries, les recherches fictives et les comptes falsifiés. Et cela conduisait à des condamnations criminelles. Cependant, beaucoup de gens ne connaissent toujours pas la loi de Benford.

Avant de parler du sujet principal, nous allons faire un petit détour en arrière, à un temps où les gens n’avaient pas de calculatrices ou des ordinateurs pour effectuer les calculs compliqués. Mais ils avaient quelques tours dans leur sac afin de faciliter la vie.

Par exemple, pour multiplier deux grands nombres ensemble, au lieu de faire une longue multiplication, on cherchait les logarithmes de leurs nombres dans un livre de tables de logarithmes, on les additionnait puis on convertissait la réponse en un nombre régulier à l’aide des tables d’antilogarithmes. Et on pouvait aussi faire les divisions en soustrayant les logarithmes. Cela évitait beaucoup de perte de temps avec les longues multiplications.

Cette histoire de logarithmes et comment ça marche est très fascinante. Il y a 400 ans, un homme nommé John Napier a passé 20 ans à créer un énorme tableau où sont inscrites les valeurs logarithmes des nombres entiers jusqu’à 10 millions, en utilisant essentiellement en base un moins 10 à la puissance moins sept pour faciliter ses calculs. Puis son ami Henry Briggs le convertit en logs de base 10, ce qui a facilité pour tout le monde l’utilisation des tableaux pour faire les calculs.

Puis en 1881, un astronome américain nommé Simon Newcomb était en train d’utiliser les tables des logarithmes pour effectuer des tas de calculs. Il remarqua que les premières pages qui contenaient des logarithmes de valeurs commençant par un et deux étaient plus usées que les autres pages. Il fit quelques recherches et publia un document sur les probabilités que les premiers chiffres prennent de certaines valeurs. Plus tard au cours de sa carrière, il suggéra que les astronomes ont presque atteint la phase où ils apprirent tout ce qu’ils pouvaient sur le ciel nocturne. Mais il avait tort à propos de ça. Cependant, il avait raison à propos de la distribution inégale des premiers chiffres.

Près de 60 ans plus tard, un physicien nommé Frank Benford remarqua séparément la distribution non uniforme des premiers chiffres dans un éventail complet de séries statistiques présentant les populations de villes, des valeurs de constantes physiques, des nombres statistiques utilisés dans des articles de nouvelles, les aires des surfaces des rivières, etc. Et désormais, le monde était prêt à accepter ce phénomène. Et il est devenu connu comme la loi de Benford, malgré qu’il l’eût appelée la loi des nombres anormaux. En plus, il n’était pas le premier à le découvrir.

Cela arrive souvent, qu’une loi soit nommée d’après une autre personne que celle qui l’a découverte en premier. Et lorsque j’ai fait quelques recherches pour cette vidéo, j’ai trouvé que ce phénomène est connu comme la loi d’éponymie de Stigler. Et ironiquement, lorsque Stephen Stigler proposa sa loi d’éponymie, il nota qu’elle fut déclarée pour la première fois par une personne nommée Robert Merton.

Vous serez ravis d’apprendre que maintenant, beaucoup de personnes appellent la loi de Benford « loi de Newcomb-Benford », dans l’intention de reconnaître les mérites du premier découvreur. Mais en résumé, la distribution statistique du premier chiffre, ou du plus important chiffre, de certains genres de données ressemble à peu près à cela.

Cela signifie que un est le premier chiffre environ 30 pourcent des cas, tandis que neuf n’est le premier chiffre que quatre ou cinq pourcent des cas. Et cela peut être étonnant au début. On peut croire que tous les chiffres ont d’égales probabilités d’apparaître. Ainsi les nombres commençant avec un, deux, trois, quatre, cinq, six, sept, huit ou neuf seront aussi prévalents l’un que l’autre avec une probabilité d’un neuvième, environ 11 pour cent.

Nous avons parlé des logarithmes pour expliquer comment Newcomb a découvert cet effet pour la première fois. Mais en fait, la formule pour calculer la probabilité prévue de chaque premier chiffre comporte aussi des logarithmes. La probabilité que le premier chiffre soit 𝑥 est égale à log base 10 de un plus un sur 𝑥. Donc la distribution que nous obtenons est différente de l’uniforme distribution que nous pouvions obtenir si le premier chiffre avait la même probabilité d’être un, deux, trois, quatre, cinq, six, sept, huit ou neuf.

Mais si nous pensons à cela pour un instant, nous verrons que cette loi n’est efficace qu’avec certains genres de distributions de nombres. Par exemple, si vous mesurez les tailles de personnes adultes en mètres, alors on s’attendra à ce que beaucoup plus de 30 pour cent commencent avec le chiffre un. Et si vous prenez ces mesures en pieds, alors aucune d’elles ne commencera avec un.

Mais si nous nous limitons à regarder juste les nombres compris entre un et 90, alors 12 pour cent commenceront avec un, 12 pour cent avec deux, et ainsi de suite. Mais seulement deux d’entre eux, à peu près deux pour cent, commencent avec neuf. La distribution des premiers chiffres est uniforme sauf pour les neuf. Et la loi de Benford ne s’applique pas. Pour de différentes séries de nombres, il paraît clairement que moins de nombres commenceront avec les plus grands chiffres.

La loi s’applique le mieux avec des nombres qui couvrent une série d’ordres de grandeurs, qui sont des puissances de 10, donc un seul chiffre, des dizaines, des centaines, des milliers, et ainsi de suite, et auxquels aucune contrainte artificielle n’est appliquée. Par exemple, les numéros de téléphone sont tous de même longueur et commencent avec des indicatifs régionaux spécifiques. Et les cartes bancaires ont toutes l’identificateur d’industrie comme premier chiffre, qui fait partie du nombre d’identification de la banque. Donc il ne faut pas s’attendre à ce que la loi s’applique lorsque les premiers chiffres sont soumis à une telle contrainte définie par l’homme.

Mais lorsqu’on prend les populations des pays, les surfaces des états, les prix des maisons, ou même une série de nombres statistiques choisis au hasard de quelques articles dans un journal, ils seront probablement tirés d’une série d’ordres de grandeurs, et suivront probablement la loi de Benford.

L’utilisation de la loi vous permet aussi de vérifier la validité des données collectées. Par exemple, si vous analysez tous les frais de règlement d’une grande organisation, où les frais varient de trop petits montants à plusieurs milliers de dollars, alors vous vous attendrez à quelque chose semblable à la loi de distribution des premiers chiffres de Benford. Si vous trouvez quelque chose de très différent, donc peut-être quelqu’un a ajouté de faux frais en utilisant une distribution plus uniforme de premiers chiffres. Il peut aussi y avoir une autre raison, comme quelques règles sur ce qu’on appelle des frais de règlement ou des limites sur le montant des frais, ou même une erreur dans le logiciel de comptabilité. Mais c’est une façon très utile de signaler l’imprévu.

Quelques suites mathématiques de nombres suivent aussi la loi de Benford. Si vous écrivez tous les entiers relatifs à la puissance deux jusqu’à n’importe quel grand nombre, par exemple, cent ou un million ou un milliard ou quoi que ce soit, alors vous verrez que les premiers chiffres ont une distribution statistique semblable à celle proposée par la loi de Benford. Il en va de même avec les nombres de Fibonacci et la factorielle. Cela nous amène à penser pourquoi la loi de Benford marche.

Il est plus facile de voir ce qui se passe avec les suites générées mathématiquement, surtout lorsque vous avez des suites exponentielles telles que les puissances de deux. Avec les entiers relatifs comme exposants de deux, chaque terme de la suite est le double du terme précédent. Et si nous représentons les valeurs sur une échelle logarithmique, où les quantités qui augmentent exponentiellement sont représentées par des espaces égales, en allant le long de l’axe, on peut s’apercevoir que le premier chiffre est probablement un.

Sur notre échelle logarithmique, on peut voir que l’espace entre un et deux est beaucoup plus grande que l’espace entre deux et trois, et que celle-ci est plus grande que celle entre trois et quatre, et ainsi de suite.

Donc si nous représentons nos puissances de deux sur l’échelle, deux, quatre, huit, 16, ainsi de suite, alors on remarque comment les mesures entre les espaces entre les nombres successifs, deux à quatre, quatre à huit, huit à 16 sont égales. Et la cause est cette échelle logarithmique. Donc nous prenons des mesures de même grandeur sur cette échelle. Et une plus grande proportion des régions se rapporte à des situations où le premier chiffre est un. Et de plus petites en plus petites régions représentent les nombres commençant par deux, trois, quatre, et ainsi de suite. En les comptant, plus des puissances de deux commencent par un. Plusieurs d’entre eux tomberont dans ces régions.

Maintenant pensons à d’autres statistiques qui se produisent naturellement, comme les populations des villes et pourquoi elles pourraient suivre la loi de Benford. On compte les personnes pour déterminer la population. Commençons alors par penser à de petites villes. Évidemment, il nous faut au moins une personne pour constituer une petite ville. Et si la population de la plus grande ville est de un, alors 100 pour cent des villes devront avoir des populations avec comme premier chiffre un. Et zéro pour cent auront comme premier chiffre deux, trois, quatre, et ainsi de suite jusqu’à neuf.

La population de la plus grande ville est deux, alors sur une base de distribution aléatoire, environ 50 pour cent des populations auront comme premier chiffre un, et 50 pour cent auront comme premier chiffre deux. Nous avons deux choix. Et de nouveau, aucun premier chiffre ne sera plus grand que ça. Lorsque la taille maximale d’une ville augmente jusqu’à neuf, alors la proportion des villes censées avoir comme premier chiffre un diminuent jusqu’à un neuvième, environ 11 pour cent.

Maintenant considérons les villes avec des populations jusqu’à 10 personnes. Les villes avec une ou 10 personnes ont des populations avec comme premier chiffre un. Donc deux sur 10 options ont comme premier chiffre un. En incluant ensuite des villes avec 11, 12, 13 jusqu’à 19 personnes, le pourcentage des éventuelles populations commençant par un augmente jusqu’à 58 pour cent. Si les villes ont des populations aléatoires comprises entre un et 19, alors il y aura 11 façons d’avoir un comme premier chiffre sur 19 différentes possibilités.

Ensuite on peut penser à des villes avec des populations jusqu’à 99 personnes. Et la proportion des villes avec des population ayant comme premier chiffre un diminuera à 11 sur 99. Cela est plus que 11 pour cent.

En poursuivant ensuite avec les possibles populations jusqu’à 100, puis 101, ainsi de suite jusqu’à 199, la proportion des populations ayant comme premier chiffre un augmente progressivement, et vous voyez que dans les nombres jusqu’à 199, il y a 111 façons sur 199 d’avoir comme premier chiffre un. Cela fait à peu près 56 pourcent.

Si nous représentons ces proportions sur un graphique linéaire, on peut voir que ce motif continue si l’on augmente les possibles tailles des villes. Chaque fois qu’on introduit le suivant ordre de grandeur des possibles populations, la proportion des possibilités d’avoir comme premier chiffre un augmente rapidement jusqu’à un peu plus de 50 pour cent, puis diminue lentement jusqu’à 11 pour cent alors qu’on intègre plus de populations jusqu’à l’ordre de grandeur suivant.

Si chacune de ces populations maximales théoriques sont équitablement probables, alors la proportion prévue des populations des villes commençant par un est une sorte de moyenne entre environ 11 pourcent et un peu plus que 50 pour cent. Cela donne environ 30 pour cent.

Donc si les données que nous étudions sont uniformément aléatoirement distribuées sur l’éventail de un à 9999, alors on s’attend à ce qu’environ 11 pour cent des nombres commencent par un. Mais si les données sont uniformément aléatoirement distribuées sur l’éventail de un à 19999, alors on s’attend à ce qu’environ 56 pour cent des nombres commencent par un. Puisque les deux situations sont équitablement probables pour une variété de différentes séries statistiques, alors il n’est pas si étonnant de voir une moyenne d’environ 30 pour cent des nombres dans les journaux, les comptes et les statistiques générales avoir comme premier chiffre un.

La loi de Benford n’est donc pas une loi mystérieuse de nombres anormaux disant que les uns apparaissent beaucoup plus fréquemment que vous le croyez. C’est une simple observation où, selon où vous commencez et vous arrêtez de compter, plus ou moins de nombres commenceront par un.

Les situations où la loi de Benford craque sont celles où nous nous approchons de l’une des extrémités. Si la valeur maximale possible de nos données est juste à la limite d’un ordre de grandeur, donc il ne faut pas ‘étonner de voir que seulement 11 pour cent des nombres commencent par un. Mais si la valeur maximale possible est d’environ 10 pour cent plus que ça, alors plus que 50 pour cent de vos nombres commenceront par un.

Donc la loi de Benford est une observation que plus de nombres représentant des observations statistiques tendent à commencer par de plus petits chiffres que par de grands chiffres. Et cela peut nous aider à attraper une personne qui essaie de truquer les comptes ou de falsifier ses données. Lorsqu’elle est largement utilisée, cette loi peut nous aider à valider et à vérifier nos données et à prouver un outil scientifique utile.

Vidéo pop :: La loi de Benford

Transcription de la vidéo

Rejoindre Nagwa Classes