Transcription de la vidéo
Dans cette vidéo, nous allons voir une façon ingénieuse utilisée par les comptables
judiciaires pour détecter la fraude. Elle a été utilisée pour découvrir les escroqueries, les recherches fictives et les
comptes falsifiés. Et cela conduisait à des condamnations criminelles. Cependant, beaucoup de gens ne connaissent toujours pas la loi de Benford.
Avant de parler du sujet principal, nous allons faire un petit détour en arrière, à
un temps où les gens n’avaient pas de calculatrices ou des ordinateurs pour
effectuer les calculs compliqués. Mais ils avaient quelques tours dans leur sac afin de faciliter la vie.
Par exemple, pour multiplier deux grands nombres ensemble, au lieu de faire une
longue multiplication, on cherchait les logarithmes de leurs nombres dans un livre
de tables de logarithmes, on les additionnait puis on convertissait la réponse en un
nombre régulier à l’aide des tables d’antilogarithmes. Et on pouvait aussi faire les divisions en soustrayant les logarithmes. Cela évitait beaucoup de perte de temps avec les longues multiplications.
Cette histoire de logarithmes et comment ça marche est très fascinante. Il y a 400 ans, un homme nommé John Napier a passé 20 ans à créer un énorme tableau
où sont inscrites les valeurs logarithmes des nombres entiers jusqu’à 10 millions,
en utilisant essentiellement en base un moins 10 à la puissance moins sept pour
faciliter ses calculs. Puis son ami Henry Briggs le convertit en logs de base 10, ce qui a facilité pour
tout le monde l’utilisation des tableaux pour faire les calculs.
Puis en 1881, un astronome américain nommé Simon Newcomb était en train d’utiliser
les tables des logarithmes pour effectuer des tas de calculs. Il remarqua que les premières pages qui contenaient des logarithmes de valeurs
commençant par un et deux étaient plus usées que les autres pages. Il fit quelques recherches et publia un document sur les probabilités que les
premiers chiffres prennent de certaines valeurs. Plus tard au cours de sa carrière, il suggéra que les astronomes ont presque atteint
la phase où ils apprirent tout ce qu’ils pouvaient sur le ciel nocturne. Mais il avait tort à propos de ça. Cependant, il avait raison à propos de la distribution inégale des premiers
chiffres.
Près de 60 ans plus tard, un physicien nommé Frank Benford remarqua séparément la
distribution non uniforme des premiers chiffres dans un éventail complet de séries
statistiques présentant les populations de villes, des valeurs de constantes
physiques, des nombres statistiques utilisés dans des articles de nouvelles, les
aires des surfaces des rivières, etc. Et désormais, le monde était prêt à accepter ce phénomène. Et il est devenu connu comme la loi de Benford, malgré qu’il l’eût appelée la loi des
nombres anormaux. En plus, il n’était pas le premier à le découvrir.
Cela arrive souvent, qu’une loi soit nommée d’après une autre personne que celle qui
l’a découverte en premier. Et lorsque j’ai fait quelques recherches pour cette vidéo, j’ai trouvé que ce
phénomène est connu comme la loi d’éponymie de Stigler. Et ironiquement, lorsque Stephen Stigler proposa sa loi d’éponymie, il nota qu’elle
fut déclarée pour la première fois par une personne nommée Robert Merton.
Vous serez ravis d’apprendre que maintenant, beaucoup de personnes appellent la loi
de Benford « loi de Newcomb-Benford », dans l’intention de reconnaître les mérites
du premier découvreur. Mais en résumé, la distribution statistique du premier chiffre, ou du plus important
chiffre, de certains genres de données ressemble à peu près à cela.
Cela signifie que un est le premier chiffre environ 30 pourcent des cas, tandis que
neuf n’est le premier chiffre que quatre ou cinq pourcent des cas. Et cela peut être étonnant au début. On peut croire que tous les chiffres ont d’égales probabilités d’apparaître. Ainsi les nombres commençant avec un, deux, trois, quatre, cinq, six, sept, huit ou
neuf seront aussi prévalents l’un que l’autre avec une probabilité d’un neuvième,
environ 11 pour cent.
Nous avons parlé des logarithmes pour expliquer comment Newcomb a découvert cet effet
pour la première fois. Mais en fait, la formule pour calculer la probabilité prévue de chaque premier
chiffre comporte aussi des logarithmes. La probabilité que le premier chiffre soit 𝑥 est égale à log base 10 de un plus un
sur 𝑥. Donc la distribution que nous obtenons est différente de l’uniforme distribution que
nous pouvions obtenir si le premier chiffre avait la même probabilité d’être un,
deux, trois, quatre, cinq, six, sept, huit ou neuf.
Mais si nous pensons à cela pour un instant, nous verrons que cette loi n’est
efficace qu’avec certains genres de distributions de nombres. Par exemple, si vous mesurez les tailles de personnes adultes en mètres, alors on
s’attendra à ce que beaucoup plus de 30 pour cent commencent avec le chiffre un. Et si vous prenez ces mesures en pieds, alors aucune d’elles ne commencera avec
un.
Mais si nous nous limitons à regarder juste les nombres compris entre un et 90, alors
12 pour cent commenceront avec un, 12 pour cent avec deux, et ainsi de suite. Mais seulement deux d’entre eux, à peu près deux pour cent, commencent avec neuf. La distribution des premiers chiffres est uniforme sauf pour les neuf. Et la loi de Benford ne s’applique pas. Pour de différentes séries de nombres, il paraît clairement que moins de nombres
commenceront avec les plus grands chiffres.
La loi s’applique le mieux avec des nombres qui couvrent une série d’ordres de
grandeurs, qui sont des puissances de 10, donc un seul chiffre, des dizaines, des
centaines, des milliers, et ainsi de suite, et auxquels aucune contrainte
artificielle n’est appliquée. Par exemple, les numéros de téléphone sont tous de même longueur et commencent avec
des indicatifs régionaux spécifiques. Et les cartes bancaires ont toutes l’identificateur d’industrie comme premier
chiffre, qui fait partie du nombre d’identification de la banque. Donc il ne faut pas s’attendre à ce que la loi s’applique lorsque les premiers
chiffres sont soumis à une telle contrainte définie par l’homme.
Mais lorsqu’on prend les populations des pays, les surfaces des états, les prix des
maisons, ou même une série de nombres statistiques choisis au hasard de quelques
articles dans un journal, ils seront probablement tirés d’une série d’ordres de
grandeurs, et suivront probablement la loi de Benford.
L’utilisation de la loi vous permet aussi de vérifier la validité des données
collectées. Par exemple, si vous analysez tous les frais de règlement d’une grande organisation,
où les frais varient de trop petits montants à plusieurs milliers de dollars, alors
vous vous attendrez à quelque chose semblable à la loi de distribution des premiers
chiffres de Benford. Si vous trouvez quelque chose de très différent, donc peut-être quelqu’un a ajouté de
faux frais en utilisant une distribution plus uniforme de premiers chiffres. Il peut aussi y avoir une autre raison, comme quelques règles sur ce qu’on appelle
des frais de règlement ou des limites sur le montant des frais, ou même une erreur
dans le logiciel de comptabilité. Mais c’est une façon très utile de signaler l’imprévu.
Quelques suites mathématiques de nombres suivent aussi la loi de Benford. Si vous écrivez tous les entiers relatifs à la puissance deux jusqu’à n’importe quel
grand nombre, par exemple, cent ou un million ou un milliard ou quoi que ce soit,
alors vous verrez que les premiers chiffres ont une distribution statistique
semblable à celle proposée par la loi de Benford. Il en va de même avec les nombres de Fibonacci et la factorielle. Cela nous amène à penser pourquoi la loi de Benford marche.
Il est plus facile de voir ce qui se passe avec les suites générées mathématiquement,
surtout lorsque vous avez des suites exponentielles telles que les puissances de
deux. Avec les entiers relatifs comme exposants de deux, chaque terme de la suite est le
double du terme précédent. Et si nous représentons les valeurs sur une échelle logarithmique, où les quantités
qui augmentent exponentiellement sont représentées par des espaces égales, en allant
le long de l’axe, on peut s’apercevoir que le premier chiffre est probablement
un.
Sur notre échelle logarithmique, on peut voir que l’espace entre un et deux est
beaucoup plus grande que l’espace entre deux et trois, et que celle-ci est plus
grande que celle entre trois et quatre, et ainsi de suite.
Donc si nous représentons nos puissances de deux sur l’échelle, deux, quatre, huit,
16, ainsi de suite, alors on remarque comment les mesures entre les espaces entre
les nombres successifs, deux à quatre, quatre à huit, huit à 16 sont égales. Et la cause est cette échelle logarithmique. Donc nous prenons des mesures de même grandeur sur cette échelle. Et une plus grande proportion des régions se rapporte à des situations où le premier
chiffre est un. Et de plus petites en plus petites régions représentent les nombres commençant par
deux, trois, quatre, et ainsi de suite. En les comptant, plus des puissances de deux commencent par un. Plusieurs d’entre eux tomberont dans ces régions.
Maintenant pensons à d’autres statistiques qui se produisent naturellement, comme les
populations des villes et pourquoi elles pourraient suivre la loi de Benford. On compte les personnes pour déterminer la population. Commençons alors par penser à de petites villes. Évidemment, il nous faut au moins une personne pour constituer une petite ville. Et si la population de la plus grande ville est de un, alors 100 pour cent des villes
devront avoir des populations avec comme premier chiffre un. Et zéro pour cent auront comme premier chiffre deux, trois, quatre, et ainsi de suite
jusqu’à neuf.
La population de la plus grande ville est deux, alors sur une base de distribution
aléatoire, environ 50 pour cent des populations auront comme premier chiffre un, et
50 pour cent auront comme premier chiffre deux. Nous avons deux choix. Et de nouveau, aucun premier chiffre ne sera plus grand que ça. Lorsque la taille maximale d’une ville augmente jusqu’à neuf, alors la proportion des
villes censées avoir comme premier chiffre un diminuent jusqu’à un neuvième, environ
11 pour cent.
Maintenant considérons les villes avec des populations jusqu’à 10 personnes. Les villes avec une ou 10 personnes ont des populations avec comme premier chiffre
un. Donc deux sur 10 options ont comme premier chiffre un. En incluant ensuite des villes avec 11, 12, 13 jusqu’à 19 personnes, le pourcentage
des éventuelles populations commençant par un augmente jusqu’à 58 pour cent. Si les villes ont des populations aléatoires comprises entre un et 19, alors il y
aura 11 façons d’avoir un comme premier chiffre sur 19 différentes possibilités.
Ensuite on peut penser à des villes avec des populations jusqu’à 99 personnes. Et la proportion des villes avec des population ayant comme premier chiffre un
diminuera à 11 sur 99. Cela est plus que 11 pour cent.
En poursuivant ensuite avec les possibles populations jusqu’à 100, puis 101, ainsi de
suite jusqu’à 199, la proportion des populations ayant comme premier chiffre un
augmente progressivement, et vous voyez que dans les nombres jusqu’à 199, il y a 111
façons sur 199 d’avoir comme premier chiffre un. Cela fait à peu près 56 pourcent.
Si nous représentons ces proportions sur un graphique linéaire, on peut voir que ce
motif continue si l’on augmente les possibles tailles des villes. Chaque fois qu’on introduit le suivant ordre de grandeur des possibles populations,
la proportion des possibilités d’avoir comme premier chiffre un augmente rapidement
jusqu’à un peu plus de 50 pour cent, puis diminue lentement jusqu’à 11 pour cent
alors qu’on intègre plus de populations jusqu’à l’ordre de grandeur suivant.
Si chacune de ces populations maximales théoriques sont équitablement probables,
alors la proportion prévue des populations des villes commençant par un est une
sorte de moyenne entre environ 11 pourcent et un peu plus que 50 pour cent. Cela donne environ 30 pour cent.
Donc si les données que nous étudions sont uniformément aléatoirement distribuées sur
l’éventail de un à 9999, alors on s’attend à ce qu’environ 11 pour cent des nombres
commencent par un. Mais si les données sont uniformément aléatoirement distribuées sur l’éventail de un
à 19999, alors on s’attend à ce qu’environ 56 pour cent des nombres commencent par
un. Puisque les deux situations sont équitablement probables pour une variété de
différentes séries statistiques, alors il n’est pas si étonnant de voir une moyenne
d’environ 30 pour cent des nombres dans les journaux, les comptes et les
statistiques générales avoir comme premier chiffre un.
La loi de Benford n’est donc pas une loi mystérieuse de nombres anormaux disant que
les uns apparaissent beaucoup plus fréquemment que vous le croyez. C’est une simple observation où, selon où vous commencez et vous arrêtez de compter,
plus ou moins de nombres commenceront par un.
Les situations où la loi de Benford craque sont celles où nous nous approchons de
l’une des extrémités. Si la valeur maximale possible de nos données est juste à la limite d’un ordre de
grandeur, donc il ne faut pas ‘étonner de voir que seulement 11 pour cent des
nombres commencent par un. Mais si la valeur maximale possible est d’environ 10 pour cent plus que ça, alors
plus que 50 pour cent de vos nombres commenceront par un.
Donc la loi de Benford est une observation que plus de nombres représentant des
observations statistiques tendent à commencer par de plus petits chiffres que par de
grands chiffres. Et cela peut nous aider à attraper une personne qui essaie de truquer les comptes ou
de falsifier ses données. Lorsqu’elle est largement utilisée, cette loi peut nous aider à valider et à vérifier
nos données et à prouver un outil scientifique utile.