Vídeo: Lei de Benford

Neste vídeo, ficamos sabendo do fato inicialmente surpreendente de que muitos conjuntos de dados contêm muito mais números com um primeiro algarismo de um que qualquer outro dos primeiros algarismos possíveis, e pensamos sobre o porquê disso.

11:17

Transcrição do vídeo

Neste vídeo, veremos de uma maneira simples que os contadores forenses podem detectar fraudes. Ele é usado para descobrir fraudes de despesas, pesquisas falsas e contas falsificadas. E as pessoas têm condenações criminais como resultado. Apesar disso, muitas pessoas ainda não sabem sobre a lei de Benford.

Antes de falarmos sobre o tema principal, vamos voltar um pouco para uma época em que as pessoas não tinham calculadoras ou computadores para realizar cálculos complicados para eles. Mas eles tinham alguns truques na manga para facilitar a vida.

Por exemplo, para multiplicar dois números grandes, em vez de executar um enorme cálculo de multiplicação, eles procurariam os logaritmos de seus números em um livro de tabelas de registro, os somariam e depois converteriam a resposta de volta para um número regular usando tabelas antilog. E eles também poderiam realizar cálculos de divisão subtraindo os logaritmos. Isso economizou muito tempo com a multiplicação prolongada.

A história dos logaritmos e como eles funcionam é realmente fascinante. Há 400 anos, um homem chamado John Napier passou 20 anos criando uma enorme tabela que listava os valores de log dos números inteiros em até 10 milhões, essencialmente usando a base um menos 10 para os sete negativos para facilitar seus cálculos. Então seu amigo, Henry Briggs, converteu tudo em logs de base 10, o que tornou mais fácil para todo mundo usar as tabelas para seus cálculos.

Então, em 1881, um astrônomo americano chamado Simon Newcomb estava usando tabelas de log para fazer muitos cálculos. E ele percebeu que as primeiras páginas, contendo logaritmos de valores começando com um e dois, estavam ficando muito mais desgastadas pelo uso do que as outras páginas. Ele fez um pouco de pesquisa e publicou um artigo sobre as probabilidades dos primeiros algarismos tomando certos valores. Mais tarde em sua carreira, ele sugeriu que os astrônomos estavam quase no estágio em que descobriram tudo o que podiam sobre os céus noturnos. E ele estava muito errado sobre isso. Mas ele estava certo sobre a distribuição desigual dos primeiros algarismos.

Quase 60 anos depois, um físico chamado Frank Benford notou independentemente a distribuição não uniforme dos primeiros algarismos em toda uma gama de conjuntos de dados das populações das cidades, os valores de constantes físicas, números estatísticos usados ​​em artigos de notícias, áreas de superfície dos rios e muito mais. E agora o mundo estava pronto para aceitar o fenômeno. E ficou conhecida como a lei de Benford, embora ele a tenha chamado de lei dos números anômalos. E ele não foi realmente a primeira pessoa a descobrir isso.

Agora isso acontece frequentemente, nomeando leis depois de alguém que não seja a primeira pessoa a descobri-las. E quando fiz algumas pesquisas para este vídeo, descobri que esse fenômeno é conhecido como a Lei de Stigler. E, ironicamente, quando Stephen Stigler propôs sua lei, ele notou que era algo relatado pela primeira vez por outra pessoa chamada Robert Merton.

Você ficará feliz em saber que muitas pessoas agora chamam a lei de Benford de “Lei de Newcomb-Benford” em uma tentativa de dar crédito ao descobridor original. Mas isso se resume à distribuição de frequência dos primeiros, ou mais significativos, algarismos de certos tipos de dados, parecendo mais ou menos assim.

Isso significa que um é o primeiro algarismo em cerca de 30 por cento do tempo, enquanto o nove é o primeiro algarismo apenas quatro ou cinco por cento do tempo. E isso pode parecer inicialmente surpreendente. Pois esperamos que todos os algarismos tenham a mesma probabilidade de ocorrer. Assim, os números que começam com um, dois, três, quatro, cinco, seis, sete, oito ou nove seriam igualmente predominantes com uma probabilidade de um nono, cerca de 11 por cento.

Agora falamos sobre logaritmos para explicar como Newcomb descobriu esse efeito pela primeira vez. Mas a fórmula para calcular a probabilidade esperada de cada primeiro algarismo possível também envolve logaritmos. A probabilidade de que o primeiro algarismo seja 𝑥 é igual a log de base 10 de um mais um sobre 𝑥. Assim, a distribuição que obtemos com isso é bem diferente da distribuição uniforme que teríamos se o primeiro algarismo tivesse a mesma probabilidade de ser um, dois, três, quatro, cinco, seis, sete, oito ou nove.

Mas, se pensarmos nisso por um momento, podemos ver que essa lei só funcionaria com certos tipos de distribuição de números. Por exemplo, se você estivesse medindo as alturas de adultos em metros, esperaríamos que mais de 30 por cento delas começasse com um. E se você pegasse essas mesmas alturas em pés, quase nenhuma delas começaria com um.

Se nos limitássemos a olhar apenas os números contados entre um e 90, então, cerca de 12 por cento começariam com um, 12 por cento com dois e assim por diante. Mas apenas dois deles, cerca de dois por cento, começam com nove. A distribuição dos primeiros algarismos é uniforme com exceção dos noves. E a lei de Benford não se aplica. Para diferentes intervalos de números, parece óbvio que menos números começarão com os algarismos mais altos.

A lei funciona melhor em números que abrangem várias ordens de magnitude, ou seja, potências de 10, apenas um algarismo, dezenas, centenas, milhares e assim por diante, e não têm restrições aplicadas artificialmente. Por exemplo, os números de telefone são todos do mesmo tamanho e começam com códigos de área específicos. Todos os números de cartão bancário têm um identificador do setor como primeiro algarismo, como parte do número de identificação do banco. Então, não esperamos que a lei se aplique quando os primeiros algarismos são limitados por essas regras definidas pelo ser humano.

Mas quando olhamos para populações de países, áreas de estados, preços de casas, ou até mesmo uma série de números estatísticos escolhidos aleatoriamente a partir de artigos em um jornal, é provável que eles sejam extraídos de várias ordens de magnitude e assim seguirá provavelmente a lei de Benford.

O uso da lei pode ajudar você a verificar a validade dos dados coletados. Por exemplo, se você analisar todas as solicitações de despesas de uma grande organização e as reivindicações variarem de tamanho, de quantias muito pequenas a muitos milhares de dólares, você esperaria algo como a frequência de primeiros algarismos da lei de Benford. Se você encontrar algo muito diferente, talvez alguém tenha colocado falsas alegações usando uma distribuição mais uniforme de números de primeiro algarismo. Pode ser que haja outro motivo, como certas regras sobre o que as pessoas podem reivindicar despesas ou limites na quantidade de despesas ou até mesmo um erro no software de contabilidade. Mas é um sinal muito útil do inesperado.

Algumas sequências matemáticas de números também seguem a lei de Benford. Se você anotar todas as potências inteiras de dois até um número grande, por exemplo, cem ou um milhão ou um bilhão, você verá que os primeiros algarismos têm uma distribuição de frequência semelhante à sugerida pela lei de Benford. O mesmo acontece com números de Fibonacci e fatoriais. Isso nos leva a pensar em por que a lei de Benford funciona.

Com as sequências geradas matematicamente, pode ser muito fácil ver o que está acontecendo, especialmente quando você tem sequências exponenciais como as potências de dois. Com os expoentes inteiros de dois, cada termo na sequência é o dobro do anterior. E se traçarmos os valores em uma escala logarítmica, em que espaços iguais representam quantidades exponencialmente crescentes, à medida que você percorre o eixo, podemos ver que é mais provável que o primeiro algarismo seja um deles.

Em nossa escala logarítmica, podemos ver que o espaço entre um e dois é muito maior do que o espaço entre dois e três, que é maior que o espaço entre três e quatro e assim por diante.

Portanto, se traçarmos as nossas potências de dois na escala, dois, quatro, oito, 16 e assim por diante, observe como os passos entre números subsequentes, dois a quatro, quatro a oito, oito a 16, são igualmente espaçados. E isso é por causa dessa escala logarítmica. Então, estamos tomando etapas de tamanhos iguais nessa escala. E uma proporção maior das regiões refere-se a situações em que o primeiro algarismo é igual a um. E menores e áreas menores representam números que começam com dois, três, quatro e assim por diante. E quanto mais os contamos, mais potências de dois começarão com um. Mais deles cairão nessas regiões.

Agora, vamos pensar em outras estatísticas que ocorrem naturalmente, como populações de cidades e por que elas podem seguir a lei de Benford. Nós contamos pessoas para calcular a população. Então vamos começar pensando em algumas cidades realmente pequenas. Obviamente, precisamos de pelo menos uma pessoa para constituir uma pequena cidade. E se a nossa maior cidade tivesse uma população de um, então 100% das cidades teriam populações com um primeiro algarismo de um. E zero por cento teria um primeiro algarismo de dois, três, quatro e assim por diante, até nove.

Se a maior população da cidade fosse dois, então, numa distribuição aleatória, cerca de 50% das populações teriam um primeiro algarismo de um e 50% teriam um primeiro algarismo de dois. Nós temos duas escolhas. E novamente, nenhum primeiro algarismo seria mais alto que isso. À medida que o tamanho máximo da cidade aumenta para nove, a proporção de cidades que você espera ter um primeiro algarismo de um diminui para um nono, cerca de 11 por cento.

Agora vamos considerar cidades com populações de até 10 pessoas. Bem, aquelas com uma ou 10 pessoas têm populações com um primeiro algarismo de um. Então, agora, duas das dez opções têm um primeiro algarismo de um. Então, à medida que incluímos cidades com 11, 12, 13 pessoas e assim por diante, até 19, a porcentagem de possíveis populações da cidade começando com um aumenta para 58%. Se as cidades tiverem populações aleatórias entre um e 19, existem 11 maneiras de obter um primeiro algarismo de um dentre 19 possibilidades diferentes.

Então poderíamos pensar em cidades com populações de até 99 pessoas. E a proporção de cidades com população de primeiro algarismo de um reduzirá para 11 de 99. Isso é pouco mais de 11 por cento.

Então, à medida que percorremos possíveis populações de até 100, depois 101, e assim por diante, até 199, a proporção de possíveis populações com um primeiro algarismo de um aumenta gradualmente até você ver que existem 111 dentre 199 maneiras de se ter um primeiro algarismo de um nos números até 199. Isso é cerca de 56 por cento.

Se traçarmos essas proporções em um gráfico de linhas, podemos ver que esse padrão continua à medida que aumentamos o tamanho possível da cidade. Toda vez que introduzimos a próxima ordem de grandeza de possíveis populações, a proporção de possibilidades para um primeiro algarismo de um aumenta rapidamente até cerca de 50 por cento e então diminui lentamente para 11 por cento, à medida que incluímos mais das possíveis populações até a próxima ordem de magnitude.

Se cada uma dessas populações máximas teóricas é igualmente provável, a proporção esperada de populações da cidade começando com um é um tipo de média entre cerca de 11 por cento e pouco mais de 50 por cento. Acontece que é em torno de 30 por cento.

Portanto, se os dados que estamos vendo forem distribuídos uniformemente aleatoriamente no intervalo de um a 9999, esperaremos que cerca de 11 por cento dos números comecem com um. Mas se os dados forem uniformemente distribuídos aleatoriamente no intervalo de um a 19999, você esperaria que cerca de 56 por cento dos números começassem com um. Como as duas situações são igualmente prováveis ​​para uma variedade de conjuntos de dados diferentes, não é tão surpreendente ver uma média de cerca de 30 por cento de números em nossos jornais e contas e estatísticas gerais com o primeiro algarismo de um.

A lei de Benford, na verdade, não é, na verdade, uma lei misteriosa de números anômalos dizendo que eles aparecem com muito mais frequência do que você imagina. É apenas uma simples observação de que, dependendo de onde você começa e para de contar, mais ou menos números começarão com um.

As situações em que a lei de Benford se decompõe são aquelas em que nos aproximamos de ambos os extremos. Se o valor máximo possível dos nossos dados estiver no limite de uma ordem de grandeza, você não deve ficar surpreso ao ver apenas 11 por cento dos seus números começando com um. Mas se o valor máximo possível é cerca de 10 por cento maior do que isso, então mais de 50 por cento dos números poderiam começar com um.

Assim, a lei de Benford é uma observação de que mais números representando observações estatísticas tendem a começar com algarismos mais baixos do que algarismos mais altos. E isso pode nos ajudar a identificar quando alguém está tentando preparar os livros ou falsificar seus dados. Quando usado com sabedoria, ele pode nos ajudar a validar e verificar nossos dados e provar uma ferramenta científica realmente útil.

A Nagwa usa cookies para garantir que você tenha a melhor experiência em nosso site. Saiba mais sobre nossa Política de privacidade.