Como mentir usando estatísticas: uma atualização para tempos de pandemia

Em alguma página do passado, perdida entre a História e a lenda, pode-se ler que um dia — consta por volta de 1650 — os matemáticos Blaise Pascal (1623-1662) e Pierre de Fermat (1607-1665) resolveram se divertir apostando dinheiro num jogo de moedas, provável ancestral do popular “cara ou coroa”. Consta que Pascal teria escolhido cara e Fermat, coroa. E que, depois de três rodadas, Pascal estava ganhando de 2 a 1 quando o jogo precisou ser interrompido, deixando no ar a questão: com o jogo incompleto (tinham combinado cinco rodadas), quem ficaria com o dinheiro da aposta?

Fermat então (prossegue a lenda) teria sugerido que calculassem todos os resultados possíveis para as duas rodadas que faltavam — o que envolvia quatro combinações. Uma delas estabelecia que Pascal ganharia por 3 a 2. Fermat, cavalheirescamente, sugeriu dividir o dinheiro nos seguintes termos: Pascal ficaria com ¾ e ele com ¼. Verdadeira ou imaginária, o fato é que a fábula ilustra o nascimento da Teoria das Probabilidades — esta, sim, comprovadamente, desenvolvida pouco depois pelos dois gênios matemáticos.

Como se sabe, a Teoria de Pascal e Fermat constitui um dos fundamentos da Estatística, prima-irmã negligente (e de péssima fama) da ciência matemática. A esse tremendo desprestígio, devemos a “anedota” de que Deus criou a matemática e o Diabo, de pura inveja, criou a estatística. Mais do que uma simples piada, a fábula funciona como metáfora perfeita. Afinal, se o anjo-das-trevas é mesmo “o pai da mentira”, como está no Evangelho, ele não poderia ter criado uma ferramenta mais perigosa e terrível para semear a confusão. Porque até hoje, onde a matemática prospecta os parâmetros da verdade, as estatísticas se abrem para outras práticas — particularmente, a de mentir.

A lenda da gripe (e outras lendas)

Os médicos e os humoristas sabem muito bem que uma gripe tratada em tempo hábil (com “vitamina C e cama”, por exemplo) desaparece em uma semana — mas, se não for devidamente tratada, costuma demorar no máximo sete dias. Os médicos (em particular os infectologistas) sabem que as pesquisas divulgadas em favor desse ou daquele remédio antigripal quase sempre são verdadeiras tiradas de humor. E, em geral, de gosto muito duvidoso.

No fim das contas, médicos e matemáticos bem-intencionados têm consciência de que a confiança cega nos números é muito mais temerária e letal do que o vírus da gripe — ou do que outros mais incômodos e atuais. A ilusão de que um punhado de cifras organizadas ajudam a tornar o mundo (e seu futuro) um lugar menos incerto nasce de uma necessidade real: a quantidade, fundamento dos números, é um dos três parâmetros basilares da realidade — junto com o tempo e o espaço. Mais ainda: ela é uma das 10 categorias metafísicas que definem o ser, segundo Aristóteles.

Ocorre que, em algum ponto do caminho, o edifício do pensamento humano desmoronou, e em seu lugar vem sendo erguido um estranho “monumento” com baixos índices de solidez, de grandeza duvidosa e credibilidade controversa, cujos alicerces atendem pelo nome de… Estatística.

Colocar seu nome em maiúscula não transforma esta suposta “ciência” em algo mais confiável. Sobretudo numa época — a nossa — em que a própria palavra Ciência está sendo escrita em maiúscula para legitimar decisões autoritárias no pesadelo pandêmico que estamos vivendo. Afogados em números e soterrados por um palavreado falacioso ao extremo, eis que padecemos do pior dos isolamentos: o isolamento moral, afastados da realidade dos fatos.

Como os trajes de banho femininos, parece que as estatísticas insistem no hábito de “mostrar o supérfluo e ocultar o essencial”. A anedota, sutilmente maliciosa, é em geral atribuída ao saudoso economista Roberto Campos — e, ainda que picante, nem chega perto do petardo disparado pelo primeiro-ministro britânico Benjamin Disraelli (mesmo exaustivamente conhecido, vale a pena ler de novo): “Há três espécies de mentiras: mentiras sutis, mentiras descaradas e estatísticas”.

A má fama da estatística já lhe rendeu uma pletora incontável de frases nada gentis:

  • “A estatística é a arte de nunca ter que dizer que você está errado.”
  • “A estatística é um método sistemático para se ter uma conclusão errada com 95% de confiança.”
  • “A diferença entre um economista e um estatístico é que as pessoas acreditam no que os economistas dizem sobre o futuro, mas não no que os estatísticos dizem sobre o passado.”
  • Pelas estatísticas, o lugar mais perigoso é a cama, porque é onde mais se morre.”
  • “Se 33% dos acidentes de trânsito envolvem motoristas embriagados, isso quer dizer que 67% estão sóbrios. Portanto, dirigir bêbado é bem mais seguro”.

A última citação é particularmente exemplar, porque mostra como a teoria estatística, na prática, é outra. Com seu apelo à cultura contemporânea, sempre supostamente “baseada nos fatos”, as estatísticas são muito úteis tanto para simplificar quanto para confundir as coisas — e, à falta de profissionais e redatores que garantam um mínimo de honestidade e exatidão, o resultado não poderia ser outro: o absurdo semântico.

Filha do Estado

Usadas a princípio para atender a necessidades do Estado (que já no século XVIII ganhava engrenagens cada vez mais complexas), as estatísticas tiveram o papel importante de coletar dados demográficos e econômicos para ajudar na elaboração das famigeradas “políticas públicas”. Não por acaso, a palavra deriva etimologicamente da expressão neolatina statisticum collegium (traduzindo: “conselho de Estado”), com um toque italiano do vocábulo statista (“estadista”, “político”). Na Alemanha, o termo Statistik foi empregado pela primeira vez pelo historiador Gottfried Achenwall (1719-1779) para designar uma espécie de “Ciência do Estado” —  ou seja, um bem-intencionado levantamento das características sócio-político-econômicas dos diferentes estados alemães.

Dessa gênese mais nobre, inspirada por dois gênios matemáticos, parece ter sobrado muito pouco, no significado atual e nos usos modernos das estatísticas — a julgar pelo retrato nada lisonjeiro delineado em Como Mentir com Estatística, pitoresco e certeiro trabalho do norte-americano Darrell Huff (1913-2001).

Lançado originalmente em 1954 e relançado em 2016, o livro permanece irretocavelmente atual. Nenhuma surpresa: a verdade não é temporal nem condicionada a uma determinada época — e não consta que os humanos tenham progredido muito desde então, no quesito “padrões morais”. Graças a essa durabilidade, é possível aprender lições essenciais que nos deixem mais atentos às “verdades objetivas” veiculadas na mídia sobre a crise da Covid-19 — que no fim das contas são apenas estatísticas, ou seja, nem verdades, nem objetivas, na medida em que partem em geral de amostras enviesadas e perguntas tendenciosas para, no final, ordenar e exibir respostas pouco sinceras.

Logo na introdução do livro, Huff adverte que a pior forma de conferir se a criminalidade de determinada região está de fato aumentando é simplesmente… ler as páginas policiais dos jornais sensacionalistas dedicados ao assunto! É o primeiro alerta vermelho de que é essencial agir com o máximo de cautela, quando se trata de “informações numéricas objetivas”. Huff trata de desmoralizar, um por um, os principais vilões da interpretação de dados (também conhecida pela alcunha de “estatística”): amostras enviesadas, gráficos dúbios, listagens incompletas…  Ao longo de alguns capítulos, ele aponta como os gráficos, mesmo matematicamente corretos, podem estar falseando completamente a realidade. Num outro, mostra-nos que uma mesma projeção probabilística pode ser usada para mostrar um futuro positivo ou alarmante, dependendo da amplitude de dados que abrange.

Na época do lançamento, há quase sete décadas, Como Mentir com Estatística alcançou enorme sucesso, graças à capacidade de combinar linguagem simples e ilustrações bem-humoradas para abordar um tema tão espinhoso e polêmico. Num levantamento superficial, consta que o livro já vendeu mais de 1,5 milhão de cópias, só na sua edição em inglês. E, nestes tempos de internet e Big Data, continua (cada vez mais) relevante, ajudando-nos a perder as ilusões quanto ao grau de confiança que a maioria das pessoas deposita nas análises estatísticas.

(E, se nada disso o convenceu de sua importância estratégica, saiba que o suspeitíssimo Bill Gates sempre teve a obra de Darrell Huff entre seus “livros de cabeceira”.)

A essa altura, leitor, você já deve estar se sentindo lesado, se por acaso deglutiu como “verdades científicas incontestes” todas as manipulações sinistras bombardeadas recentemente, a respeito dos casos de infectados e de óbitos da famigerada e interminável pandemia. Mas anime-se: assim o livro de Huff termina com um animador tutorial para que o leitor aprenda a diferenciar informação de enrolação, sinto-me no dever de demonstrar que existe, é claro que sim!, uma forma salubre de lidar com os dados e fatos do mundo real, sem os lançar no triturador de resíduos tão em voga nos tempos atuais. É hora de mostrar que a verdade ainda é possível. (Mesmo em se tratando de estatísticas.,,,)

Média, moda, mediana: artimanhas e armadilhas

Antes de mais nada, não podemos esquecer que as estatísticas trabalham por meio de amostragens, ou seja: de pequenas fatias extraídas de um universo maior — sempre com o compromisso de que o resultado seja proporcionalmente fiel à totalidade. Em outras palavras: que seja expressão da verdade. Mas, para se alcançar (e apresentar) essa verdade, um requisito imprescindível é o de que a amostra seja absolutamente aleatória – quer dizer, escolhida ao acaso. Só a amostra aleatória garante confiabilidade total. Do contrário, o resultado será tendencioso e, como se diz na área, “enviesado”.

Para continuar com exemplos simples: não é honesto tentar provar (por exemplo) que os católicos representam a maioria da população de determinada área fazendo entrevistas exclusivamente… nas saídas das missas dominicais! (E isso vale também para o consumo de um produto ou para as intenções de votos deste ou daquele candidato… O modelo é o mesmo.)

O problema das amostras aleatórias é que são caras e difíceis. Sem falar que os homens são falhos e caem facilmente em tentações e desvios. Por isso, as estatísticas continuam sendo tão desacreditadas. Por isso, é cada vez mais fácil… mentir com estatísticas.

Mas o grande problema é que este não é o “único problema”. Para se alcançar a “verdade objetiva”, é preciso deixar claro qual medida se utilizou para o resultado afinal exposto.

Vejamos alguns casos simples:

Quatro pessoas dividem a mesa de um restaurante – mas não a comida. Um deles, por exemplo, come um frango inteiro, sozinho. Estatisticamente, porém, cada comensal consumiu um quarto do frango. Trata-se de um exemplo bem simples para a mais simples das medidas de tendência central usadas em estatística: a média. A definição é bastante conhecida: para se calcular a média (representada matematicamente pelo símbolo Me), basta somar todos os valores de determinado conjunto de dados (pessoas, animais, objetos, etc.) e dividir pelo número de elementos do conjunto. Temos então: Me: ¼ (de frango) para cada um. No nosso caso elementar: 4 pessoas e um só frango — mas o resultado aritmético sugere um equilíbrio inexistente na situação real.

Na verdade, esse é o menor dos perigos numa tabulação estatística, pois a trapaça é visível, ficando mais fácil denunciar os sofismas e falácias. Qualquer pessoa letrada e com o domínio das quatro operações aritméticas entende que, para que a média “funcione” (quer dizer, para que se mostre minimamente justa e representativa) será preciso trabalhar com situações mais uniformes e valores sem grandes discrepâncias.

Mas existem duas outras medidas em jogo: a moda e a mediana – e, para elas, todo cuidado é pouco.

moda (símbolo: Mo) representa o valor mais frequente num determinado conjunto de dados apurados — para defini-la, é preciso simplesmente observar a a quantidade de vezes que cada item do conjunto aparece. Dando um exemplo atualíssimo: num hospital de campanha, há onze pessoas internadas com Covid-19, e suas respectivas idades são 34, 39, 36, 35, 37, 40, 36, 38, 36, 38 e 41 anos. A moda desta amostragem será: 36 anos — por ser a idade que apresenta maior frequência. Mo: 36 (anos). Parece claro e transparente? Nem tanto, leitor: é preciso que fique claro que se trata de uma medida (a moda) e não de outra (média ou mediana), pois isso falsearia o resultado da pesquisa — não importa qual seja a intenção espúria.

Por fim, a mediana (símbolo: Md) representa o valor central de um conjunto de dados apurados. Para encontrá-la, é preciso colocar os valores em ordem crescente ou decrescente. Quando o número total elementos for par, calcula-se a mediana tirando-se a média dos dois valores centrais — ou seja, somando-os e os dividindo por dois. Quando for ímpar, será sempre o valor central. Usando-se o mesmo exemplo anterior (dos pacientes do hospital de campanha), temos as seguintes idades, devidamente ordenadas:  34, 35, 36, 36, 36, 37, 38, 38, 39, 40 e 41 anos. Neste conjunto, com um número ímpar de elementos), a mediana será 37. Temos então: Md: 37 (anos). Mais uma vez, pode parecer simples e inocente — mas, acredite, alguém sempre vai tentar trocar as medidas (moda e mediana), sempre que determinada idade (36 ou 37 anos) fizer diferença para a narrativa que estiver sendo construída…

Estes exemplos, maçantes mas simples, servem apenas como ilustração do perigo central numa apresentação estatística: confundir o público trocando uma medida por outra. Conhecendo apenas a medida da média (que é uma operação aritmética simples), a maioria das pessoas continua sendo facilmente enganada por quem utiliza dados verdadeiros para construir uma mentira.

E a realidade, em tudo isso?

Em alguma página do passado recente, o insuperável G. K. Chesterton, religioso de boa cepa, tratou de alertar: quando ocorrer alguma discrepância entre o que a Igreja proclama e a realidade, estejam certos de que a realidade estará errada. Já quanto às coisas comuns deste mundo (entre elas, a estatística), a advertência deve ser outra: se discrepância houver entre as estatísticas e a realidade, o erro há de estar sempre nas estatísticas. Afinal, segundo a “lenda urbana”, o Diabo as criou justamente para a mentira e o engano.

Não deixa de ser uma triste ironia este epílogo para algo que nasceu (mesmo que por brincadeira) das mentes brilhantes de dois matemáticos sérios. Hélas! Fazer o quê? Um deles (Blaise Pascal) costumava dizer que “a condição do homem é feita de inconstância, tédio, inquietação”.

Confira a matéria na Gazeta do Povo

Be the first to comment on "Como mentir usando estatísticas: uma atualização para tempos de pandemia"

Leave a comment

Your email address will not be published.


*