A verdade e a estatística

Para autor, democratas perderam para Trump por se basearem em fontes tradicionais de dados Foto: / AFP PHOTO / Brendan Smialowski

Para muita gente, o Big Data perdeu grande parte do brilho que tinha até um ano atrás. A derrota de Hillary Clinton para Donald Trump foi em grande medida atribuída à equipe responsável pelas análises estatísticas da campanha da democrata, que não enxergou os sinais de alerta vindos dos Estados do Meio Oeste. No entanto, de acordo com pesquisas realizadas pelo ex-cientista de dados do Google, Seth Stephens-Davidowitz, o verdadeiro erro de Hillary foi não ter confiado mais nas novas estatísticas. Hillary usou os melhores programas de análise de dados disponíveis no mercado. Mas continuou baseando seus cálculos principalmente em fontes tradicionais de dados, tais como listas de eleitores e sondagens eleitorais.

Stephens-Davidowitz preferiu explorar um tipo novo de informação: as buscas que as pessoas fazem no Google. Concentrou-se, em especial, na frequência com que a palavra “preto” (“nigger”), insulto racial particularmente ofensivo nos EUA, era pesquisada no mecanismo de buscas. Ao contrário do que diz o senso comum, segundo o qual as manifestações mais patentes de racismo se limitariam aos Estados do Sul, os números coletados por Stephens-Davidowitz indicam que, na comparação com o restante do país, a palavra desperta significativo grau de interesse em todo o Meio Oeste e na antiga região industrial do Nordeste americano. Nas primárias republicanas de 2016, essa foi a variável mais preditiva de apoio a Trump. Se os estatísticos de Hillary tivessem feito melhor uso desse tipo de dado, talvez houvessem chegado à conclusão, antes que fosse tarde demais, de que os alicerces da “muralha democrata” estavam ruindo.

Descobertas. Esse é só um dos admiráveis achados de Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are (“Todo Mundo Mente: Big Data, novos tipos de dados e o que a internet pode nos dizer sobre quem realmente somos”), livro publicado no início de maio nos EUA, em que Stephens-Davidowitz apresenta ao leitor retratos desconcertantes da moderna psique humana. Algumas de suas descobertas confirmam o senso comum, como a concentração de buscas sobre métodos caseiros de aborto e sobre homens que se sentem confusos em relação a sua orientação sexual nos Estados socialmente conservadores do Sul. Outras põem o senso comum de cabeça para baixo: embora sejam muito comuns no basquete americano as histórias de jogadores que, tendo vivido em condições de extrema pobreza na infância, acumulam grandes fortunas ao longo da carreira, os dados mostram que uma infância pobre na realidade reduz as chances que os garotos têm de chegar ao basquete profissional - talvez porque as crianças mais pobres tendam a não alcançar a estatura necessária para a prática profissional do esporte. Há também resultados que são, além de surpreendentes, perturbadores, como a prevalência das buscas em sites pornográficos por vídeos contendo práticas de violência sexual contra mulheres e o fato de que entre as próprias mulheres essas buscas são duas vezes mais frequentes do que entre os homens. Outros resultados são apenas bizarros: por que, na Índia, os homens adultos querem tanto ser amamentados por suas mulheres?

As constatações empíricas de Everybody Lies são tão intrigantes que sua leitura seria fascinante mesmo que o livro se limitasse a registrá-las. Mas Stephen-Davidowitz também propõe uma tese engenhosa: tal como o microscópio e o telescópio transformaram as ciências naturais, a internet vai revolucionar as ciências sociais.

A microeconomia, a sociologia, a ciência política e a psicologia quantitativa atualmente dependem, em larga medida, da realização de sondagens com amostras de, no mínimo, alguns milhares de entrevistados. Já o Big Data, diz Stephen-Davidowitz, possui “quatro virtudes singulares”: oferece novas fontes de informação, como as buscas pornográficas; retrata o que as pessoas realmente fazem ou pensam, em vez do que optam por dizer aos entrevistadores; permite que os pesquisadores concentrem sua atenção em subgrupos demográficos ou geográficos, estabelecendo comparações entre eles; e possibilitam a realização ágil de estudos randomizados controlados capazes de apontar não apenas correlações, mas também causalidades. Assim, prevê o autor, “os cientistas sociais não precisarão mais passar meses recrutando pequenos números de estudantes de graduação para realizar um único teste”. Em vez disso, “as ciências sociais e comportamentais ganharão escala” e as conclusões a que os pesquisadores chegarão terão caráter verdadeiramente científico, e não apenas pseudocientífico”.

Equívocos. Stephen-Davidowitz não é um entusiasta inconsequente da revolução do Big Data. Seu livro não se esquiva de abordar os equívocos a que os dados quantitativos podem induzir os tomadores de decisão. Também trata do risco de que os donos quase oniscientes desses bancos de dados venham a fazer uso abusivo deles. Se o interesse por motocicletas se revelasse um bom indicador de baixo QI, indaga o autor, seria aceitável que as empresas passassem a descartar os candidatos a emprego que admitam gostar de motocicletas? Em razão disso, Stephen Davidowitz recomenda extrema cautela sempre que o Big Data deixar de ser apenas uma ferramenta de análise a ser aplicada a grandes agrupamentos de pessoas para se transformar em insumo para a tomada de decisões que afetem indivíduos. Ao fim e ao cabo, porém, o autor é um otimista. Graças aos aperfeiçoamentos da tecnologia da informação, diz ele, os seres humanos “serão capazes de aprender muito mais” sobre si mesmos “em muito menos tempo”.

Tudo Sobre

Comentários

Os comentários são exclusivos para assinantes do Estadão.

Já sou Assinante

A verdade e a estatística

Assim como o microscópio e o telescópio transformaram as ciências naturais, o Big Data vai revolucionar as ciências sociais

Últimas: Economia

‘Petz e Cobasi vivem uma guerra que sangra, e vão parar de gastar munição’, diz Sergio Zimerman

Banco Central comunica vazamento de dados de 3 mil chaves Pix no Banpará

Prazo de validade do bode expiatório está no fim

Renda dos mais ricos cresce mais e desigualdade no Brasil aumenta, aponta IBGE

Mais lidas

Quem tem medo de Moraes? A lição do ‘duelo’ entre o comandante do Exército e o deputado bolsonarista

Matteus fica em segundo lugar no BBB 24: saiba quanto o brother faturou no reality

Conheça estratégia capaz de reverter perda de músculos em idosos, segundo estudo da USP

Quem é Gilson de Oliveira, suposto affair de Gracyanne Barbosa?

Casos de febre oropouche disparam no Brasil; conheça a doença