Guilherme Stein e Eduardo Zylberstajn
Nos dias que antecederam o impeachment da ex-Presidente Dilma Rousseff, esse blog usou dados do Placar do impeachment e do Basômetro do Estadão para prever, estatisticamente, como votariam os deputados que ainda não haviam declarado seus votos. Pouco mais de um ano depois, novamente o país se vê no meio de uma votação que pode afastar o Presidente da República do exercício de seu mandato.
Até ontem, 190 deputados haviam declarado voto favorável pela aceitação da denúncia contra Temer para o Placar, enquanto 110 disseram que votarão contra a aceitação (e portanto a favor de Temer). Para prever o resultado final, novamente recorremos à estatística. Nosso melhor modelo de previsão indica que a denúncia terá 261 votos favoráveis, menos do que os 342 necessários para que ela possa ser enviada ao STF. Dessa forma, Temer continuará no cargo. Porém, com uma base de apoio de menos da metade do total de deputados, ficará a sensação de que pode ser difícil aprovar mesmo leis ordinárias (que precisam de 257 votos para serem aprovadas na Câmara dos Deputados). Permanecendo tudo como está, Temer verá 261 votos favoráveis à denúncia e no máximo 248 contrários à aceitação (um deputado já declarou abstenção e outro faltará à sessão).
Esse post é um post técnico e os autores não expressam aqui, de nenhuma forma, suas opiniões pessoais sobre o tema.
Aos interessados na metodologia, usamos uma técnica de machine learning para a previsão. O ponto de partida foi, novamente, o Placar elaborado pelo Estadão. Além da declaração de votos para essa denúncia, usamos mais quatro informações: o partido do(a) deputado(a), a Unidade da Federação de onde ele(a) vem, se é suplente ou titular e, por último, como votou na reforma trabalhista. Aplicamos, então, um algoritmo de classificação chamado de k-nearest neighbors. Grosso modo, o algoritmo classifica cada deputado indeciso como favorável ou contrário ao afastamento em função de qual grupo este deputado está mais próximo quando se leva em conta as quatro características já mencionadas. Em particular, o modelo olha para os 15 deputados que já declararam voto que estão 'mais próximos' de um deputado indeciso. Se a maior parte dos vizinhos vota 'sim', então atribui-se ao deputado o voto a favor da aceitação e vice-versa.
Para testar a qualidade da previsão do modelo, retiramos aleatoriamente da base de dados dos que já declararam voto 60 deputados e estimamos o modelo com a subamostra resultante. Em seguida, usamos o modelo para prever os votos desses 60 deputados, fazendo assim uma estimação "fora da amostra". Dos 60 nomes, o nosso modelo errou o voto de 6, ou seja, 10% do total.