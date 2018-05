O volume de informações criado a cada instante, conforme já vimos, segue crescendo em ritmo acelerado - e todas as indicações apontam para uma aceleração cada vez maior. Durante o tempo que você estiver lendo esta coluna, mais de dez milhões de buscas terão sido feitas utilizando a Google, cerca de um milhão e meio de novos tweets terão sido publicados e cento e cinquenta mil novas fotos terão sido postadas no Instagram. De acordo com a IBM, todos os dias são produzidos mais de 2,5 quintilhões de bytes - o equivalente a 2,5 milhões de terabytes. Vimos aqui que com “apenas” 10 terabytes (ou 10.240 gigabytes) é possível armazenar o conteúdo de todos os livros do acervo da biblioteca do Congresso dos EUA, considerada a maior do mundo.

IBM, Oracle, SAP, Amazon e Google atuam em um mercado com amplo espaço para empresas dedicadas ao tema Big Data, como Paxata, Kyvos Insights, Sisense, Looker e Qubole. As oportunidades para extrair valor das informações geradas pelos diversos segmentos de negócios são da ordem de centenas de bilhões de dólares, e virtualmente todos os setores - sejam privados ou públicos - que produzem dados podem se beneficiar das análises realizadas pelos sistemas de inteligência de negócios (ou “business intelligence”).

As recomendações que você recebe ao realizar compras online na Amazon não seriam possíveis sem o uso de técnicas de análise de quantidades extraordinárias de dados. Os sistemas computacionais cruzam as informações do seu histórico com os históricos de milhões de outros consumidores, levando em consideração questões como demografia, estação do ano, localização e buscas anteriores. Algo similar ocorre quando você vai escolher um filme para assistir utilizando a plataforma Netflix, que procura sugerir os filmes, seriados e documentários que provavelmente serão de interesse para você com base nas suas escolhas, notas e histórico utilizando a ferramenta.

A Google também utiliza o conjunto de buscas realizados globalmente para tentar “adivinhar” o que está sendo pesquisado: quando você digita o início de uma busca, os algoritmos da empresa verificam quais as buscas mais frequentes que utilizam os termos já digitados e sugerem qual a pergunta que você quer fazer (a empresa procura evitar sugestões com conteúdo negativo ou difamatório, algo que nem sempre é possível). Os dados fornecidos pelos próprios usuários são um poderoso ativo que a Google possui - e que, em larga medida, faz dela uma das empresas mais valiosas do planeta, com valor de mercado superior a setecentos bilhões de dólares no final de abril deste ano.

Há quase dez anos atrás, em novembro de 2008, cientistas da Google em parceria com os Centros de Controle e Prevenção de Doenças dos Estados Unidos (CDC - Centers for Disease Control and Prevention) publicaram um artigo na revista Nature, intitulado “Detecting influenza epidemics using search engine query data” - algo como “Detectando epidemias de gripe através dos termos utilizados nas ferramentas de buscas online”. O trabalho desenvolvido comparou com os dados históricos das epidemias cerca de cinquenta milhões de palavras - sejam elas relacionadas à gripe ou não - que frequentemente aparecem nas mais de três bilhões de buscas realizadas diariamente pelos usuários. Depois de testar quase meio bilhão de modelos matemáticos que correlacionaram as buscas com as epidemias, o sistema identificou os quarenta e cinco termos que melhor se ajustavam aos dados. Desta forma, com base nas informações fornecidas pelos seus usuários através de suas buscas, a Google passou a ser capaz de prever com alta precisão onde uma epidemia de gripe estava acontecendo.

Este é o tipo de desafio que apenas sistemas de Big Data são capazes de enfrentar. Semana que vem iremos prosseguir no tema, apresentando como entidades públicas e privadas podem se beneficiar desta tecnologia. Até lá.

*Fundador da GRIDS Capital, é Engenheiro de Computação e Mestre em Inteligência Artificial