Como lidar com tantos gigas?

25/04/2018 - 8:46

Para compartilhar:

Quando, em abril de 2010, a Biblioteca do Congresso dos Estados Unidos (LOC, na sigla em inglês) anunciou que estava recebendo a doação dos arquivos do Twitter, teve de começar explicando o que era o Twitter, que naquela época contabilizava 50 milhões de tuítes por dia. Sete anos depois, o volume de posts chega a meio milhão por dia e a LOC avisa que não mais arquivará cada post tuitado. De acordo com a biblioteca, pesou para a decisão a mudança sofrida pela rede social no perfil de seus posts. Apenas material em texto estava sendo arquivado, e as mensagens do Twitter seriam agora formadas, em sua maioria, por vídeos, gifs e fotos.

Esses arquivos reúnem material de junho de 2006 a dezembro de 2017 e fazem parte dos 167 terabytes que a biblioteca possui em seus arquivos com material da internet, incluindo blogs e sites de candidatos a cargos nacionais e de membros do Congresso. Esse montante dá a dimensão do tamanho do material acumulado nos servidores pelo mundo, especialmente das redes sociais, já que quase todas elas arquivam toda a informação produzida por seus usuários diariamente. É um universo digital que segue em expansão constante, principalmente com o desenvolvimento da inteligência artificial e da internet das coisas (IoT). Um estudo da EMC, multinacional de armazenamento de dados, prevê que, até o fim desta década, o volume de dados pode chegar ao equivalente a 6 mil gigabytes por pessoa conectada à rede.

O caso da LOC é interessante porque serve de amostra de um grande problema que deveremos enfrentar no futuro: como e por que gerenciar essa quantidade absurda de dados produzidos diariamente, sendo que a grande parte deles é composta de imagens (em movimento ou estática) de gatos, comida ou pôr do sol. A doação feita pelo Twitter teve como propósito colaborar com o Programa Nacional de Preservação da Infraestrutura e Informação Digital, mantido pela biblioteca, que pretende “coletar e preservar e disponibilizar conteúdo digital significante, especialmente informação existente apenas no formato digital, para a atual e as futuras gerações”. Os tuítes podem servir como um importante registro histórico sobre a sociedade do período.

Uma das salas de leitura da Biblioteca do Congresso dos EUA: espaço limitado (Foto: Divulgação)

Para Sergio Branco, diretor do Instituto Tecnologia e Sociedade, mesmo que todo esse conteúdo pareça superficial, ele não deixa de representar valores de um período. Nesse caso, a sociedade que, entre outras coisas, publiciza a vida privada, exalta o exibicionismo e é adepta do consumo rápido. “Boa parte do que se produz não tem boa representatividade, mas também pode ser significativo para dizer quem somos como sociedade hoje em dia. Mais de 90% dos tuítes não comunicam algo relevante, mas esse material é importante para entender quem somos nós neste momento histórico. No conjunto é importante”, diz Branco.

O Twitter em particular, por seu perfil mais aberto, tem sido uma plataforma bastante útil para pesquisa sobre redes e comportamento on-line, como fake news (notícias falsas) ou discursos de ódio, destaca Virgilio Almeida, professor titular do departamento de Computação da Universidade Federal de Minas Gerais (DCC-UFMG) e professor associado no Centro Berkman Klein de Internet & Sociedade, da Universidade Harvard (EUA). Mas como valor histórico, por enquanto, apenas o futuro vai dizer.

O que se sabe é que seu conteúdo pode não representar toda a sociedade de uma época, mas sim uma parte importante desse grupo em um determinado período. “O século 21 corre o risco de ser o século mais registrado e menos conservado”, afirma Sergio Branco. Além da organização, suas palavras dizem respeito a como estruturar isso, já que os meios consagrados de registro como livros, cadernos e câmeras fotográficas foram expandidos para um espaço fluido e não ordenado ou sequenciado.

Investimentos

O primeiro grande problema prático é o de conservação. Arquivos digitais significam espaço físico também, o que, por sua vez, demanda investimento em infraestrutura. “Talvez passem a expandir um modelo de negócio que já existe hoje, de cobrar uma quantidade pequena, porém de milhões de pessoas, em troca de espaço digital”, acredita Branco. Por enquanto, o custo tem sido compensando com a venda desse material para o mundo publicitário e estudos de inteligência artificial (sem falar no uso político). “Os dados coletados em grande escala são hoje um ‘bem’ dessas empresas de tecnologia, pois oferecem material essencial para as tecnologias de inteligência artificial”, avalia Virgilio Almeida. “As empresas que têm essa imensa massa de dados possuem uma vantagem enorme sobre seus competidores.”

Data center do Google no Oregon (EUA): investimento de grande porte (Foto: Divulgação)

Outro grande problema é como minerar esses dados para que eles virem informação. “O pior desafio não é armazenar, mas como processar todo esse material para extrair informação relevante [como registro histórico]”, observa Marco Antonio Casanova, professor do Departamento de Informática da PUC-Rio. “Uma vez transformados em informação, como aproveitá-las?” Ele lembra que até mesmo os registros técnicos geram dúvida sobre sua real utilidade. Talvez apenas no futuro tenhamos um entendimento sobre que tipo de uso poderíamos dar a eles, como os dados gravados em todo o mundo nas caixas-pretas de aviões ou o registro de atividades de mineração em uma plataforma na região do pré-sal. Graças aos dados inscritos no passado, por exemplo, conseguimos hoje fazer um acompanhamento sobre como a geografia urbana se alterou ao longo dos anos e como esse movimento pode ajudar em estudos e pesquisas de políticas públicas no futuro.

O que os profissionais que lidam com big data (volume de dados registrados na rede) constatam é que existe uma quantidade astronômica de arquivos digitais sobre os quais ainda não conseguimos ter a exata dimensão em termos da como e por que lidar com eles. Para o futuro abre-se um leque de possibilidade sobre como gerenciar tantos arquivos digitais, com possibilidade até mesmo de novos postos de trabalho dedicados ao tema. Casanova sugere um exercício para se ter a dimensão sobre um grande desafio deste milênio: como seria hoje escrever uma biografia de alguém baseada em suas postagens?

Criatividade com o uso de dados

Com uma infinitude de dados sendo gerados e arquivados pelo mundo a cada segundo, cria-se também uma infinitude de possibilidades para eles. Confira a seguir alguns exemplos de como o uso e a reorganização desse material podem ser lucrativos ou até mesmo desastrosos.

Netflix
A gigante do entretenimento via streaming fez sucesso ao produzir uma série que se baseia no comportamento e nas preferências de seus usuários. Essa série, Stranger Things, está na segunda temporada e acumula dezenas de premiações.

Seattle
A cidade do noroeste dos Estados Unidos está disponibilizando os dados de consumo de seus edifícios centrais para serem analisados e, a partir das informações coletadas, reduzir em 25% o desperdício de consumo de energia.

Strava
Esse aplicativo de corrida exibia percursos de corredores ao redor do mundo. O que era para ser um incentivo acabou se mostrando uma ameaça à segurança de militares. O jornal britânico The Guardian descobriu que soldados norte-americanos que usam o app para treinamentos acabaram revelando involuntariamente a possível localização de bases militares em áreas de conflitos armados, como Síria e Iraque.

Para compartilhar:

Investimentos

Criatividade com o uso de dados

Compartilhe: