A Internet está apodrecendo: estamos perdendo nossa memória digital?

Todos os dias, milhares de páginas da web desaparecem sem deixar rastros. E com elas, memórias, conhecimentos e fragmentos da nossa história desaparecem. Quando tudo parece estar a apenas um clique de distância, é paradoxal que a World Wide Web (WWW) que chamamos de internet — aquele imenso arquivo digital da nossa civilização global — esteja evaporando silenciosamente.
Há quase 4.000 anos, um comerciante escreveu uma reclamação sobre lingotes de cobre defeituosos em uma tábua de argila. Essa reclamação sobrevive até hoje. No entanto, blogs, fóruns e sites pessoais publicados há apenas quinze anos desapareceram. Como é possível que uma reclamação da Idade do Bronze seja mais duradoura do que uma postagem de 2009?
A chave está na fragilidade da internet. O conteúdo digital, se não for preservado ativamente, é por natureza efêmero.
Ao contrário de mídias físicas como argila, papiro ou papel, os sites dependem de servidores que exigem manutenção, domínios que precisam ser renovados e formatos que, mais cedo ou mais tarde, se tornam obsoletos.
Quando um servidor desaparece, um domínio expira, redirecionamentos são mal gerenciados ou um site depende de tecnologias obsoletas, o resultado é o mesmo: o conteúdo se torna inacessível e, quando finalmente desaparece, ninguém percebe.
Esse fenômeno é chamado de "link rot" e está em andamento. Em uma análise de tweets que publiquei entre 2007 e 2023, constatou-se que 13% dos links estavam quebrados e, se o tweet tivesse mais de dez anos, o número subia para 30%. Em outras palavras, quase um terço do conteúdo linkado há uma década tornou-se inacessível... se não completamente perdido.
O apagão silencioso Em Blade Runner 2049 , um apagão massivo causado por ativistas replicantes apaga todos os registros digitais. Mas não é preciso um cenário tão extremo para que vastas quantidades de informação desapareçam num piscar de olhos. Contudo, como no filme, esses apagamentos são resultado de decisões conscientes, geralmente tomadas por empresas privadas. Por exemplo, o fechamento de plataformas como Yahoo! Answers, Geocities, Tuenti ou os fóruns Meristation significou a perda de milhões de textos, imagens e conversas que documentavam parte de nossas vidas e de nossa cultura digital.
Por outro lado, diferentemente de governos anteriores que implementaram políticas para preservar informações disponíveis em sites governamentais, o governo Donald Trump removeu sistematicamente milhares de páginas e dados oficiais de agências como os Centros de Controle e Prevenção de Doenças (CDC), a Administração Oceânica e Atmosférica Nacional (NOAA) e a Agência de Proteção Ambiental (EPA).
Essas exclusões afetaram principalmente conteúdos relacionados à saúde pública, mudanças climáticas, diversidade e direitos sociais. Elas levaram a uma perda significativa de informações públicas e científicas e geraram alarme, principalmente na comunidade científica.
O paradoxo é evidente: nossa civilização produz mais conteúdo do que nunca, mas o faz em formatos voláteis e, além disso, está perdendo-o mais rápido do que imaginamos.
Tudo isso acontece enquanto cada vez mais informações (atas parlamentares, boletins oficiais, artigos científicos e manuais técnicos, entre outros) são publicadas em formato digital, muitas vezes sem uma cópia física.
O paradoxo é evidente: nossa civilização produz mais conteúdo do que nunca, mas o faz em formatos voláteis e, além disso, está perdendo-o mais rápido do que imaginamos.
Apesar dessa situação, há esforços para preservar nossa memória digital. O mais conhecido é o Wayback Machine do Internet Archive, que arquivou bilhões de páginas da web desde 1996. Em nível nacional, instituições como a Biblioteca Nacional da Espanha, ou suas equivalentes no Reino Unido e na Austrália, também estão trabalhando para preservar parte do nosso patrimônio digital.
O que está sendo feito? Da mesma forma, diante de exclusões em massa e deliberadas como as realizadas pelo governo Trump, diversas organizações estão colaborando para arquivar informações excluídas. Essas iniciativas buscam garantir o acesso futuro a dados públicos, não apenas para fins de pesquisa, mas também para preservar o registro histórico.
Claro, não é uma tarefa simples. A WWW de hoje é muito mais complexa do que era na década de 1990: o conteúdo é dinâmico e interativo, e não mais simples documentos HTML. Além disso, arquivar conteúdo de mídia social ou multimídia não só representa um enorme desafio técnico, agravado pelos obstáculos impostos pelas próprias plataformas, como também levanta dilemas éticos e legais relacionados à privacidade e ao consentimento do usuário. Em outras palavras, nem tudo pode ou deve ser preservado.
Ainda assim, todos nós podemos contribuir: ferramentas como Save Page Now, Wayback Machine ou Archive.today permitem que qualquer pessoa arquive uma cópia de qualquer página da web simplesmente digitando seu URL.
Talvez em 4.000 anos, ninguém encontrará nossas reclamações sobre lingotes defeituosos, mas encontrará nossas receitas, memes e discussões em fóruns e, com eles, um vislumbre de quem éramos.
Em última análise, dizer que a WWW está apodrecendo é como dizer que uma floresta está apodrecendo: algo sempre morre, mas também algo nasce , já que a rede está em constante mudança. O importante é saber que podemos capturar fragmentos, preservar o essencial e construir uma memória digital mais sólida, menos vulnerável às flutuações tecnológicas ou às decisões de algumas empresas ou governos.
Talvez em 4.000 anos, ninguém encontrará nossas reclamações sobre lingotes defeituosos, mas encontrará nossas receitas, memes e discussões em fóruns e, com eles, um vislumbre de quem éramos.
(*) Professor titular do Departamento de Ciência da Computação da Universidade de Oviedo.
(**) É uma organização sem fins lucrativos que busca compartilhar ideias e conhecimento acadêmico com o público. Este artigo é reproduzido aqui sob uma licença Creative Commons.
Quatro em cada dez sites de 2013 já não existem 
Foto: iStock
Em 1º de janeiro, a internet como a conhecemos completou 42 anos e, nessas mais de quatro décadas, os usuários geraram uma enorme quantidade de informações na web: só em 2023, havia 120 zettabytes (ZB) de dados, e este ano a expectativa é de que esse número aumente em 150%, chegando a 181 ZB, segundo dados compilados pelo Statista. Para colocar esse número em perspectiva, um ZB equivale a um bilhão de terabytes (TB), e os maiores cartões de memória do tipo SDUC disponíveis no mercado hoje chegam a apenas 128 TB.
No entanto, o que é publicado online nem sempre perdura. Você provavelmente já clicou em um link mais de uma vez e se deparou com a mensagem "404 Não Encontrado", que não o direciona para o que você estava procurando. Um relatório de 2024 do Pew Research Center revelou que parte do conteúdo digital se perde com o tempo, mesmo em sites considerados confiáveis, como portais governamentais, veículos de notícias, redes sociais e a Wikipédia.
“A internet é um repositório inimaginavelmente vasto da vida moderna, com centenas de bilhões de páginas indexadas. Mas, embora usuários ao redor do mundo recorram à internet para acessar livros, imagens, notícias e outros recursos, esse conteúdo às vezes desaparece”, afirma o documento.
O estudo analisou uma amostra de quase um milhão de páginas da web salvas entre 2013 e 2023 pelo Common Crawl, um serviço de arquivamento que compila periodicamente instantâneos da internet como ela existia em diferentes momentos. Os resultados indicaram que 25% de todas as páginas analisadas não estavam mais acessíveis em outubro de 2023. Detalhado, esse número inclui 16% das páginas que estavam fora do ar, mas eram originárias de um domínio primário que ainda estava ativo, e 9% dos sites que estavam inacessíveis porque seu domínio raiz parou de funcionar.
A análise também descobriu que quanto mais antiga a página, maior a probabilidade de ela ter desaparecido: das amostras coletadas em 2013, 38% não estavam mais acessíveis em 2023 ; mas mesmo das páginas coletadas em 2021, cerca de uma em cada cinco não estava mais utilizável dois anos depois.
A decadência digital não afeta apenas páginas pessoais ou sites com pouco tráfego. O Pew Research Center analisou 500.000 páginas da web de governos locais, estaduais e federais nos Estados Unidos usando o panorama de março/abril de 2023 do Common Crawl e descobriu que, em outubro de 2023, 21% dessas páginas continham pelo menos um link quebrado e 16% dos links dentro de páginas da web redirecionavam para URLs diferentes daquelas para as quais apontavam originalmente.
Para veículos de notícias, a amostra também incluiu 500.000 páginas do panorama de março/abril de 2023 do Common Crawl. As páginas vieram de 2.063 sites classificados como "Notícias/Informações" pela empresa de métricas de audiência comScore, e constatou-se que, na época do estudo, em outubro de 2023, 23% das páginas tinham links quebrados.
Até mesmo a Wikipédia, um dos sites mais visitados do mundo, tem esse problema: de uma amostra de 50.000 de suas páginas em inglês, 54% tinham pelo menos um link na seção “Referências” que redirecionava para uma página que não existia mais.
eltiempo