1. Introdução a Deep Web

1.1 Surgimento da "Deep Web"

A Deep Web é conhecida por muitos nomes, dentre "web invisível", "web profunda", "web oculta" ou, por muitos, "Dark Web". Muito se especula sobre sua criação, alguns estudos apontam que a Dark Web foi criada por Michael G. Reed, Paul F. Syverson e David M. Goldschlag, sendo patenteada pela Marinha dos Estados Unidos em 1998. Nesta teoria, sua origem provêm do Laboratório de Pesquisas da Marinha do país, que desenvolveu uma técnica para comunicação anônima denominada The Onion Routing (ou Roteamento Cebola). Tendo sua segunda geração liberada para uso não-governamental, conhecida como TOR, tendo, em 2006, se tornado a ONG TOR Project.

1.2 Definição de Deep Web

A parte "navegável", e aparentemente única existente, é denominada "web de superfície" (ou Surface Web). Esta, então, trata-se da parcela visível e conhecida pelos usuários comuns da Internet. Sendo assim, a web visível é indexada, e, consequentemente, encontrada pelos buscadores da rede, tais como Google, Bing ou qualquer outro site de busca.

Por outro lado, a Deep Web trata da parte não indexável da internet, portanto, não encontrada pelos buscadores. Tal fato é consequência de que as páginas na Deep Web são criadas e disponibilizadas dinamicamente, e ainda, a maior parte de seu conteúdo, proveniente de banco de dados tem seu acesso permitido apenas mediante a incrição e/ou pagamento. Sendo guardados por diretórios protegidos por senha, o conteúdo fica fora do alcance da varredura dos motores de busca.

O conceito de Deep Web foi abordado em Franco (2013, p. 5, grifo do autor) como:

"A Deep Web é considerada a camada real da rede mundial de computadores, comumente explicada em analogia a um iceberg: a internet indexada, que pode ser encontrada pelos sistemas de busca, seria apenas a ponta superficial: a Surface Web."

Quadro 1: Tipos de conteúdos invisíveis
Fonte: Sherman e Price (2001, p. 63)
Tradução: Vignoli e Monteiro (2015, p. 07)
TIPO DE CONTEÚDO INVISÍVEL PORQUE SÃO INVISÍVEIS
Páginas desconectadas Nenhum hiperlink para rastrear e localizar a página
Páginas que consistem em PDF, Flash, executáveis ou arquivos comprimidos (.zip, .tar) Tecnicamente indexáveis, mas usualmente ignorados por políticas de exclusão ou motivos comerciais
Conteúdo em base de dados relacionais Crawlers não podem preencher os campos necessários em formatos interativos
Conteúdo de tempo real Dados efêmeros, quantidades enormes, informação rapidamente modificada
Conteúdo gerado dinamicamente Conteúdos customizados são relevantes para a maioria das buscas; medo das "armadilhas dos spiders"

1.3 Estrutura da Rede

A Deep Web é composta por sites não indexados, não sendo possível encontrá-los pelos mecanismos de busca como Google, seu conteúdo está oculto através de formulários HTTP, e apenas podem ser localizados e acessados por uma URL ou endereço IP direto.

Já no caso da conhecida Dark Web, é utilizado o anonimato proveniente do TOR, sendo possível "camuflar" a localização do servidor, asssim, apenas usuários TOR ou outra aplicação que acesse o sufixo .onion será capaz de visualizar as páginas. Os sites registrados na Dark Web usam servidores diferentes dos convencionais. Os domínios “.onion” são completamente independentes do ICANN (órgão responsável pela alocação do espaço de endereços do Protocolo da Internet), por isso não são acessíveis e de difícil rastreamento, visto que estes endereços não são DNS reais e não estão no Internet DNS Root. Podemos dizer então que o protocolo TOR possui um servidor DNS próprio, independente da raiz mundial DNS.

Com todos os seus endereços sendo parte da árvore .onion, o único ramo da árvore DNS, os endereços abaixo são compostos por uma combinação de 16 dígitos gerados aleatoriamente. Logo, não há endereços legíveis, como google.com, dificultando absurdamente a busca de sites. Sendo a Dark Web não organizada através das tradicionais camadas, mas através de redes de computadores totalmente independentes entre si, impedindo que sejam identificados os pontos de origem e destino da comunicação. Ou seja, cada "salto" dado para dentro da rede têm sua camada de criptografia própria, e em seu último "salto", para a Internet, não se sabe de onde a solicitação veio originalmente.


Figura 1: Como a Rede TOR funciona
Fonte: heitorgouvea.me (postado em 28/11/18)