1. Introdução a Deep Web

1.1 Surgimento

A Deep Web é conhecida por muitos nomes, dentre "web invisível", "web profunda", "web oculta" ou, por muitos, "Dark Web". Muito se especula sobre sua criação, alguns estudos apontam que a Dark Web foi criada por Michael G. Reed, Paul F. Syverson e David M. Goldschlag, sendo patenteada pela Marinha dos Estados Unidos em 1998. Nesta teoria, sua origem provêm do Laboratório de Pesquisas da Marinha do país, que desenvolveu uma técnica para comunicação anônima denominada The Onion Routing (ou Roteamento Cebola). Tendo sua segunda geração liberada para uso não-governamental, conhecida como TOR, tendo, em 2006, se tornado a ONG TOR Project.

1.2 Definição de Deep Web

A parte "navegável", e aparentemente única existente, é denominada "web de superfície" (ou Surface Web). Esta, então, trata-se da parcela visível e conhecida pelos usuários comuns da Internet. Sendo assim, a web visível é indexada, e, consequentemente, encontrada pelos buscadores da rede, tais como Google, Bing ou qualquer outro site de busca.

Por outro lado, a Deep Web trata da parte não indexável da internet, portanto, não encontrada pelos buscadores. Tal fato é consequência de que as páginas na Deep Web são criadas e disponibilizadas dinamicamente, e ainda, a maior parte de seu conteúdo, proveniente de banco de dados tem seu acesso permitido apenas mediante a incrição e/ou pagamento. Sendo guardados por diretórios protegidos por senha, o conteúdo fica fora do alcance da varredura dos motores de busca.

O conceito de Deep Web foi abordado em Franco (2013, p. 5, grifo do autor) como:

"A Deep Web é considerada a camada real da rede mundial de computadores, comumente explicada em analogia a um iceberg: a internet indexada, que pode ser encontrada pelos sistemas de busca, seria apenas a ponta superficial: a Surface Web."

Quadro 1: Tipos de conteúdos invisíveis
Fonte: Sherman e Price (2001, p. 63)
Tradução: Vignoli e Monteiro (2015, p. 07)

TIPO DE CONTEÚDO INVISÍVEL	PORQUE SÃO INVISÍVEIS
Páginas desconectadas	Nenhum hiperlink para rastrear e localizar a página
Páginas que consistem em PDF, Flash, executáveis ou arquivos comprimidos (.zip, .tar)	Tecnicamente indexáveis, mas usualmente ignorados por políticas de exclusão ou motivos comerciais
Conteúdo em base de dados relacionais	Crawlers não podem preencher os campos necessários em formatos interativos
Conteúdo de tempo real	Dados efêmeros, quantidades enormes, informação rapidamente modificada
Conteúdo gerado dinamicamente	Coteúdos customizados são relevantes para a maioria das buscas; medo das "armadilhas dos spiders"

1.3 Estrutura da Rede

O conteúdo da Deep Web está oculto através de formulários HTTP, e apenas pode ser localizado e acessado por um URL ou endereço IP direto. Ao utilizar o anonimato proveniente do TOR, é possível "camuflar" a localização do servidor, asssim, apenas usuários TOR ou outra aplicação que acesse o sufixo .onion será capaz de vizualizar as páginas. Afinal, estes endereços não são DNS reais, tendo o protocolo TOR um servidor DNS próprio, independente da raiz mundial DNS.

Com todos os seus endereços sendo parte da árvore .onion, o único ramo da árvore DNS, os endereços abaixo são compostos por uma combinação de 16 dígitos gerados aleatoriamente. Logo, não há endereços legíveis, como google.com, dificultando absurdamente a busca de sites.

A Deep Web não é organizada através das tradicionais camadas, mas através de redes de computadores totalmente independentes entre si, como a Onion (TOR), Freenet, Osiris e outras.

1.4 Busca

O funcionamento de motores de busca é baseado na construção de um banco de dados através de programas denominados web crawlers, ou spiders (aranhas), que partem de uma lista de páginas da Internet conhecidas.

A Deep Web é composta, justamente, das páginas que não conseguem ser encontradas por web crawlers.