DEEP WEB

A Surface Web, internet que usamos diariamente, é indexada por mecanismos de pesquisa (como o Google). Essa indexação ocorreu de maneiras diferentes ao longo do tempo, como o rankeamento pelo número de palavras num site associadas a um determinado contexto, ou o número de links que referenciam determinado site. Hoje, a importância de um site (e o quão na “superfície” ele se encontra) é ditada por algoritmos recursivos que dão peso à referenciação (quanto mais referências uma página detém, mais importância terão as páginas as quais ela referenciar).

A Deep Web, no entanto, não é externamente indexada. Seu conteúdo não se encontra disponível em sites ou páginas estáticas, mas sim em bancos de dados que dinamicamente respondem a requisições específicas. Isso significa que sites na Deep Web podem dinamicamente decidir quais links e/ou conteúdo serão disponibilizados à cada usuário, garantindo a privacidade de ambas as partes.

Essa característica dos sites da Deep Web, de disponibilizarem links dinamicamente de acordo com a requisição, a torna um agrupamento de vários conjuntos de redes individuais. Na verdade, cada usuário vê esse agrupamento de conjuntos de maneira diferente, já que as relações entre domínios se modificam autonomamente.

Dessa maneira, vê-se a dificuldade de mapear ou mensurar a Deep Web. A tecnologia de crawlers empregada hoje na rede indexada é absolutamente ineficaz no ambiente em questão, já que eles teriam que montar queries para caminhos específicos, mas sem saber como montar essa query em primeiro lugar (precisariam essencialmente ver o futuro).

A garantia de privacidade na Deep Web é extremamente importante para seus usuários, assim como veremos de forma mais aprofundada na seção "Privacidade e Segurança". Por causa dela, além de toda a questão da responsividade dinâmica oferecida pelos domínios das redes nesse ambiente, o próprio roteamento deve oferecer anonimato. Uma solução bastante conhecida é o TOR (The Onion Router), que é o roteamento em camadas. Os pacotes de dados são encriptados em camadas, e cada dispositivo desencripta (ou sabe desencriptar) somente sua respectiva camada. Em cada uma dessas respectivas camadas por dispositivo, está o endereço apenas do próximo dispositivo do roteamento. O que acontece é que cada dispositivo sabe endereços apenas dos saltos imediatamente antes e após de si mesmo - não é conhecida a origem dos pacotes ou seu destino final.

Mesmo com a dificuldade de se indexar o seu conteúdo, com o crescimento acelerado da rede TOR especificamente, surgiram algumas tentativas de criar mecanismos de busca para indexá-la, e de certa forma, eles têm sido bem-sucedidos no que propõem. Os principais mecanismos são dois: Ahmia e Hidden Wiki.

O Ahmia foi desenvolvido por Juha Nurmi como parte do Tor Project, e é uma das coisas mais próximas de um mecanismo de busca na Deep Web. Ele essencialmente coleta URLs .onion da rede Tor e, em seguida, insere essas páginas em seus índices, desde que eles não contenham um arquivo robots.txt dizendo para não indexá-los. Além disso, o Ahmia permite que operadores de serviços em cebolas registrem seus próprios URLs, permitindo que eles sejam encontrados. Através da coleta contínua de URLs .onion, Ahmia criou um dos maiores índices da Deep Web. Dito isto, ainda não chega nem perto de arranhar a superfície de toda a Deep Web, mas indexa uma boa parte do conteúdo que a maioria das pessoas gostariam de procurar.

O Hidden Wiki funciona de forma um pouco diferente. Qualquer um pode se registrar no Hidden Wiki, e depois disso, editar os links contidos no banco de dados. O mecanismo de pesquisa opera buscando as descrições fornecidas das páginas nesses links. Isso certamente tem seus prós e contras. Pelo lado positivo, o crowdsourcing dos links é uma das melhores maneiras de coletar um grande número de URLs úteis e mantê-los atualizados (especialmente porque os nomes de domínio .onion mudam com muita frequência). Por outro lado, qualquer pessoa pode alterar os links para onde quiser ou alterar as descrições dos links. Os contras disso podem ser atenuados pelos administradores do site para garantir que os links sejam geralmente precisos, mas não há garantias ao usar os links nesta página.

Figura 2 - Esquema do funcionamento do "roteamento cebola".

Figura 3 - Estabelecendo um circuito Tor.

Figura 4 - Navegador Tor.