Armazenando a Massa de Dado

Para lidar com esses dados utilizar uma só máquina não é uma possibilidade, pois o custo e a tecnologia não permitem. A solução é a utilização de computação paralela, ou seja, dividir o problema em pedaços menores para que seja mais facilmente resolvido. O sistema de arquivos distribuído Hadoop é uma solução que trabalha no sentido de resolver o problema da grande massa de dados. Ele divide os dados de entrada em vários nós do aglomerado de computadores (cluster). Além disso, replica os dados para outras máquinas, a fim de obter redundância e evitar que o sistema em algum momento fique indisponível.

Os dados são conceitualmente orientados por quadro (frameworks) de programação Hadoop. Arquivos de entrada individuais são divididos em linhas ou em outros formatos específicos para a lógica da aplicação. Cada processo de execução é feito em um nó no cluster. O quadro Hadoop, em seguida, aloca estes processos em proximidade com o local onde os dados estão armazenados, utilizando o conhecimento do sistema de arquivos distribuídos. Como os arquivos estão espalhados por todo o sistema como pedaços, cada processo em execução opera em um subconjunto dos dados. A maioria dos dados é lida a partir do disco local direto para a CPU, aliviando a pressão sobre a banda da rede e impedindo transferências de rede desnecessárias. Esta estratégia de mover a computação para os dados, em vez de mover os dados para a computação permite Hadoop garantir o alto desempenho.