Definição

Quão grande deve ser o dado para ser considerado “grande massa de dados” (big data)?

O conceito de Grande Massa de Dados é controverso na definição de seu tamanho. Certa quantidade de bytes pode ser vista ou não como big data dependendo se o dado é texto ou vídeo, se é estruturado ou não. A melhor definição é a que relativiza a grande massa de dados à capacidade de processamento e gerenciamento das ferramentas que trabalham esses dados, pois certo tamanho do “volume” dos dados que é considerada grande hoje pode rapidamente deixar de ser visto como grande, visto que as ferramentas e hardwares utilizados evoluem a cada ano.

Exemplos:
Apesar do nome “big data” indicar um objeto de estudo para o futuro, já existe inúmeros casos onde a complexidade e a quantidade dos dados dificulta seu manuseio. Um exemplo disso na medicina ocorre no estudo de pacientes com epilepsia. Nele, voluntários recebem um matriz de 320 microeletrodos que realiza a amostragem 32 kHz por canal, com 18 bits de resolução, isso à 4bytes por amostra de dado. Assim, são gerados cerca de três terabytes de dados por dia. Outro exemplo atual se dá no LHC, onde são gerados aproximadamente 15 Petabytes/ano de dados. Com o avanço das redes sociais, surge ainda mais um desafio relacionado à Big Data, como minerar informações úteis desse quase bilhão de usuários a fim de, por exemplo, melhorar uma estratégia de marketing? Em todos esses casos, surgem problemas relacionados ao custo de armazenamento e tempo processamento dessas informações.