Ir para o conteúdo principal

Big Data

Definições

O termo Big Data foi criado em 1997 por Michael Cox e David Ellsworth, pesquisadores da NASA que tinham que trabalhar com conjuntos de dados geralmente muito grandes, o que sobrecarregava a memória principal, disco local e capacidade de disco remoto. Eles chamaram isso de problema do Big Data. Apesar de ser amplamente referenciado, Big Data não tem uma definição rigorosa e consensual. Geralmente está associado ao tratamento de dados massivos, extraídos de diferentes fontes e sem estruturas pré-definidas. Para alguns autores, Big Data nada mais é do que um conjunto de dados cujo tamanho está além das ferramentas típicas de bancos de dados para capturar, armazenar, gerenciar e analisar. Diferentemente de um Data Warehouse, o Big Data vai além da consolidação de informações, pois é utilizado principalmente para o armazenamento e processamento de qualquer tipo e volume de dados com um volume que potencialmente cresce exponencialmente. No entanto, pode-se concluir neste que tanto um Data Warehouse quanto o Big Data têm um objetivo final comum: a exploração de dados com o objetivo de descrever situações, comportamentos, buscar padrões, relacionamentos e inferências (SALINAS e LEMUS, 2017).

De acordo com SAS (2022), big data refere-se a conjuntos de dados tão grandes, rápidos ou complexos que são difíceis ou impossíveis de processar usando métodos tradicionais. O ato de acessar e armazenar grandes quantidades de informações para análise existe há muito tempo. Mas o conceito de big data ganhou força no início dos anos 2000.

Segundo Oussous et al. (2018) o termo big data refere-se a grandes conjuntos de dados, em constante crescimento, que incluem formatos heterogêneos de dados estruturados, não estruturados e semiestruturados. Big data possui natureza complexa e exige tecnologias sofisticadas e algoritmos avançados. Neste novo contexto, ferramentas tradicionais de Business Intelligence mostram-se ineficientes para aplicações de big data.

Muitos experts e cientistas de dados definem big data pelas seguintes características principais (chamadas 3 Vs) (OUSSOUS et al., 2018):

  • Volume: Grandes volumes de dados são gerados continuamente a partir de milhares de dispositivos e aplicações (smartphones, redes sociais, sensores, logs, etc.);
  • Velocidade: Dados são gerados de modo rápido e precisam ser processados rapidamente para que insights relevantes sejam extraídos;
  • Variedade: Big data é gerado a partir de várias fontes e em múltiplos formatos (por exemplo: documentos, vídeos, comentários, logs, etc.). Grandes conjuntos de dados são constituídos por dados estruturados e não estruturados, públicos ou privados, de origem local ou distante, compartilhados ou confidenciais, completos ou incompletos, etc.

Oussous et al. (2018) afirmam que alguns autores incluem outros Vs e características à definição de big data:

  • Visão: um propósito;
  • Verificação: os dados são processados de acordo com alguma especificação;
  • Validação: se o propósito foi alcançado;
  • Valor: se informações pertinentes podem ser extraídos para muitos setores;
  • Complexidade: é difícil organizar e analisar big data devido à constante evolução dos relacionamentos;
  • Imutabilidade: uma vez coletado e armazenado, dados de big data podem ser permanentes se bem gerenciados.