Ir para o conteúdo principal

Data Lake

De acordo com a Amazon (2022), um data lake é um repositório centralizado que permite armazenar dados estruturados e não estruturados, em qualquer escala. Os dados podem ser armazenados como estão, sem precisar primeiro estruturá-los. Uma vez armazenados, podem ser executadas diferentes tipos de análises sobre os dados, desde painéis e visualizações até processamento de big data, análise em tempo real e aprendizado de máquina.

Os dados armazenados em um data lake não possuem uma finalidade específica, sendo transformados apenas quando são necessários para análises e relatórios.

Comparação com um Data Warehouse (DW)

Dependendo dos requisitos, uma organização poderá exigir um data warehouse e um data lake, pois atendem a diferentes necessidades e casos de uso.

Pode-se dizer que um data warehouse consiste em um sistema para armazenamento de dados originados de múltiplas fontes, especialmente estruturados para consulta e análise. A estrutura dos dados é definida antecipadamente e, no caso de um DW com modelagem dimensional,  desenvolvida para facilitar o entendimento pelo usuário final e otimizado para aumentar o desempenho de consultas SQL.

Por meio do processo de ETL, os dados em um DW são previamente limpos, enriquecidos e transformados para que possam atuar como "fonte única da verdade", em que os usuários possam confiar e utilizar como apoio à tomada de decisão.

-----------------

Um data lake pode armazenar tanto dados relacionais provenientes de sistemas transacionais, quanto dados não relacionais de dispositivos dispositivos IoT e mídias sociais por exemplo. Em um data lake, a estrutura dos dados não é definida quando os dados são capturados. Isso significa que você pode armazenar todos os seus dados sem um design cuidadoso.

----------

Diferentes tipos de análise em seus dados, como consultas SQL, análise de big data, pesquisa de texto completo, análise em tempo real e aprendizado de máquina, podem ser usados ​​para descobrir insights.

À medida que as organizações com data warehouses veem os benefícios dos data lakes, elas estão evoluindo seu warehouse para incluir data lakes e habilitar diversos recursos de consulta, casos de uso de ciência de dados e recursos avançados para descobrir novos modelos de informações. O Gartner nomeia essa evolução como “Solução de gerenciamento de dados para análise” ou “DMSA”.

https://cloud.google.com/blog/products/data-analytics/google-named-a-leader-in-2019-gartner-magic-quadrant-for-data-management-solutions-for-analytics

https://info.microsoft.com/gartner-mq-dmsa-register.html?ls=Website

data lake - Limitações e considerações

  • Complexidade de utilização direta e dificuldade de entendimento pelos usuários finais
  • Surgimento de data swamps -- amontoado de dados desorganizados
  • Questões de qualidade e governança de dados
  • Pode ser utilizado como fonte de dados para um DW.