Data Lake
De acordo com a Amazon (2022), um data lake é um repositório centralizado que permite armazenar dados estruturados e não estruturados, em qualquer escala. Os dados podem ser armazenados como estão, sem precisar primeiro estruturá-los. Uma vez armazenados, podem ser executadas diferentes tipos de análises sobre os dados, desde painéis e visualizações até processamento de big data, análise em tempo real e aprendizado de máquina.
Os dados armazenados em um data lake não possuem uma finalidade específica, sendo transformados apenas quando são necessários para análises e relatórios.
Comparação com um Data Warehouse (DW)
Dependendo dos requisitos, uma organização poderá exigir um data warehouse e um data lake, pois atendem a diferentes necessidades e casos de uso.
Pode-se dizer que um data warehouse consiste em um sistema para armazenamento de dados originados de múltiplas fontes, especialmente estruturados para consulta e análise. A estrutura dos dados é definida antecipadamente e, no caso de um DW com modelagem dimensional, desenvolvida para facilitar o entendimento pelo usuário final e otimizado para aumentar o desempenho de consultas SQL.
Por meio do processo de ETL, os dados em um DW são previamente limpos, enriquecidos e transformados para que possam atuar como "fonte única da verdade", em que os usuários possam confiar e utilizar como apoio à tomada de decisão.
-----------------
Um data lake pode armazenar tanto dados relacionais provenientes de sistemas transacionais, quanto dados não relacionais de dispositivos dispositivos IoT e mídias sociais por exemplo. Em um data lake, a estrutura dos dados não é definida quando os dados são capturados. Isso significa que você pode armazenar todos os seus dados sem um design cuidadoso.
----------
Diferentes tipos de análise em seus dados, como consultas SQL, análise de big data, pesquisa de texto completo, análise em tempo real e aprendizado de máquina, podem ser usados para descobrir insights.
À medida que as organizações com data warehouses veem os benefícios dos data lakes, elas estão evoluindo seu warehouse para incluir data lakes e habilitar diversos recursos de consulta, casos de uso de ciência de dados e recursos avançados para descobrir novos modelos de informações. O Gartner nomeia essa evolução como “Solução de gerenciamento de dados para análise” ou “DMSA”.
https://info.microsoft.com/gartner-mq-dmsa-register.html?ls=Website
data lake - Limitações e considerações
- Complexidade de utilização direta e dificuldade de entendimento pelos usuários finais
- Surgimento de data swamps -- amontoado de dados desorganizados
- Questões de qualidade e governança de dados
- Pode ser utilizado como fonte de dados para um DW.