Ir para o conteúdo principal

Data Lake

De acordo com a Amazon (2022), um data lake é um repositório centralizado que permite armazenar dados estruturados e não estruturados, em qualquer escala. Os dados podem ser armazenados como estão, sem precisar primeiro estruturá-los. Uma vez armazenados, podem ser executadas diferentes tipos de análises sobre os dados, desde painéis e visualizações até processamento de big data, análise em tempo real e aprendizado de máquina.

Os dados armazenados em um data lake não possuem uma finalidade específica, sendo transformados apenas quando são necessários para análises e relatórios.

Comparação com um Data Warehouse (DW)

Dependendo dos requisitos, uma organização poderá exigir um data warehouse e um data lake, pois atendem a diferentes necessidades e casos de uso.

Pode-se dizer que um data warehouse consiste em um sistema para armazenamento de dados originados de múltiplas fontes, especialmente estruturados para consulta e análise. A estrutura dos dados é definida antecipadamente e, no caso de um DW com modelagem dimensional,  desenvolvida para facilitar o entendimento pelo usuário final e otimizado para aumentar o desempenho de consultas SQL.

Por meio do processo de ETL, os dados em um DW são previamente limpos, enriquecidos e transformados para que possam atuar como "fonte única da verdade", em que os usuários possam confiar e utilizar como apoio à tomada de decisão.

 

-----------------

Um data lake pode armazenar tanto dados relacionais provenientes de sistemas da linha de negócios e dados não relacionais de aplicativos móveis, dispositivos IoT e mídias sociais. A estrutura dos dados ou esquema não é definida quando os dados são capturados. Isso significa que você pode armazenar todos os seus dados sem um design cuidadoso. Diferentes tipos de análise em seus dados, como consultas SQL, análise de big data, pesquisa de texto completo, análise em tempo real e aprendizado de máquina, podem ser usados ​​para descobrir insights.

À medida que as organizações com data warehouses veem os benefícios dos data lakes, elas estão evoluindo seu warehouse para incluir data lakes e habilitar diversos recursos de consulta, casos de uso de ciência de dados e recursos avançados para descobrir novos modelos de informações. O Gartner nomeia essa evolução como “Solução de gerenciamento de dados para análise” ou “DMSA”.