O que é ETL?

Estive vendo uma vaga de emprego oferecida no site do CEVIU e lá estava pedindo conhecimento em ETL/OlAP. e fiquei bem curioso sobre o assunto onde li e achei legal postar aqui. Segue o conteúdo abaixo

Afinal o que é ETL?

ETL, vem do inglês Extract Transform Load, ou seja, Extração Transformação Carga. O ETL visa trabalhar com toda a parte de extração de dados de fontes externas, transformação para atender às necessidades de negócios e carga dos dados dentro do Data Warehouse (Para entender o conceito de Data Warehouse, leia o post sobre “O que é o Data Warehouse?”). O foco deste artigo é a utilização do ETL voltado para Data Warehouse, mas você pode utilizar as ferramentas de ETL para fazer todo tipo de trabalho de importação, exportação, transformação de dados para outros ambientes de banco de dados ou para outras necessidades a serem endereçadas.

esquema etl

 

 

 

 

 

 

 

 

Os projetos de data warehouse consolidam dados de diferentes fontes. A maioria dessas fontes tendem a ser bancos de dados relacionais ou flat files (não relacionais), mas podem existir outros tipos de fontes também. Um sistema ETL precisa ser capaz de se comunicar com bases de dados e ler diversos formatos de arquivos utilizados por toda a organização.

A ferramenta que nós podemos utilizar para ETL da Microsoft é o Microsoft SQL Server Integration Services.


Os Principais Componentes do ETL

Arquitetura de uma solução de BI utilizando um sistema ETL

Nesta imagem nós podemos visualizar um exemplo de modelo de Arquitetura de uma solução de BI. O objetivo aqui não é discutir sobre toda a arquitetura, mas visualizar os principais componentes que fazem parte de um sistema ETL.

1) Extração: É a coleta de dados dos sistemas de origem (também chamados Data Sources ou sistemas operacionais), extraindo-os e transferindo-os para o ambiente de DW, onde o sistema de ETL pode operar independente dos sistemas operacionais.

2) Limpeza, Ajustes e Consolidação (ou também chamada transformação): É nesta etapa que realizamos os devidos ajustes, podendo assim melhorar a qualidade dos dados e consolidar dados de duas ou mais fontes.

O estágio de transformação aplica um série de regras ou funções aos dados extraídos para ajustar os dados a serem carregados. Algumas fontes de dados necessitarão de muito pouca manipulação de dados. Em outros casos, podem ser necessários trabalhar algumas transformações, como por exemplo, Junção de dados provenientes de diversas fontes, seleção de apenas determinadas colunas e Tradução de valores codificados (se o sistema de origem armazena 1 para sexo masculino e 2 para feminino, mas o data warehouse armazena M para masculino e F para feminino, por exemplo).

3) Entrega ou Carga dos dados: Consiste em fisicamente estruturar e carregar os dados para dentro da camada de apresentação seguindo o modelo dimensional. Dependendo das necessidades da organização, este processo varia amplamente. Alguns data warehouses podem substituir as informações existentes semanalmente, com dados cumulativos e atualizados, ao passo que outro DW (ou até mesmo outras partes do mesmo DW) podem adicionar dados a cada hora. A latência e o alcance de reposição ou acréscimo constituem opções de projeto estratégicas que dependem do tempo disponível e das necessidades de negócios.

4) A parte de Gerenciamento é composta por serviços para auxiliar no gerenciamento do DataWarehouse. Aqui nós temos tasks específicas para gerenciamento de jobs, planos de backup, verificação de itens de segurança e compliance.

Além dos 04 componentes principais, também temos outros dois itens a serem avaliados:

01

 

Requisitos para o ETL

Antes de iniciar um Projeto de ETL é necessário que os seguinte itens estejam bem alinhados:

  • Requisitos de negócio
    • Você tem bem claro e documentado quais são os requisitos de negócio?
  • Viabilidade dos Dados
    • Foi realizado uma análise de viabilidade dos dados?
  • Latência dos Dados
    • Qual é o tempo máximo permitido para disponibilização dos dados através do sistema de BI?
  • Políticas de Compliance e Segurança
    • Quais são as políticas de compliance e segurança adotadas pela empresa?

ETL no Ciclo de Vida do Data Warehouse

ETL no Ciclo de Vida do Data Warehouse

O Ciclo de vida do Data Warehouse é composto por uma série de etapas. Inicia-se pelo planejamento do Programa ou Projeto, passamos pelo levantamento e definição dos requisitos de negócios e aí nos dividimos em 3 caminhos… Um seguindo a parte de Arquitetura e Design Técnico, Outro trabalhando a definição da Modelagem Dimensional, o Desenho físico e a parte de ETL, e um terceiro caminho que trata do planejamento e desenvolvimento da aplicação de BI, o front end propriamente dito.

Referências:

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s