DATA WIREHOUSE

quinta-feira, 17 de junho de 2010

DATA WIREHOUSE


Conceitos.

O conceito de Data Wirehouse surgiu da necessidade de integrar dados corporativos espalhados em diferentes máquinas e sistemas operacionais, para torná-los acessíveis a todos os usuários dos níveis decisórios (NAVARRO, 1996). Entretanto, essa integração deve ser feita com uma seleção cuidadosa e otimizada dos dados já que a prioridade na utilização do ambiente do DW é o processamento de consultas e não o processamento de transações. A Figura 1 ilustra toda a estrutura interna que o ambiente de DW representa.

Figura 1: Estrutura interna do DW


Descrição.

“Um Data Warehouse é uma coleção de dados orientados a assuntos, integrados, variáveis com o tempo, não voláteis, para suporte ao processo gerencial de tomada de decisão.”(INMON, 1997, p.14)

Pode-se destacar as principais características de um Data Warehouse (que no português significa, literalmente armazém de dados) como a orientação a assunto, a padronização dos dados (integração), os dados não se perdem nos processos do banco de dados (volatilidade), armazenagem dos registros em uma série temporal, os dados são sumarizados (resumidos), a não necessidade de normalização e um conjunto de informações sobre os dados armazenados (metadados).

Tabela 1: Características de um Data Warehouse


Característica

Descrição

Orientação a assunto

Dados organizados de modo como o usuário se refere a ele

Integração

Inconsistências são removidas e informações conflitantes, isto é, os dados são “limpos”

Não volátil

Somente leitura de dados, dados não atualizado por usuários.

Séries Históricas

Os dados estão em séries históricas, não somente na situação corrente.

Resumidos

Os dados operacionais estão/são agregados.

Abrangência

Mantêm uma série temporal, considerando que mais dados serão armazenados.

Não normalizado

Dados podem ser redundantes.

Metadados

Dados sobre dados.








Arquitetura do Data Warehouse.

A arquitetura do Data Warehouse pode variar conforme o tipo de assunto abordado, isso ocorre devido as necessidades que variam de empresa para empresa.

Um exemplo de arquitetura de um DW pode ser visto na figura 1 com seus componentes descritos a seguir:

Figura 2: Arquitetura do projeto de DW (Figura adaptada de KIMBALL (1998).

Camada de banco de dados: Corresponde aos dados dos sistemas operacionais da organização, junto com dados provenientes de outras fontes externas que serão tratados e integrados para compor o DW. Pode ser, por exemplo, o banco de dados dos produtos de uma empresa ou dos fornecedores.

Camada de acesso aos dados: Esta camada é responsável pela ligação entre as 20 ferramentas de acesso à informação e os bancos de dados operacionais (comunica-se com diferentes SGBDs). Pode ser a representação dos dados fontes no ambiente de DW ou o ponto de comunicação entre as ferramentas de manipulação de dados com os dados do DW.

Camada de gerenciamento de replicação: Esta camada inclui todos os processos necessários para selecionar, editar, resumir, combinar e carregar o DW e as correspondentes informações de acesso a partir das bases operacionais. Exemplificando, seriam os módulos de integração dos dados, podendo ser um cálculo de média de um dado em uma tabela fonte para ser armazenado no DW.

Camada de dados intermediários: Gerencia o transporte de informações pelo ambiente de redes. É usada para isolar aplicações, operacionais ou informacionais, e entregá-las em locais e tempos determinados.

Camada do DW: O DW corresponde aos dados usados para fins ”informacionais” (analíticos). Em alguns casos, DW é simplesmente uma visão lógica ou virtual dos dados, podendo de fato não envolver o armazenamento destes dados. Como exemplo, poderia ser um DW que visa analisar o Clima de uma região, tendo como fonte de dados a média da temperatura das regiões estudadas (seguindo um hierarquia: bacia hidrográfica, sub-bacias, ponto de medição).

Camada de acesso à informação: É a camada com a qual os usuários finais interagem. Representa as ferramentas que o usuário utiliza para navegar pelos dados de DW. Podemos citar uma ferramenta, produzida pela Oracle, Oracle 9i Discoverer. Também envolve o hardware e software utilizado para obtenção de relatórios, planilhas, gráficos e outros.

Camada de gerenciamento de processos: Está envolvida com o controle das diversas tarefas a serem realizadas para construir e manter as informações do dicionário de dados e do DW. Contribui para manter o DW atualizado e consistente. É o gerente de todo o DW, um exemplo de aplicativo que executa essa tarefa é a ferramenta Oracle 9i Warehouse Builder.

Camada de metadados (dicionários de dados): Metadados são as informações sobre os dados mantidos pela organização. Para poder manter a funcionalidade de um ambiente de DW é necessário ter disponível uma grande variedade de metadados, desde

dados sobre as visões dos usuários até dados sobre os bancos de dados operacionais.

§ Arquitetura Genérica

A arquitetura genérica compreende a camada dos dados operacionais que serão acessados pela camada de acesso a dados. As camadas de gerenciamento de processos, transporte e data warehouse são responsáveis por distribuir os dados e estão no centro da arquitetura. A camada de acesso à informação possibilita a extração das informações do DW utilizando um conjunto de ferramentas.

Figura 3: Arquitetura genética DW.

§ Arquitetura de Duas Camadas

A arquitetura de duas camadas utiliza um servidor, juntamente com aplicações front end, que são ferramentas que realizam operações sobre os dados consultados e os transformam em informações úteis para os usuários, os componentes back end são ferramentas responsáveis pela extração, limpeza e cargas dos dados, mais conhecidas como ETL também são utilizadas neste tipo de arquitetura.

Figura 4: Arquitetura duas camadas DW.

§ Arquitetura de Três Camadas

A arquitetura de três camadas suporta vários usuários e serviços devido a sua flexibilidade, as informações ficam armazenadas em várias camadas. Na primeira camada estão as interfaces que trabalham com o usuário, onde geralmente são gráficas. Na segunda camada estão os servidores de banco de dados e aplicações e, por isso, têm a necessidade de ter um acesso eficiente e veloz aos dados compartilhados, e na última ficam armazenadas as fontes de dados. A arquitetura de três camadas é a mais utilizada pelos analistas.

Figura 5: Arquitetura três camadas DW.

Ferramentas de acesso.

As maneira em que os dados são extraídos e integrados com cada processo distinto do DW. As funções para a transformação dos dados são:

• Extração: retirada dos dados dos sistemas transacionais e armazenagem na área de Data Stage;

• Carga de dimensões processadas: realimentação do processo para garantir a representação correta dos dados em novo formato.

• Carga, Replicação e Recuperação: quando pronto, o dado é carregado no Data Mart correspondente e são criados (ou atualizados) índices para melhorar a performance das consulta.

• Alimentação: apresenta as visões do Data Mart de acordo com as necessidades dos usuários.

• Carga dos resultados dos modelos: serve para realimentar possíveis modificações no Data Mart, caso este não esteja adequado a aplicação que o utiliza.

Para as operações de consultas destaca-se:

a) cadastrar consulta: define consultas gerenciais baseadas na modelagem dimensional do cubo de decisão;

b) visualizar e configurar consultas: acesso e configuração sobre as consultas cadastradas.

Exemplos de Banco de dados para Data Warehouse.

· Adabas D - Software AG

· Advanced Pick - Pick Systems

· Broadbase Server - Broadbase Information Systems

· DB2 - IBM

· Fast-Count DBMS - MegaPlex Software

· HOPS - HOPS International

· Microsoft SQL Server - Microsoft

· MK Platform - Synergistics Services Group

· Model 204 - Computer Corp. of America

· NonStop SQL - Tandem

· Ngram Transform-DB - Triada

Entre outros.

Os principais passos para criar um modelo.

1. Desenvolver um modelo conceitual da atividade do negócio ou processo a ser suportado por um banco de dados;

2. Usar esse modelo de mais alto nível para criar o modelo lógico de dados. O modelo

lógico provê muito mais detalhes e é independente da implementação;

3. Transformar o modelo lógico em um modelo físico detalhado com cada implementação do banco de dados. O modelo físico é chamado de esquema.

Para os novos bancos de dados, o primeiro passo é definir a atividade do negócio ou o processo. Isso envolve ajustamento de dados (incluindo entrevistas com usuários potenciais) e um entendimento do processo do negócio a ser suportado.

Em um DW o modelo conceitual é baseado em fatos, dimensões e hierarquias. A informação em um DW é usada para pesquisa completa, sumarização e organização dos dados. Ou seja, estas informações consistem em uma base que dá suporte a análise e busca do conhecimento.

Características:

• A informação é vista em intervalos de tempo, preferencialmente em transações individuais;

• A informação é disposta numa visão global do negócio;

O objetivo da modelagem de dados é converter os conceitos da organização em uma forma que pode ser desenvolvida em uma estrutura de dados, refletindo o modelo da organização, de modo que a informação possa ser extraída por usuários do sistema.

Para as operações de montagem de projeto destacam-se os seguintes casos de uso:

a) cadastrar Data Warehouse: cria um novo projeto de DW baseado no modelo dimensional estrela;

b) cadastrar dimensão: grava as definições referentes a uma dimensão bem como seus atributos e chave primária;

c) cadastrar cubo: grava as definições referentes a um cubo de decisão bem como seus indicadores e dimensões relacionadas.

Exemplo de ferramentas.

A ferramenta para a construção de um DW conta com dois atores: o usuário de consultas e o administrador projetista. Neste trabalho, a ênfase principal é com as funções disponibilizadas ao administrador, uma vez que ao usuário caberá apenas a tarefa de efetuar as consultas.

As operações realizadas pelo administrador podem ser divididas nos seguintes processos: montagem do projeto de DW, consultas, metadados e recursos adicionais da ferramenta.

Outros recursos adicionais da ferramenta são:

a) exportar metadados: exporta todas as definições referentes a um projeto de DW em padrão XML,

b) importar metadados: importa para o sistema um novo projeto de DW gerado em XML;

c) visualizar agendamento: apresenta ao administrador todos os agendamentos de fontes do dia corrente que ainda estão em aberto para processamento;

d) visualizar log de mensagens: mostra as principais ocorrências dentro do sistema como informações de importação, erro e tratamento de exceções;

e) limpar Data Warehouse: processa limpeza de dados e do conteúdo dos projetos de DW do sistema;

f) cadastrar usuário: cria novos usuários para acesso ao sistema.

Exemplos de utilização.

Desenvolver um sistema de Data Warehouse não é uma tarefa simples, ela requer o entendimento de vários conceitos e domínio de tecnologias que devem ser conciliadas para trabalhar em conjunto. Sistemas de Apoio a Decisão (SAD), redes de computadores, servidores, Sistemas de Gerenciamento de Banco de Dados (SGBD) são exemplos de tecnologias que devem ser integradas.


0 comentários:

Postar um comentário