woensdag 30 september 2015

Datavault Concepts

Datawarehouse Concepts

Dataware house is a decisional db system

Data in DW is composed of facts and dimensions

Facts = actual numerical measures
Dimensions = descriptive data about those measures

Design different from OLTP db

-         large amounts of data
-         simple to query

Solution DW
-         denormalize the data, less joins
-         restrict use of foreign keys

outcome: fact table with fk’s to each of dimension tables 
STAR table

Dimensions can also themselves have other tables surrounding them  like SNOWFLAKE

No complicated joins with multiple tables to get descriptive joins. Information is included directly in dimension tables in a de-normalized form


OWB Concepts

Client side

  • Design Center incl Control Center
  • Repository Browser



Server side

  • Control Center Server
  • Repository (including workspaces)
  • Target schema    in oracle DB


Design center : logical design of ETL procedures. Stored in a workspace in the Repository on the server

Control Center Manager: maanging the creation of the physical implementation by deploying the designs we’ve created in the target schema.

Deploy: create physical objects from logical definitions

Control Center on the client interacts with the Control Center Server on the server

Repository : component for which a seperate schema is created when the database is installed OWBSYS
Must be unlocked as final step.

Datavault


Nieuwe aanpak om DWhouses te modelleren. Term wordt ook gebruikt om een Database aan te geven die op een bepaalde manier gemodelleerd is.

Voordelen:
- datamodel extensibility
- reproducibility of reporting results

Nadeel:
- Querying op DV model is complex. complexe SQL and bad performance
Vaak oplgelost door middel van Derived Data Stores (

Concepten


Soorten Tabellen

Hubs                : botten       : bevat PrimKey
Satellites          : vlees  : bevat Foreign key
Links               : pezen           : om van hub naar hub te gaan.

  • Hub (botten):
representeert business objects bijv produkt, customer, airport, aircraft

  • Links (pezen)
representeert relaties tussen hubs bijv flight (linking aircraft and airport) of product purchase (linking product and customer)

  • Satellites (vlees)
bevatten attributen van hubs of links.
elke satellite may contain one to many attributes
- a satelliteof a hub airport may contain teh attribute called number of runways,
- a satelliteof a employeehub contain the monthly salary
- a satelliteof link is the duration of a flight  belonging to the link table called flight.

Hubs and links may contain zero or more satellite




HUB:

Werkt met principe van Business key. Hier wordt een regel toegevoegd in de Datavault als er een nieuwe instantie van een entiteit bijkomt. Bijv er komt een nieuwe jongere bij in ERISA. Er wordt gekeken of er een nieuwe BK is bijgekomen in de bron tabel. Zoja dan is er een nieuwe jongere en kan een record in de HUB toegevoegd worden. Een BK is vaak een sleutel uit het bronsysteem.

Stap : Vergelijk ER_JONGERE met H_jongere op basis van de Business Key. Verschil dan nieuwe jongere en toevoegen aan aan de HUB

Hub wordt dus gevuld op basis van een BK en record bevat dus BK + primary key (technische sleutel/surrogatekey) + extra velden DV_record_bron, dv_laad_datum en dv_audit_date.



Satellites

Satellite bevat info over een entiteit (bijv Jongere). Velden zijn bijv geboortedat, voornaam of startkwalificatie. Deze info over een jongere wijzigt in de loop van de tijd. Bij het laden van de DV wordt dus gekeken of er een veld gewijzigd is in de bron tabel tov van het meest recente voorkomen van die jongere in de S_tabel. Zoja dan wordt een nieuw record in de sattelite toegevoegd met een laad begindatum en een laad einddatum is leeg. Het eventuele voorgaande record wordt afgesloten met een seconde voor de laaddatum (laad_einddatum). Zo kan je dus van een jongere zijn historie bijhouden.

Hierbij wordt in de satellite dus het meest recente voorkomen van een jongere vgl met de brontabel  (voor alle andere velden dan de BK)

Sattelite bevat dus

Technische sleutel + FK uit Hub + velden bijv geboortedt, voornaam, startkwal + DV_laad_datum, DV_laad_eind_datum, dv_record_bron, dv_audit_date

Bij laden dv wordt de sysdate als laaddatum gebruikt  bijv 1-08-2013 05:45

ER worden nieuwe records geinsert dan wordt de dv_laaddatum gezet. Dit is datum dat record is ontstaan.

Alleen bij sattelites wordt er ook afgesloten





    H ------------links----------------H
     |                     |                     |
Sat                     sv                  SAT


Verschil tussen S en SV satellite


Satelitte op links worden in Jeugdmonitor op 2 manieren genoteerd S_ of SV_. De SV is een zelfbedachte term

Een satellite op een link kan betekenen dat er aan 2 sleutels (de link) ook data hangt die kan wijzigen. Dan wordt in de Jeugdmonitor  de S_ notatie gebruik

Bij JM word naast een S ook een SV satellite gebruikt. Dit zegt iets over sattelites op links waar geen data is die kan wijzigen.(bijv Loopbaan is een relatie tussen school en leerling. Hier wordt voor de rest geen data van bijgehouden. Een Loopbaan kan wel tijdelijk gestopt en gestart worden). Deze historie van de link (een link zonder echte data) willen we wel bijhouden. Dit doen we dus in een SV_ satellite,

Geen opmerkingen:

Een reactie posten