Datawarehouse Concepts
Dataware house is a
decisional db system
Data in DW is composed of
facts and dimensions
Facts = actual numerical
measures
Dimensions = descriptive
data about those measures
Design different from OLTP
db
-
large amounts of data
-
simple to query
Solution
DW
-
denormalize the data,
less joins
-
restrict use of foreign
keys
outcome: fact table with
fk’s to each of dimension tables
STAR table
Dimensions can also
themselves have other tables surrounding them
like SNOWFLAKE
No complicated joins with
multiple tables to get descriptive joins. Information is included directly in
dimension tables in a de-normalized form
OWB Concepts
Client side
- Design Center incl Control Center
- Repository Browser
Server side
- Control Center Server
- Repository (including workspaces)
- Target schema in oracle DB
Design center : logical
design of ETL procedures. Stored in a workspace in the Repository on the server
Control Center Manager:
maanging the creation of the physical implementation by deploying the designs
we’ve created in the target schema.
Deploy: create physical
objects from logical definitions
Control Center on the client
interacts with the Control Center Server on the server
Repository : component for
which a seperate schema is created when the database is installed OWBSYS
Must be unlocked as final
step.
Datavault
Nieuwe aanpak om DWhouses te
modelleren. Term wordt ook gebruikt om een Database aan te geven die op een
bepaalde manier gemodelleerd is.
Voordelen:
- datamodel extensibility
- reproducibility of
reporting results
Nadeel:
- Querying op DV model is
complex. complexe SQL and bad performance
Vaak oplgelost door middel
van Derived Data Stores (
Concepten
Soorten Tabellen
Hubs : botten : bevat PrimKey
Satellites : vlees : bevat Foreign key
Links : pezen : om van hub naar hub te gaan.
- Hub (botten):
representeert business
objects bijv produkt, customer, airport, aircraft
- Links (pezen)
representeert relaties
tussen hubs bijv flight (linking aircraft and airport) of product purchase
(linking product and customer)
- Satellites (vlees)
bevatten attributen van hubs
of links.
elke satellite may contain
one to many attributes
- a satelliteof a hub
airport may contain teh attribute called number of runways,
- a satelliteof a
employeehub contain the monthly salary
- a satelliteof link is the
duration of a flight belonging to the
link table called flight.
Hubs and links may contain
zero or more satellite
HUB:
Werkt met principe van
Business key. Hier wordt een regel toegevoegd in de Datavault als er een nieuwe
instantie van een entiteit bijkomt. Bijv er komt een nieuwe jongere bij in
ERISA. Er wordt gekeken of er een nieuwe BK is bijgekomen in de bron tabel.
Zoja dan is er een nieuwe jongere en kan een record in de HUB toegevoegd
worden. Een BK is vaak een sleutel uit het bronsysteem.
Stap : Vergelijk ER_JONGERE
met H_jongere op basis van de Business Key. Verschil dan nieuwe jongere en
toevoegen aan aan de HUB
Hub wordt dus gevuld op
basis van een BK en record bevat dus BK + primary key (technische sleutel/surrogatekey)
+ extra velden DV_record_bron, dv_laad_datum en dv_audit_date.

Satellites
Satellite bevat info over
een entiteit (bijv Jongere). Velden zijn bijv geboortedat, voornaam of
startkwalificatie. Deze info over een jongere wijzigt in de loop van de tijd.
Bij het laden van de DV wordt dus gekeken of er een veld gewijzigd is in de
bron tabel tov van het meest recente voorkomen van die jongere in de S_tabel.
Zoja dan wordt een nieuw record in de sattelite toegevoegd met een laad
begindatum en een laad einddatum is leeg. Het eventuele voorgaande record wordt
afgesloten met een seconde voor de laaddatum (laad_einddatum). Zo kan je dus
van een jongere zijn historie bijhouden.
Hierbij wordt in de
satellite dus het meest recente voorkomen van een jongere vgl met de
brontabel (voor alle andere velden dan
de BK)
Sattelite bevat dus
Technische sleutel + FK uit
Hub + velden bijv geboortedt, voornaam, startkwal + DV_laad_datum,
DV_laad_eind_datum, dv_record_bron, dv_audit_date

Bij laden dv wordt de
sysdate als laaddatum gebruikt bijv
1-08-2013 05:45
ER worden nieuwe records
geinsert dan wordt de dv_laaddatum gezet. Dit is datum dat record is ontstaan.
Alleen bij sattelites wordt
er ook afgesloten
H ------------links----------------H
| | |
Sat sv SAT
Verschil tussen S en SV satellite
Satelitte op links worden in
Jeugdmonitor op 2 manieren genoteerd S_ of SV_. De SV is een zelfbedachte term
Een satellite op een link
kan betekenen dat er aan 2 sleutels (de link) ook data hangt die kan wijzigen.
Dan wordt in de Jeugdmonitor de S_
notatie gebruik
Bij JM word naast een S ook
een SV satellite gebruikt. Dit zegt iets over sattelites op links waar geen
data is die kan wijzigen.(bijv Loopbaan is een relatie tussen school en
leerling. Hier wordt voor de rest geen data van bijgehouden. Een Loopbaan kan
wel tijdelijk gestopt en gestart worden). Deze historie van de link (een link
zonder echte data) willen we wel bijhouden. Dit doen we dus in een SV_ satellite,
Geen opmerkingen:
Een reactie posten