vrijdag 6 december 2019

topics cursus data modelleren

https://www.slideshare.net/RogierWerschkull


Ronald Damhof : Quadrant model


X-as  :  Data-deployment produktieproces:       push vs     pull

Y-as  : Ontwikkelstijl:    Systematisch   vs   Opportunistisch

https://www.scamander.com/nl/wp-content/uploads/2016/11/dutch-het-data-kwadranten-model-interview-ronald-damhof-1.pdf

DWH

A data warehouse is a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management's decision making process. 

Subject-Oriented: A data warehouse can be used to analyze a particular subject area. For example, "sales" can be a particular subject.

Integrated: A data warehouse integrates data from multiple data sources. For example, source A and source B may have different ways of identifying a product, but in a data warehouse, there will be only a single way of identifying a product.

Time-Variant: Historical data is kept in a data warehouse. For example, one can retrieve data from 3 months, 6 months, 12 months, or even older data from a data warehouse. This contrasts with a transactions system, where often only the most recent data is kept. For example, a transaction system may hold the most recent address of a customer, where a data warehouse can hold all addresses associated with a customer.

Non-volatile:
 Once data is in the data warehouse, it will not change. So, historical data in a data warehouse should never be altered.


Trend: steeds meer alleen Time Variant and non-volatile  (datalake)

Probleem 1: Modellering niet aangepast aan Datascience behoeften.
Voor deze groep meer halffabrikaten maken voor DS

Data-driven

Vroeger Eckhoff piramide leidend
data --> info--> knowledge --> wisdom

Modern  :  info   --> data --> info
dat die je hebt is slechts een specifiek verzameling van de werkelijkheid.  Deze selectie kan veel bepalen . Focus je dus niet alleen op de de data. 

Datagedreven werken is rare term.   ---> Barry Devlin "Business Unintelligence"

Dat vraagt ook om een andere benadering van data intelligence en data warehousing. Zijn boek Business Unintelligence slaat op de weinig slimme manier waarop organisaties met data omgaan. Want het gaat verder dan de data, ook intuïtie speelt bijvoorbeeld een rol. Je zou niet moeten worden gedreven door data, maar geïnformeerd worden door informatie.”


ELT vs ETL

2 definities
def1:  ETL ---deel verwerking gebeurt op aparte applicatieserver en data weer terug naar DBserver en ELT is verwerking gebeurt ook op DB server

def2:  ELT heeft betrekking op volgordelijkheid. Eerst de CM of datalake vullen (time variant, non volatile) dan DWH


Ensemble modelling

 Trend: dimensioneel modelleren niet meer gebruiken voor DWH laag maar alleen voor DM laag. Nieuwe modellingstechnieken zogenaamde Ensemble modelling bijv DV. Deze technieken zijn nog niet goed uitgewerkt of slecht geimplementeerd (Datavault)

based on Unified Decompositie

Let op genereren van DV uit bronsysteem is verdacht. DV moet ontworpen worden

BEAM methodiek : Cavas modelleren

Semantische laag

Is vaak niet los te zien van de tool die gebrukt wordt

master data

Sleutel die voor alles geldt.


degenerated dimensie : kassabon + kassabonregel. Waarom. geen beschrijvende waarde



Geen opmerkingen:

Een reactie posten