vrijdag 13 december 2019

data profiling stappen pandas

Volgende stappen voor data-profiling

df.info()  


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10035 entries, 0 to 10034
Data columns (total 8 columns):
VALID_BSN           10023 non-null object
BSN                 10023 non-null object
CODE_VOORZIENING    10035 non-null object
BEGIN_DATUM         10035 non-null datetime64[ns]
EIND_DATUM          10035 non-null datetime64[ns]
JAAR                10035 non-null object
CODE_BRON           10035 non-null object
BESTANDS_ID         10035 non-null object
dtypes: datetime64[ns](2), object(6)
memory usage: 627.3+ KB



Geeft weer
- aantal rijen
- data-types
- of er null values zijn

df.nunique

Geeft aantal unieke waarden

df.describe

geeft alleen statistische waarden van Numerical values



# ==> Analyse
df1.info()
df1.nunique()
print(df1.describe())




df1[df1['VALID_BSN'].isnull()]
df1[df1['VALID_BSN']=='0'].info()


df1[df1['BSN'].isnull()]
df1[df1['BSN']=='999999999']


dubbele records
df1[df1.duplicated(subset=None)]

Geen opmerkingen:

Een reactie posten