ETL en Tableau

In Business Intelligence worden gegevens informatie, hetgeen resulteert in toegevoegde waarde voor een onderneming. Het helpt een organisatie de processen en efficiëntie te verbeteren, waardoor kosten kunnen worden bespaard, de omzet kan groeien en een competitief voordeel behaald kan worden. Al snel verschuift deze uitdaging naar de IT-afdeling, die de taak heeft om een platform te leveren dat dit kan faciliteren. Hoe past Tableau in dit plaatje en hoe zit het met Datawarehouse of niet?

Realtime gegevens

Bij het gebruik van BI bekijken we onze gegevens en de conclusies, correlaties en uitzonderingen die hieruit kunnen worden afgeleid. Hoe real-time moet deze informatie zijn? Dit varieert per onderwerp. Kijkend naar de Winst- en Verliesrekening of de Balans kan dit makkelijk een dag (of misschien zelfs een maand) oud zijn. Uw historische gegevens zullen niet veranderen, dus dit vereist geen updates. Hoe zit het met het ziekteverlof? Dit wordt achteraf geregistreerd, dus … Hoe zit het met uw fabriek? Hoeveel wordt er vandaag geproduceerd? Moet dit realtime zijn? Maar hoe zit het met de huidige staat van een machine in een productielijn? Wat als die kapot gaat of oververhit raakt? Dit moet in realtime informatie zijn. De vraag is of een BI-oplossing het perfecte platform is om downtime van een machine aan te geven. Mag ik een rode knipperlamp er bovenop voorstellen?

Niet-realtime gegevens

In een BI-oplossing is (bijna) real-time data meestal geen harde eis. Vandaar dat we de gegevensbron van onze Business Intelligence offline kunnen nemen en met niet-realtime gegevens kunnen werken. Dit vermijdt in ieder geval het belasten van de operationele database. Wanneer we naar ons ERP-systeem kijken, is het zeer waarschijnlijk dat facturering en boekingsprocessen ’s nachts worden uitgevoerd. Daarom zal BI op de winst- & verliesrekening maximaal 24 uur oud zijn. Het is hiervoor niet nodig om onze infrastructuur te belasten en realtime gegevens af te dwingen. Het wordt anders als we kijken naar bedrijven die echt afhankelijk zijn van realtime gegevens, zoals effectenmakelaars of termijnhandelaren. Deze bedrijven worstelen met snelle veranderingen in wisselkoersen, marktprijzen, lange of korte posities en nog veel meer. Handelaren moeten reageren door soms zelfs op de seconde te kopen of verkopen en moeten dus realtime inzicht hebben.

Datawarehouse of niet?

Wat zijn de redenen voor een datawarehouse (DWH)? Hoe is dit een oplossing voor een functioneel probleem of hoe is dit een door ICT gestuurde voorziening? In grotere organisaties is het aannemelijk om om verschillende redenen een DWH te vinden, zoals voor het combineren van gegevens uit meerdere bronnen, het bewaren van historische gegevens (die kunnen worden gearchiveerd in het oorspronkelijke bronsysteem) en het maken van momentopnamen van gegevens door de tijd heen. Als BI de gegevens uit het datawarehouse haalt, kan dit nooit in realtime zijn. Wat is realtime eigenlijk? Een snelheids- of temperatuurmeter kan als realtime worden beschouwd. Verkeersinformatie kan nooit realtime genoeg zijn. Maar hoe zit het met de Revenue of Positie of welke gegevens dan ook in het (ERP) -systeem. Ja, dit zijn transactiegegevens, maar wat als de backoffice-medewerker een deal maakt via de telefoon, eerst gaat lunchen en daarna dit contract invoert in het systeem (wat ongeveer zeven minuten duurt om te doen) en vervolgens opslaat. En dan moet het nog door iemand anders worden goedgekeurd. Hoe realtime zijn deze gegevens dan eigenlijk? Het argument dat een gebruiker wijzigingen in het ERP-systeem realtime in een dashboard moet zien, kan helpen om vertrouwen te krijgen in het systeem, maar dat is geen serieuze businesscase vanuit functioneel perspectief.

Meerdere bronnen

Wanneer meerdere systemen en afzonderlijke gegevensbronnen het grotere geheel completeren, is een samenvoeging van gegevens vereist in een BI-oplossing. In het ideale geval wordt dit door een enkele BI-toepassing gedaan. Een Extract Transform & Load (ETL) tool kan deze samenvoeging uitvoeren en één enkele versie van de waarheid creëren, terwijl de definitie van de informatie uniform wordt gemaakt. Vooral wanneer de brongegevens niet “schoon” zijn, kan een ETL-tool het herhaalbare werk doen. De kunst is om foutgevoelige exercities in Excel te voorkomen.

Afbeelding: combineren van databronnen in Tableau Prep

Gegevensbeheer

Hoogstwaarschijnlijk zijn de werknemers, die strategische, tactische of operationele informatie van een BI-oplossing gebruiken niet noodzakelijk de eindgebruikers in het bronsysteem. Een vertegenwoordiger die naar de verkoopcijfers van zijn klanten kijkt, is waarschijnlijk niet dezelfde persoon die de verkooporders invoert en verwerkt. Maar hoe moet u deze informatie beheren en beveiligen op een manier die aan beveiligingsbeleid en ook aan de AVG voldoet? Elke BI-oplossing biedt informatie, die gevoelig kan zijn op het niveau van privacy en administratieve organisatie (controletechnische functiescheiding). Dit vereist gegevensbeheer (data governance) dat zich vertaalt in een beveiligingsmodel.

Gegevensfederatie

Wanneer realtime gegevens een must-have zijn, zal dit hoogstwaarschijnlijk alleen voor transacties gelden. Alles wat vóór deze maand op de balans is gebeurd, kan als historische statische gegevens worden beschouwd. Een ETL kan helpen bij het samenvoegen van gegevens over historische statische data gecombineerd met actuele transacties. De veronderstelling is ook dat voor historische gegevens geen hoge granulariteit van details vereist is die bij actuele transacties wel nodig is. Daarom kan ETL de combinatie van oude gegevens, met gegevens van de afgelopen maand, met details van deze week, met actuele gegevens van vandaag verzorgen. Dit is wat we datafederatie noemen.

Tableau

In Tableau vinden we twee soorten verbindingen: live of extract. De keuze kan een grote invloed hebben op de prestaties. Voor een kleine set gegevens is live-ontsluiting geen probleem. Wanneer grotere sets gegevens in beeld komen, willen we toch een goede performance bieden. Wanneer Tableau gegevens verzamelt in een extract, maakt het gecomprimeerde hyper-files, die ontworpen zijn voor hoge prestaties. Deze hyper-files kunnen bijvoorbeeld worden gemaakt door Tableau Prep, waarmee dit het toegewijde ETL-tool is dat bij Tableau hoort. In Tableau Server kunnen we de verversing van deze bestanden tot eens per 15 minuten laten uitvoeren. Voor elk ERP-systeem is een verversing één keer per dag prima toereikend voor de meeste vereisten. Wanneer u verbinding maakt met meerdere bronsystemen, waaronder Excel-bestanden, CRM-systemen en HR-systemen, kan Tableau Prep deze gemakkelijk combineren tot gezamenlijke hyper-files of deze juist opsplitsen in meerdere afzonderlijke bestanden. Over het algemeen is een vuistregel om een ​​hyper-file per onderwerpgebied (d.w.z. Debiteuren) te hebben, dat alle noodzakelijke meetwaardes, feiten, dimensies en attributen bevat. Het combineren van gegevens over hyper-files heen kan worden bereikt door Data Blending in Tableau, of (bij voorkeur) door een nieuwe hyper-file te maken, waarin gegevens gecombineerd worden (zoals verkopen en inkopen).

Afbeelding: ETL flow in Tableau Prep

Tenslotte

Over het algemeen is Tableau het best uitgerust om te werken met supersnelle en sterk gecomprimeerde hyper-files. Dit impliceert ETL, bijvoorbeeld door gebruik te maken van Tableau Prep. Wanneer (bijna) real-time data een must is, kunnen deze bronnen via Tableau via een live verbinding worden ontsloten. Ook de combinatie van beide is zeer goed mogelijk. Maar die must-have beperkt zich waarschijnlijk alleen tot bepaalde vakgebieden en / of functionele disciplines binnen de organisatie. De absolute vereiste voor real-time gegevens is iets dat een functionele businesscase nodig heeft, waarvan naar mijn bescheiden mening de meesten in twijfel kunnen worden getrokken.

Jelle Huisman managing partner

Jelle Huisman

Managing Partner