BlueData: hoe begin je ermee?

Digitalisatie Reading time: Reading time: Lästid: Lukemisen aika: Læsningstid Leestijd Lesetid 3 minutes minutes minuter minuuttia minutter minuten minutter

Momenteel kunnen we gerust spreken van een dataexplosie. Meer data, betekent ook dat steeds meer mensen daar gebruik van willen maken, denk hierbij aan data scientists, data analisten en data engineers. Ieder heeft zijn eigen tools en zijn eigen manier van werken, wat een ondoorzichtige structuur kan opleveren. Als je je omgeving wilt vereenvoudigen, is het belangrijk om alle belanghebbenden mee te krijgen.

“Als we vanuit BlueData bij een organisatie binnenkomen, beginnen we altijd met een workshop”, vertelt Marcel de Bont van HPE. In die workshop worden data scientists, data analisten, data engineers en infrastructuur operations samengebracht. Die groepen hebben allemaal heel andere taken. De analist maakt rapportages op basis van historische data, de scientist probeert met de data in de toekomst te kijken en de data engineer moet ervoor zorgen dat de ruwe data in het systeem behapbaar en benaderbaar is voor iedereen, in het juiste formaat en op een geautomatiseerde manier. Infrastructuur operations, tot slot, moet het platform ter beschikking stellen om dit allemaal mogelijk te maken, en moet dat monitoren en beheren.

Elkaar begrijpen

“Typisch wordt door mensen die met data werken een groot aantal verschillende open source tools gebruikt”, vertelt Marcel. Er is veel software beschikbaar om te werken met data en wat men gebruikt is dus vooral afhankelijk van wat iedereen in de loop van de tijd is tegengekomen en wat men zich eigen heeft gemaakt. “Daarnaast neemt de dynamiek van de mensen die met data werken steeds meer toe”, zo gaat hij verder. Er komt namelijk steeds weer nieuwe data bij om mee te werken, het aantal nieuwe tools en modellen neemt toe, er ontstaan nieuwe ideeën en men ontwikkelt nieuwe use cases naarmate men meer met de data doet.

Daarom moet je ze het grote plaatje laten zien en tegelijk dat iedereen voor het grootste deel kan blijven werken met dezelfde tools.

Over het algemeen is de dynamiek het hoogst bij de data scientist die graag met nieuwe ideeën en modellen wil experimenteren om uiteindelijk toegevoegde waarde te bieden aan de business. Maar de wisselwerking tussen alle partijen is veelal intens en soms hectisch. Als je de verschillende groepen op één lijn wilt krijgen, zul je er dus voor moeten zorgen dat ze elkaar goed leren begrijpen en respecteren. Dat is dan ook het doel van de workshop.

Lees meer over hoe BlueData uw datagedreven digitale transformatie kan versnellen

Het grote plaatje

BlueData brengt de verschillende rollen en taken samen in een multi-tenant portal waar iedereen in werkt en dus moeten de verschillende belangen goed tegen elkaar worden afgewogen. Niet iedereen krijgt per definitie alles wat hij zou willen en daarom stuit de overgang naar een portal als BlueData in eerste instantie soms op weerstand, omdat werkwijzen kunnen veranderen. “Daarom moet je ze het grote plaatje laten zien en tegelijk dat iedereen voor het grootste deel kan blijven werken met dezelfde tools.” Alleen gebeurt dat dan wel vanuit een centraal governance-model.

“Want wat wil iedereen die met data werkt?”, vraagt Marcel zich hardop af. “Toegang tot de brondata, een geïntegreerde ontwikkelomgeving zoals Jupiter Notebook en een grote selectie aan tools, specifieke libraries en modellen. Het is een opluchting als blijkt dat dat allemaal blijft, maar wel vanuit een centrale omgeving, waarbij data pipelines snel geautomatiseerd ter beschikking kunnen worden gesteld. Bovendien wordt het opzetten van volledige omgevingen veel minder complex en kan men snel aan de slag met wat echt belangrijk is. Als dan ook nog blijkt dat het beheer en het ontsluiten van databronnen sterk worden vereenvoudigd dan ziet men vrij snel de waarde in van een dergelijk platform.”

Eenvoud en governance

Wat je bijvoorbeeld niet wilt, is dat je met de hand steeds maar analysestraten moet klaarzetten met tools als Kafka, Kassandra, Hadoop en Tensorflow, vindt Marcel. “Die zien er allemaal toch ongeveer hetzelfde uit, dus kun je ze makkelijk bundelen en templaten.” Daarnaast wil je controle over de hele omgeving. Je wilt governance, controle over de licenties van alle tools die worden gebruikt, je wilt een centrale repository voor de resultaten en dat datamodellen goed worden opgeslagen en dat ze deelbaar zijn. Het belang daarvan moet iedereen leren inzien.

Meestal blijkt uit de workshop dat de omgeving niet alleen eenvoudiger wordt voor infrastructuur operations, maar dat er voordelen zijn voor iedereen die met de data werkt als de omgeving eenvoudiger wordt gemaakt. “Juist die eenvoud is wat BlueData je oplevert.” 


Relatert Lue seuraavaksi Relaterat Relateret Gerelateerd Related