Hoe je datawetenschappers ongestoord naar goud kunt laten zoeken

Artikelen Reading time: Reading time: Lästid: Lukemisen aika: Læsningstid Leestijd Lesetid 5 minutes minutes minuter minuuttia minutter minuten minutter

Data-analisten kijken achteruit, wat heel nuttig is vanwege de rapporten die ze maken voor de bedrijfsvoering en de compliance. Maar wat als je je data wilt gebruiken om vooruit te kijken en te voorspellen wat er gaat gebeuren? Want dat is echt goud voor je organisatie. Dan heb je datawetenschappers nodig, die je vervolgens met je data moet laten experimenteren. Alleen brengt dat heel eigen uitdagingen met zich mee, legt Global Field CTO van HPE Matt Maccaux uit.

IT heeft een vreselijke hekel aan datawetenschappers, stelt Maccaux, die binnen HPE werkt voor het overgenomen BlueData, dat een hele infrastructuur heeft gebouwd om datawetenschappers van dienst te zijn zonder dat ze IT al te veel irriteren. “Datawetenschappers hebben alle data nodig en bovendien alle resources die ze kunnen krijgen”, stelt hij. “IT heeft aan de andere kant veel tijd nodig om zulke omgevingen op te zetten, terwijl datawetenschappers soms maar minuten nodig hebben om erachter te komen dat het toch niet werkt zoals ze hadden bedacht, waarna ze weer iets anders willen. Om gek van te worden!”

De datawetenschappers zouden dan dus weer een half jaar moeten wachten op de volgende omgeving. En in de tussentijd zitten ze duimen te draaien, want zonder die omgeving kunnen ze heel weinig doen, stelt Matt. “Ook al geef je ze de zwaarste laptops, dan nog zijn hun jobs zo zwaar dat ze er een eeuwigheid over doen om te draaien. Dat schiet gewoon niet op.” 

Bovendien zijn ze gevaarlijk

Datawetenschappers zijn vaak wiskundigen, geen programmeurs. Dus schrijven ze vaak code op bijvoorbeeld Python die op Spark wordt uitgevoerd, maar met een beetje pech breken ze daarmee de middleware en dan kunnen je data-analisten ook niet meer bij de data in je data warehouse.

Matt vergelijkt ze met stereotype scheikundigen. “Stel je een lab voor met allerlei stofjes in glazen bekers, met daarbij een onderzoeker in een witte jas die steeds maar van die goedjes bij elkaar gooit om te kijken wat er gebeurt. Soms wordt het zaakje groen, maar soms explodeert de boel.” En dan wil je niet dat het lab ergens in de buurt van de fabriek staat waar productie wordt gedraaid.  

Ze zijn namelijk op zoek naar het goud voor de business.

Je zou zeggen dat je dat kunt oplossen door ze in een aparte omgeving onder te brengen en ze dus niet met de live data te laten werken, maar dat is volgens Matt ook niet heel aantrekkelijk. “Want ga je dan voor een data scientist alle data dupliceren? En als er nog een data scientist bij komt, dupliceer je alles dan nóg een keer? Dat wordt onbeheersbaar!” Ze moeten dus wel degelijk bij de data kunnen uit de live omgeving. 

Lees meer over hoe BlueData uw datagedreven digitale transformatie kan versnellen

Geef ze een speeltuin met alle mogelijkheden

Datawetenschappers plaatsen IT in een onmogelijke spagaat. Ze mogen het data warehouse van het bedrijf niet kapot maken, maar ze moeten wel de ruimte en de data krijgen om te experimenteren. “Ze zijn namelijk op zoek naar het goud voor de business”, zo benadrukt Maccaux. Het uitgangspunt voor BlueData was dan ook dat ze een omgeving wilden maken die dit mogelijk maakt. Ze zetten de datawetenschapper in een sandbox, van waaruit wel op de live data kan worden “ingetapt”. Oorspronkelijk werd de sandbox gemaakt met behulp van VMware, maar omdat BlueData ook de publieke cloud wilde gebruiken bleken containers hiervoor veel efficiënter. De jobs van de wetenschappers vereisen namelijk erg veel cpu-tijd, wat in de cloud veel geld kost. Het grote voordeel van containers is dat je ze gewoon laat verdwijnen als ze niet nodig zijn, terwijl VM’s toch blijven bestaan en resources verbruiken.

Het draait uiteindelijk allemaal om de software development cycle. De ontwikkelaars moeten de machines bouwen die het echte goud moet gaan mijnen.

Daarnaast geeft BlueData de datawetenschapper alle tools die hij nodig heeft in zijn sandbox. “Als het op Linux draait, kunnen wij er een container van maken”, zegt hij zelfverzekerd. En zo kunnen ze hun gang gaan zonder IT in de weg te zitten, maar daarmee zijn we er nog niet volgens Maccaux. Want als die datawetenschappers het goud voor de business eenmaal hebben gelocaliseerd in de vorm van een bepaalde combinatie van datavariabelen, dan kan de business daar nog niets mee. Dan moet het namelijk nog in productie worden genomen in de vorm van applicaties, waar echte softwareontwikkelaars voor nodig zijn. “Het draait uiteindelijk allemaal om de software development cycle”, zegt Maccaux. De ontwikkelaars moeten de machines bouwen die het echte goud moet gaan mijnen.

Het is dan heel handig als die ontwikkelaars in dezelfde omgeving kunnen werken als de wetenschappers en van dezelfde tools gebruik kunnen maken. “We maken er één devops pipeline van, van de wetenschapper die combinaties ontdekt naar de ontwikkelaar die daar in productie bruikbare code voor schrijft tot de data analist die tot slot aan het management moet rapporteren hoeveel het uiteindelijk allemaal opbrengt.” Bovendien moet het model onderhouden worden. “Want de variabelen veranderen met de tijd en dan moet dus ook de software worden aangepast. En dan is het pas echt cruciaal dat de wetenschappers in dezelfde omgeving en aan dezelfde pipeline werken  als de ontwikkelaars.”

Maar het blijft oppassen

Als dat soepel werkt heeft de organisatie er echt iets aan, maar volgens Maccaux liggen de allergrootste uitdagingen van het werken met data ook bij die organisatie. Want, zegt hij, “de technische uitdagingen van het werken met datawetenschappers hebben we opgelost. Maar het gaat ook om de organisatorische uitdagingen, en die moeten de bedrijven zelf oplossen.” Wie is er eigenaar van de data en hoe krijg je het voor elkaar dat die dat overal gebruikt mag worden? Wie neemt de verantwoordelijkheid voor de jobs? Dat uitzoekwerk moet je in geen geval in de cloud doen, stelt hij, en daar heeft hij een pakkend voorbeeld bij.

“Bij een grote retailer deden op een vrijdagmiddag de datawetenschappers het licht uit, maar ze vergaten een job uit te zetten die in de cloud draaide. Die job draaide dus het hele weekend zonder dat het iets opleverde. Maar op maandagochtend bleek daarmee in één klap 30.000 dollar verbrand te zijn. Daar moeten dus wel procedures voor zijn.” Als dat on prem was gebeurd, dan was er helemaal niets aan de hand geweest. Ga pas naar de cloud als je organisatorisch alles op orde hebt, zo is de boodschap van Maccaux. “Het kan, we hebben dat technisch voor je opgelost, maar wees er voorzichtig mee!”


Relatert Lue seuraavaksi Relaterat Relateret Gerelateerd Related