Valid over Data Science

Geplaatst door CorporatieMedia op
 

Ik ben nu drie maanden aan het werk als Senior Data Scientist bij Valid. Sinds mijn aantreden merk ik dat ik op veel plaatsen vaak moet uitleggen ‘wat is dat Data Science nou eigenlijk precies’?

Vaak begint men dan over de grootse verwachtingen met betrekking tot kunstmatige intelligentie en big data – dat lost al je problemen op toch? Maar ik hoef je waarschijnlijk niet uit te leggen dat wij data scientists geen magische knop hebben die alle problemen oplost. Maar wat doen wij dan wel? En wat kan er met Data Science precies? Daarom dit tweedelig blog over Data Science, bedoeld voor niet-Data-Scientists.

In dit eerste deel wil ik het graag hebben over de Data Science zaken die we eigenlijk al vele jaren doen. Data Science is zeker geen ‘oude wijn in nieuwe zakken’, maar belangrijke elementen uit ons vak bestaan wel al jaren. Veel van onze technieken werkten tientallen jaren geleden al en werden gebruikt om bedrijfsprocessen cijfermatig te analyseren en te optimaliseren. Onder de noemer ‘data science’ werken deze technieken vandaag de dag natuurlijk nog steeds. 

In dit blog bespreek ik dit beproefde deel van ons vak en geef ik concrete voorbeelden, zodat het allemaal wat minder abstract wordt. Wat er wel heel nieuw is aan ons vak lees je in het tweede deel van deze blogreeks. In dat deel komt onder andere de link tussen data science, kunstmatige intelligentie en big data aan bod.

Analytics: cijfermatig bedrijfsprocessen analyseren
Het cijfermatig analyseren van bedrijfsprocessen met als doel deze bedrijfsprocessen te verbeteren: dit wordt in de management sciences vaak analytics genoemd. Analytics, of business analytics, of soms wat extra opgeklopt tot advanced analytics: het betekent in essentie allemaal hetzelfde. Het verbeterdoel hangt af van de context. Denk aan het verhogen van efficiëntie, het verhogen van kwaliteit of het verkleinen van risico’s. Dit analyseren kan natuurlijk op veel manieren, maar bij analytics gaat het over kwantitatieve, cijfermatige analyses, vaak op basis van statistiek en algoritmen. 

Eigenlijk slaat dit de spijker op de kop als het gaat om wat een Data Scientist doet: wij hebben diepgaande kennis van deze kwantitatieve methoden, statistiek en algoritmen en kunnen daarmee, op basis van cijfermatige analyses en onderbouwing, business-vraagstukken  helpen oplossen. Hiervoor hebben we wel cijfertjes over het huidige proces nodig: de data. En omdat ieder bedrijfsproces vaak toch net anders is, heeft een goede data scientist nog een belangrijke vaardigheid. Namelijk, hij of zij is communicatief vaardig en kan in samenwerkingsverband zo de juiste link leggen tussen de bedrijfsprocessen, de data en de data science methoden. Ik geloof sterk in deze combinatie, maar helaas is dit geen gemeen goed voor iemand met de job-title data scientist. En dat terwijl je voor een succesvolle data science oplossing toch echt diepgaande kennis van zowel ons vak als het te verbeteren bedrijfsproces zelf nodig hebt. 

Binnen analytics worden vaak drie of vier deelrichtingen omschreven, die terugkomen in onderstaande diagram. Deze deelrichtingen onderscheiden elkaar door het type toepassing en door hoe diep de cijfermatige analyse ingrijpt in de beslissingen die in een bedrijf gemaakt worden. Om concrete voorbeelden te geven is het voor mij dan ook handig eerst dit onderscheid te maken. Voor alle onderstaande voorbeelden geldt dat de benodigde data science technieken al vele tientallen jaren oud zijn. Dit wil (meestal) zeggen dat als de hoeveelheid data die gebruikt wordt beperkt blijft tot enkele excel sheetjes en daarnaast vooral uit cijfertjes bestaat, we dit dus al jaren kunnen. Met andere woorden, hier is niets fancies, nieuws of erg risicovol aan.

Descriptive analytics
Descriptive analytics gaat over de vraag wat er in het verleden gebeurd is. Data science in deze hoek gaat meestal over het statistisch beschrijven van je data, om hierin patronen te vinden. Deze patronen geven vervolgens (soms verborgen) inzichten in de onderliggende bedrijfsprocessen zelf. 

Enkele concrete voorbeelden zijn:

  1. Kan ik mijn klanten indelen in groepen op basis van gelijke karakteristieken, om deze vervolgens als groep anders te gaan benaderen of behandelen? De vraag is dan hoe je op basis van statistiek, data en kennis over de branche – en dus níet op je gevoel –de juiste karakteristieken selecteert die helpen om je doel te bereiken.
  2. Het vinden van verbanden in data geproduceerd door machines in een fabriekshal. Op basis van statistiek kun je proberen correlaties te vinden tussen allerlei parameters van het productieproces en de kwaliteit van dit proces. Op basis van deze verbanden kun je gericht zoeken naar de beste productie-parameters. Ook kun je zogenaamde effect groottes in kaart brengen: hoeveel invloed heeft een beetje meer van instelling x op uitkomst y?
  3. Hoe zit het met de doorlooptijd van een klantvraag binnen ons proces? Waar zit de wachttijd tussen alle stappen, is die voor iedere klant hetzelfde of zitten hier grote verschillen tussen? En; zijn er specifieke eigenschappen van sommige klanten waarom het bij hen altijd extra lang duurt? Dit kun je te weten komen door het proces te modelleren en met de computer op een dusdanige manier te simuleren dat dit overeenkomt met de data over het proces. 

Naast de data science kant van descriptive analytics kunnen Business Intelligence dashboards ook als onderdeel van descriptive analytics gezien worden.

Diagnostic analytics
Waar descriptive analytics gaat over het “wat”, gaat diagnostic analytics over het “waarom”. Je gebruikt statistiek om uit te zoeken waarom iets gebeurd is. Deze vorm van analytics wordt ook wel eens achterwege gelaten in overzichten omdat deze veel overeenkomsten heeft met descriptive analytics: je zoekt een statistisch patroon in je data, nu alleen met als doel een diagnose te stellen. Toch zijn er wel subtiele verschillen. 

Het fabriekshal-voorbeeld bij descriptive analytics (voorbeeld 2) zou in een diagnostic analytics setting al snel worden: kan ik verklaren waarom er een op bepaald moment meer foutieve producten geproduceerd zijn ten opzichte van de rest van de week? En het doorlooptijd voorbeeld (voorbeeld 3) zou al snel geformuleerd worden als: waarom duurt een bepaald complex business proces voor juist voor deze type klant zo lang? Deze aangepaste vraagstellingen gebruiken vaak soortgelijke statistische technieken, maar vergt wel een net iets andere werkwijze.

Predictive analytics
Bij predictive analytics gebruik je statistiek om op basis van data iets in de toekomst te voorspellen. Dat en meer, want als je op basis van data een bepaald label ergens op moet duwen (bijvoorbeeld een goed product of een productiefout), het zogenaamde classificeren, dan valt dit ook onder predictive analytics. Je voorspelt dan niet de toekomst, maar een onbekend label. Wiskundig komt dit vaak op bijna hetzelfde neer. 

Concrete voorbeelden van predictive analytics zijn:

  1. Het voorspellen van verkoopcijfers. Bijvoorbeeld met correcties voor de verschillende verkooppunten, correcties voor het effect van promoties en correcties voor seizoensinvloeden. En dit alles op basis van statistiek, zodat je naast een voorspelling vaak ook een zekere foutmarge krijgt waarbinnen de daadwerkelijke verkoopcijfers waarschijnlijk zullen komen te liggen.
  2. Als je allerlei metingen aan geproduceerde producten aan het eind van een productielijn afneemt in verband met kwaliteitscontrole, dan is de vraag: welke zijn goed en welke niet? Voorspelmodellen kunnen hier heel goed de risicovolle producten uit filteren, bijvoorbeeld om deze handmatige te testen. Als je handmatig maar een kleine fractie van de producten hoeft te testen, maar wel vrijwel alle foutieve exemplaren in deze kleine fractie hebt zitten, scheelt dit veel werk.
  3. Een derde voorbeeld is ons ‘most likely to convert’ product. Stel je krijgt online aanvragen binnen voor een financieel product. Het kost tijd en moeite om deze aanvragen volledig door te lichten en te besluiten om ze goed te keuren of af te keuren. Dan kun je op basis van data die je over de indiener hebt wellicht een voorselectie maken en voorspellen welke de meest kansrijke is. Dit geeft je de mogelijkheid eerst contact op te nemen met deze mensen, nog voordat je de ingewikkeldere casussen gaat bekijken (meer weten over dit product? Lees hier de case van FREO).

Prescriptive analytics
Ten slotte de laatste categorie: prescriptive analytics. In deze laatste categorie gebruiken we algoritmen om de beste beslissingen te vinden uit alle mogelijke opties die er zijn. “Beste” kan hier goedkoopste, minst risicovolle, of kwalitatief beste zijn, dat maakt niet uit. Als alle informatie op tafel ligt (of voorspeld is met behulp van predictive analytics), dan zijn er vaak één of meerdere beslissingen duidelijk beter dan anderen. Prescriptive analytics gaat over het geautomatiseerd vinden van deze beste oplossing, optie of keuze. 

Beslissingen nemen is mensen werk. Daarom werken de beste prescriptive analytics oplossingen ook als beslissingsondersteunend systeem (decision support): het systeem genereert voorstellen, de mens past deze nog net iets aan om ook met zaken rekening te houden die niet in het algoritme opgenomen zijn. Echter zijn er toepassingen, bijvoorbeeld in de robotisering, waar beslissingen ook volledig automatisch genomen worden: dan spreekt men over decision automation.

Enkele concrete voorbeelden van toepassingen van presciptive analytics zijn:

  1. Het optimaliseren van logistieke planningen. Bijvoorbeeld voor een pakketdienst: welke pakketjes moet ik waar bezorgen en ophalen en hoe doe ik dit in zo min mogelijk tijd en kilometers? En dat natuurlijk rekening houdende met spitsdrukte op de weg, maximale capaciteit van een busje en de werkuren en regels voor mijn werknemers.
  2. Het optimalseren van productieplanningen of -beslissingen: wanneer produceer ik wat? En dan rekening houdende met machine-omsteltijden, (voorspellingen van) voorraden die niet op mogen raken, eventueel fluctuerende prijzen, de verschillende kostenaspecten, wet- en regelgeving, enzovoort.
  3. Het aansturen van robotarmen of voertuigen, zodat zo min mogelijk onnodige bewegingen gemaakt worden, vooral precies daar waar de bottleneck van het systeem zit. 
  4. Over prescriptive analytics wil ik graag opmerken dat in moderne data science opleidingen hier bijna geen aandacht meer voor is. De nadruk ligt steeds meer op statistiek en voorspellen, terwijl juist in de prescriptive analytics veel interessante toepassingen in de praktijk te vinden zijn, die erg veel geld kunnen besparen. Deze nadruk van Data Science op de eerdere drie analytics categorieën vind ik erg jammer. Prescripive analytics ligt namelijk erg dicht bij mijn originele achtergrond als algoritmicus, voordat ik me ging toeleggen op de bredere Data Science.

Data science
Data science toepassingen passen vrijwel altijd in één van de vier analytics categorieën. De hierboven genoemde voorbeelden zijn klassieke voorbeelden gebaseerd op soms wel tientallen jaren oude methodieken. Maar ook voor data science toepassingen die juist wel modernere technieken gebruiken, bijvoorbeeld als er grote hoeveelheden data of plaatjes, tekst of geluid gebruikt worden, is het denken in bovenstaande vier categorieën nuttig. En ook als je moderne kunstmatige intelligentie of machine learning toepast, los je vrijwel altijd een ‘descriptive’, ‘diagnostic’, ‘predictive’ of ‘prescriptive’ vraagstuk op. Bovenstaand overzicht geeft dus een mooi framework om vanuit te denken voor het inventariseren van kansen voor Data Science. 

Wat moderne Data Science toevoegt aan bovenstaand verhaal en wat de termen big data, machine learning en kunstmatige intelligentie hierin betekenen, dat lees je in het tweede deel van dit blog. 

Heb je een concreet vraagstuk en een vermoeden dat Data Science een oplossing kan bieden? Ga eens na in welke analytics-categorie dit valt, misschien helpt het je. Of laat het me weten in de comments, ik denk graag mee!

Een blog van Johan van Rooij, Senior Data Scientist bij Valid.

Bron: Valid | Foto: Valid