Waar laat je de data?

Angelo Hulshout heeft een ambitieus plan om fabrieken efficiënter te maken met behulp van Smart Industry-technologieën als het internet of things, cloud en machine learning. In Mechatronica&Machinebouw rapporteert hij over de voortgang van zijn inspanningen.

Angelo Hulshout
28 april 2022

Voor machinebouwers, maar ook voor gebruikers van machines in een Smart Industry-omgeving, is het belangrijk om data te verzamelen. Die data is tenslotte de basis voor analyse en verbetering van het gedrag en gebruik van de systemen. Data verzamelen uit een machine of productielijn lijkt dus een goed idee, maar er zitten nogal wat haken en ogen aan.

Niet klakkeloos

Niet alles is bijvoorbeeld relevant voor wat we willen bereiken. De uitdaging zit erin te bepalen wat belangrijk is en wat niet, en alleen uit de machine te halen wat nodig is. Dat is niet triviaal; er zijn altijd correlaties tussen variabelen in een systeem, maar klakkeloos alles verzamelen is daarvoor niet de oplossing. Zeker niet als we voor de analyse machine learning-technieken gebruiken. Het is heel leuk om een model te maken met veel features, maar het doorrekenen daarvan kost tijd en computerkracht die we wellicht beter kunnen inzetten.

Foto: Imgix op Unsplash

Als we meenemen dat in fabrieken ook nog mensen rondlopen die een deel van het werk doen (niet elke machine kan immers alles zelf), is er nog een reden om niet klakkeloos alle data te verzamelen. Voor loggingdoeleinden kan het nodig zijn om te weten wie welke machine heeft bediend op welk moment, maar we kunnen niet zomaar data verzamelen waarmee we iemand in verband kunnen brengen met productiefouten of een te lage productiviteit. Daar zijn wettelijk maar ook ethisch grenzen aan te stellen – en er zijn andere manieren om deze dingen aan te kaarten.

Een belangrijke vraag is ook: van wie is de data? Van de eigenaar van een productielijn of van de machinebouwer? Het ligt voor de hand dat data die iets zegt over het dagelijks gebruik, de effectiviteit en het energieverbruik van de machine relevant zijn voor de eigenaar van de productielijn, en daarmee ook diens eigendom. Data die direct gerelateerd is aan de interne werking van een systeem is daarentegen wellicht eigendom van de machinebouwer, die deze wil verzamelen om op basis van verschillende gebruiksomgevingen zijn product te verbeteren – wellicht pas nadat de data is ontdaan van specifieke informatie over de productielijn en het bedrijf waar deze staat. Ook hier geldt dat we data over productiemedewerkers niet zonder meer mogen gebruiken. Eigendom van de data is in alle gevallen iets om goede afspraken over te maken.

Server of cloud?

Veel van de data zit in eerste instantie in de machines en it-systemen in een productieomgeving. Bijvoorbeeld in een erp- of mes-systeem, maar ook een plc slaat heel wat op. Op elk van die locaties kunnen we nuttige dingen doen met de data: plannen, de voortgang bijhouden en (hopelijk) incidenteel de details van een probleem onderzoeken. Om complexere analyses uit te kunnen voeren, over het hele productieproces heen, ontkomen we er echter niet aan om alles centraal te verzamelen en data van verschillende bronnen samen te voegen.

Dan is de vraag: waar laten we die gecombineerde data? Op een server in de fabriek, op een server bij de machinebouwer, in een ‘dedicated’ cloud van een gespecialiseerde aanbieder of wellicht in de cloud bij een grote aanbieder als Amazon of Microsoft? Elke optie heeft voor- en nadelen. Een lokale server moet worden beheerd. Een server bij een machinebouwer is meestal alleen toegankelijk voor diens eigen systemen en data. Aan cloudopslag bij een gespecialiseerde aanbieder hangt een prijskaartje dat niet altijd aansluit bij de beurs van degene die de data wil verzamelen.

Een rekenvoorbeeldje dat ik laatst heb gemaakt, kwam erop uit dat data verzamelen voor een specifiek type machine tussen de 60 en 600 euro per maand zou kosten aan opslag bij een grote cloudprovider. Vermenigvuldig dat met installatie bij tien klanten en we praten over 600 tot 6000 euro per maand. Waar ligt in dat geval het omslagpunt tussen de cloud en zelf opslaan? Wat kost het beheer van een eigen server? Wat betalen klanten voor de resultaten van de data-analyse? Of is de data alleen bedoeld voor eigen analyse en het startpunt voor de volgende generatie machines?

En waar wordt de data gehost? Veel servers staan in de Verenigde Staten of zijn van bedrijven die daar hun hoofdkantoor hebben. Dat heeft gevolgen voor wie vanuit bijvoorbeeld de Amerikaanse overheid toegang heeft of kan krijgen tot de data. Tegelijkertijd biedt bijvoorbeeld Amazon Web Services naast dataopslag ook het voordeel van een eenvoudige integratie met dashboards en machine learning-frameworks.

Puzzels

Data verzamelen in een Smart Industry-omgeving is belangrijk, maar er komen ook lastige afwegingen bij kijken. Dingen zoals het anonimiseren van de data helpen wel, maar opslag blijft duur en de juiste data kiezen vraagt op zich al om een goede analyse. Leuke puzzels, met steeds een andere uitkomst. Vragen of ideeën? Neem gerust contact met me op.

Met dank aan Jan Peter Meeuwse van Cordis, Max Roeters van Brush AI, Jorn Kessels van Ixon en Erik Smulders van Amabox voor de inspiratie.