Synthetische datarevolutie in artificial intelligence

Sinds 1 januari 2023 heeft Demcon zijn data-science- en ai-activiteiten ondergebracht in Demcon data driven solutions, als zelfstandige entiteit om de bestaande activiteiten op dit gebied versneld verder uit te bouwen. Het in eigen huis ontwikkelde product synthetische data is daarbij de kers op de taart.

Marnix Zoutenbier
Joost Könemann
18 oktober

Een cruciale voorwaarde voor succesvolle toepassingen van artificial intelligence (ai) in mechatronische systemen is kwalitatieve en representatieve trainingsdata voor je modellen. De ideale oplossing is om al deze data in het veld te verzamelen, maar vaak is dit praktisch niet mogelijk. Bijvoorbeeld omdat bepaalde defecten simpelweg niet voldoende voorkomen om een ai-model succesvol te trainen. Bij Demcon data driven solutions kunnen we nu ook goede ai-modellen trainen als er geen of beperkte data beschikbaar is. Met synthetische data genereren we die zelf.

Versnelde ontwikkeling

‘Het is uniek om niet alleen de modelleerexpertise te hebben, maar tevens die toe te kunnen passen in situaties waarin data beperkt verkrijgbaar is.’ Aldus Marnix Zoutenbier, cto bij Demcon data driven solutions. ‘We hebben bijvoorbeeld een robot getraind om in het waterleidingnetwerk autonoom de staat daarvan in kaart te brengen. Als zo’n robot eenmaal onder de grond zit, wil je hem niet kwijtraken. Met synthetische data konden we alle mogelijke omstandigheden die de robot tegen zou kunnen komen onderweg simuleren. Zo hebben we de robot boven de grond geleerd hoe te navigeren in het leidingennetwerk voordat we hem het netwerk in stuurden. Zonder synthetische data was dat onmogelijk geweest, er is nooit voldoende informatie, bijvoorbeeld in de vorm van foto’s, beschikbaar om de robot goed genoeg te trainen.

Fysica en Hollywood als basis

Synthetische data is een relatief nieuw en snel ontwikkelend veld. Demcon is hierbij één van de wereldwijde koplopers. Vanuit een samenwerking tussen de Demcon-competentiegroepen ai, robotica, computer-vision en 3D-animatie is in de afgelopen jaren een synthetische data-pijplijn ontwikkeld. Collega’s met een technische achtergrond én uitgebreide kennis en ervaring op het gebied van wetenschappelijke visualisatie en animatie hebben hiervoor veel eigen tooling ontwikkeld rondom software die in de filmindustrie in Hollywood wordt gebruikt voor VFX (visual effects).

Deze pijplijn maakt het mogelijk om efficiënt op een procedurele manier virtuele modellen van objecten en omgevingen te creëren. Met procedureel bedoelen we dat regels en algoritmes de geometrie en eigenschappen van de objecten bepalen. Door de parameters van de algoritmes aan te passen kunnen vele variaties van de objecten worden gegenereerd. Als laatste definiëren we virtuele camera’s en lichtbronnen, waarna met een lichtsimulatie een 2D-afbeelding van het object in de omgeving berekend wordt.

Aardbeien in alle denkbare vormen en maten

Neem bijvoorbeeld het genereren van afbeeldingen van aardbeien. Het procedurele model van een aardbei bevat als parameters alle relevante eigenschappen die bepalend zijn voor een aardbei zoals wij die kennen. Dit zijn bijvoorbeeld de vorm van de aardbei, het aantal zaadjes, de glans van de vrucht en de kleur van het kroontje. Door de parameters te variëren, kan een bijna oneindig aantal verschillende aardbeien worden gecreëerd. Meerdere aardbeien kunnen samen door middel van een fysische simulatie op een realistische wijze op een ondergrond worden neergelegd. Een virtuele camera en één of meerdere lichtbronnen maken de model-definitie compleet. Door middel van een op ray-tracing gebaseerde lichtsimulatie wordt vervolgens een afbeelding gemaakt van wat de virtuele camera ziet.

Visualisatie van aardbeien met verschillende annotaties.

Omdat iedere aardbei door een vastgestelde set regels en algoritmes wordt beschreven, is het genereren van de meest uiteenlopende annotaties mogelijk. Deze zogenaamde ground truth, de waarheid, is exact bekend. We hebben namelijk iedere pixel van het uiteindelijke plaatje zelf gemaakt. Voorbeelden van annotaties zijn segmentatie en diepte-afbeeldingen, bounding boxes, maar ook geometrische eigenschappen zoals de oppervlakte of het volume van objecten. Of in het geval van de aardbeien de leeftijd van de vrucht en de aanwezigheid van ziektes of imperfecties. In het procedurele model kunnen paramaters zelfs overeenkomen met kenmerken waarop getraind moet worden, denk hierbij aan specifieke kwaliteitseisen voor aardbeien. Annotaties kunnen worden gegenereerd in de vorm van afbeeldingen, maar ook als data in tabelvorm. In dit aardbeienvoorbeeld wil onze klant deze data gebruiken om een algoritme te trainen.

Het mooie van de geschetste aanpak is dat deze niet beperkt is tot camera’s die gevoelig zijn voor zichtbaar licht, zoals in het aardbeienvoorbeeld, maar ook andere sensormodaliteiten zijn mogelijk. Denk hierbij aan lidar, diepte camera’s, thermische camera’s en zelfs ultrasound of radar. Voor deze sensormodaliteiten blijft de gebruikte methode om de objecten te genereren hetzelfde, alleen zal het procedurele model moeten worden aangepast om de juiste eigenschappen van de specifieke sensor te beschrijven, zoals bijvoorbeeld de reflectie en doorlaatbaarheid van de objecten voor het betreffende sensorsignaal. De ‘zichtbaar-licht-simulatie’ wordt vervangen door een geschikt alternatief voor de gekozen sensormodaliteit.

Van aardbeien naar plastic afval sorteren

Een andere toepassing waar we recent aan gewerkt hebben, is het scheiden van plastic afvalstromen. Pmd-afvalstromen bevatten allerlei soorten kunststof, die op verschillende manieren gerecycled moeten worden. Het automatisch classificeren van verpakkingen om vervolgens deze te kunnen sorteren op kunststofsoort is erg waardevol in het recyclingproces. Om een model te trainen op het herkennen van de verschillende soorten verpakkingen zijn veel geannoteerde afbeeldingen van platgedrukte, beschadigde en vervuilde verpakkingen nodig. Verpakkingen dus waarvan je weet wat de werkelijke plasticsoort is.

Hiervoor hebben we een synthetisch datamodel ontwikkeld dat uitgaat van de CAD-geometrie van de verpakking. Door middel van simulatie zijn platgedrukte, vervormde en beschadigde varianten van de ‘perfecte’ geometrie gegenereerd. Na toevoeging van vervuiling op de verpakkingen berekenen we de camera-afbeelding. Het type verpakking, de mate van vervuiling en de aanwezigheid van de dop wordt als annotatie toegevoegd aan de dataset, klaar voor het trainen van een model dat het type verpakking moet voorspellen.

Gegenereerde varianten van platgedrukte, vervormde en beschadigde objecten.

De mogelijkheden zijn eindeloos

Synthetische data kan een oplossing zijn in iedere situatie waarin geannoteerde data schaars is of lastig verkrijgbaar.

Zo is het in de semicon-industrie belangrijk om geautomatiseerd defecten op chips te ontdekken en te categoriseren. Dan helpt het om met behulp van synthetische data allerlei varianten van defecten op chips te kunnen genereren en daarop algoritmiek te trainen voor het herkennen van defecten. Het is immers erg duur, en soms zelfs onmogelijk, om voldoende defecte chips met de goede annotatie te produceren.

Voorbeeld van een gegenereerde CT-scan van een long met een knobbeltje.

Ook medische toepassingen beginnen de eerste resultaten op te leveren. Algoritmiek kan bijvoorbeeld gebruikt worden om knobbeltjes in longen te classificeren als goed- of kwaadaardig. Met synthetische data kunnen we een CT-scan nabootsen op iedere variant van longen en knobbeltjes die denkbaar is. Je wilt immers zeker weten dat een dergelijk algoritme het altijd goed doet en het scheelt ook nog allerlei privacygerelateerde problemen.

Kortom, met synthetische data is het nu mogelijk om modellen te trainen voor een veelheid aan toepassingen, waarvoor dat eerder niet denkbaar was.

Dit artikel kwam tot stand in nauwe samenwerking met Demcon data driven solutions.

Over de schrijvers:

Marnix Zoutenbier is chief technology officer bij Demcon data driven solutions en heeft vijfentwintig jaar ervaring met het creëren van waarde met behulp van data, ook als er nog geen data is, in uiteenlopende toepassingsgebieden.

Joost Könemann is synthetic data engineer bij Demcon data driven solutions. Hij heeft tien jaar ervaring met fysische simulatietechnieken, met name de eindige- elementen-methode. Daarnaast heeft hij ook tien jaar ervaring met visualisatie en animatie. Op dit moment is hij verantwoordelijk voor de ontwikkeling van de procedurele modellen binnen de synthetische data-pijplijn.