AI
Project

AI bij videoherkenning: Laat een machine learning algoritme uw videobeelden beoordelen

  • 27 juni 2018
  • 5 minuten

Er zijn veel bedrijven die videobeelden maken, bijvoorbeeld voor inspectie, kwaliteitscontrole, bewaking of procesbegeleiding. Een kenmerk van alle situaties waarin videomonitoring wordt toegepast is dat het veel mankracht kost om de beelden te beoordelen. Hier kan artificial intelligence (AI) uitkomst bieden.

We kunnen haast niet meer om AI heen en de toepassingsmogelijkheden zijn divers: van zelfrijdende auto’s en apps die kunnen beoordelen of een moedervlek mogelijk huidkanker is tot het automatisch herkennen van tochtige koeien aan de hand van camerabeelden die gemaakt zijn met een drone. Dit wordt allemaal mogelijk gemaakt door kunstmatige intelligentie, met name door machine learning en deep learning. In deze whitepaper schetsen we de toepassingsmogelijkheden van machine learning voor het automatisch herkennen en classificeren van videobeelden. In welke specifieke beeldherkenningssituaties kan AI worden ingezet? Op welke terreinen liggen de voordelen? En hoe ziet de businesscase eruit?

Diverse toepassingen van beeldherkenning

In het kader van Beleef de Lente worden ook dit jaar weer diverse vogelnesten uitgerust met camera’s. Een groot deel van de dag is daar weinig bijzonders op te zien. Hoe handig is het als een algoritme automatisch detecteert dat er iets bijzonders gebeurt en aan het eind van de dag zelfstandig die beelden selecteert voor een samenvatting? Eenzelfde type AI-toepassing kan worden ingezet voor het beoordelen beelden van bewakingscamera’s. Beveiligingsmedewerkers hoeven dan niet meer alle beelden van alle camera’s in de gaten te houden, maar krijgen realtime alleen die beelden voorgeschoteld waarop iets gebeurt. De beoordeling van de situatie wordt nog altijd door mensen worden gedaan, maar zij hoeven niet naar beelden te laten kijken waarop niets te zien is. Een andere categorie AI is het automatisch herkennen en inventariseren van objecten, bijvoorbeeld op een verpakkingslijn. In de meeste vleesfabrieken worden verschillende vleessoorten na elkaar verpakt omdat de verpakkingslijn zelf niet kan herkennen om welk type vlees het gaat. De uitbener selecteert het vlees in kratten, waardoor het vlees onnodig lang ligt te wachten en sappen verliest. Hoe handig zou het zijn als een camera het onderscheid kan maken tussen een kogelbiefstuk of een riblapje en het proces dat hierna volgt automatisch kan aansturen? Dan kan seriële productie worden omgezet in een parallelproces.

Andere voorbeelden van beeldherkenning voor de inventarisatie van objecten zijn het tellen van het aantal containers op een overslagterrein, het monitoren van de groei van landbouwgewassen of het onderscheiden van gewas en onkruid. Een laatste categorie beeldherkenningstoepassingen is inspectie. Nu lopen inspecteurs van het waterschap nog zelf over de dijken om te beoordelen of die stevig genoeg zijn. Als het hoog water is, maken zij plotseling overuren om alle kritieke dijken te inspecteren. Hoezeer zou het onze veiligheid vergroten als een drone van dichtbij beeldopnames van de dijk maakt en een getraind algoritme aan de dijkinspecteurs aangeeft welke plekken verdacht zijn?

“Zoals eerder aangegeven leert een algoritme vele malen sneller als het meteen begrijpt wat het op een foto of video moet herkennen.”

Hoe werkt AI voor beeldherkenning precies?

Met getrainde AI-modellen is het mogelijk om beelden automatisch te classificeren. Dat gebeurt met een model dat is getraind om beelden te herkennen. Een voorwaarde om het model goed te trainen is dat er voldoende beelddata voorhanden is die ook een duidelijke relatie hebben tot het doel waarvoor AI wordt ingezet. Als een bewakingscamera inbrekers moet onderscheiden van medewerkers en passanten, zijn voldoende beelden nodig van alle drie de situaties. In de praktijk zal het aantal beelden van inbrekers laag zijn, waardoor het vaak onmogelijk is om onderscheid te maken tussen een medewerker of een inbreker. Het is echter wel mogelijk om beelden waarop mensen het terrein op lopen te onderscheiden van beelden van mensen die er langslopen.

Naast voldoende data met een duidelijke relatie tot het doel is het ook belangrijk om het leerproces te monitoren. Een kenmerk van AI is dat het model zelf leert van alle nieuwe input. Dat lukt alleen als de nieuwe data ook die duidelijke relatie heeft tot het doel, zodat het algoritme ook snapt wat het moet leren. Als de bewakingscamera’s op het terrein kleine dieren waarnemen die het terrein op lopen, zoals katten of konijnen, dan kan het daarop worden getraind. Dit leerproces moet wel worden gemonitord, zodat het algoritme een man die onder het prikkeldraad door kruipt niet aanziet voor een hond.

Dit is zo belangrijk omdat AI tekort schiet in die dingen waar wij als mensen juist zo goed in zijn: het herkennen van de context en daarop inspelen. AI herkent alleen die dingen waarin het specifiek is getraind en niet de dingen waarin het niet is getraind. Neem AI voor het herkennen van borstkanker op een mammografie: deze algoritmen kunnen beter en sneller dan een radioloog beginnende kanker diagnosticeren, maar ze kunnen andere aandoeningen niet herkennen. Voor borstkankerscreening zijn ze daarom prima toepasbaar, maar bij vrouwen die met klachten naar de poli komen moet met een bredere blik naar de beelden worden gekeken.

Case weginspecties

We verduidelijken deze randvoorwaarden en de achterliggende businesscase aan de hand van een praktijkcase: de asfaltinspectie door BAM. Die inspectie gebeurt aan de hand van camerabeelden die een opnameauto maakt. Experts bekijken al die beelden. Zodra ze een schade zien dan tekenen ze een kader rondom de schade en annoteren die. Samen met ICT Automatisering heeft BAM bekeken of de herkenning van schadegevallen ook kan worden gedaan door een zelflerend algoritme. Daarvoor is een model gebruikt dat goed is in het herkennen van beelden. Het model is getraind met een set van 2500 beelden van acht verschillende typen schades. Op die manier leert het model schade te herkennen en de verschillende schadetypen te onderscheiden.

Gedurende het inleren ontdekte het team dat sommige schades te ruim waren afgekaderd, wat het voor het algoritme moeilijker maakte om te leren. Het algoritme herkende bijvoorbeeld dierlijke resten op het asfalt niet goed omdat er grote vlakken schoon wegdek waren meegenomen in de annotatie. Het annotatiekader wordt nu aangescherpt zodat het algoritme minder ruis te verwerken heeft, wat leidt tot een meer nauwkeurige voorspelling. Ook schade die door mensen moeilijk te herkennen is, zoals rafeling, vindt het algoritme in eerste instantie nog lastig te herkennen. Dit is heel verklaarbaar, want er zitten ook beelden van rafeling in de trainingsset die niet als zodanig zijn geannoteerd. Soms betreft het subtiele verschillen ten opzichte van een gezond wegdek. Ook van dit soort schades krijgt het algoritme een nog grotere trainingsset aangereikt. Het uiteindelijke doel is om classificering door de expert te vervangen voor kwalificering van de gedetecteerde schades.

Het model is zo opgezet dat er geen false negatives voorkomen, dat wil zeggen dat er geen beelden met schade over het hoofd worden gezien. De eerste versie bevat daardoor relatief veel false positives: beelden waaraan het algoritme twijfelt en die bij nadere inspectie door een expert geen schade lijken te bevatten. Met deze input wordt het model verder getraind zodat het steeds nauwkeuriger kan gaan voorspellen of er al dan niet asfaltschade te zien is op een beeld. Bij BAM kon het eerste algoritme bij 80 procent van de beelden met zekerheid aangeven dat er geen schade op voorkwam. De inspecteurs hoeven daarom nog slechts 20 procent van de beelden te bekijken. De tijd die zij daarmee winnen wordt gebruikt om het algoritme verder te trainen en het leerproces te monitoren. Op termijn zal deze verhouding steeds verder toegroeien naar 99 procent automatische detectie en 1 procent menselijke interventie. De menselijke interventie zal nog heel lang nodig blijven omdat er altijd gekke dingen op een beeld kunnen staan die het algoritme nog niet eerder is tegengekomen en dat het niet kan verklaren. Omdat dit soort uitzonderingssituaties zich maar heel zelden voordoet, zal het algoritme per definitie over te weinig trainingsdata beschikken om deze situaties in de toekomst volledig zelfstandig te herkennen. De inzet van AI blijft daarom vooralsnog een combinatie van mens en machine.

Eén dataset, meerdere trainingsdoelen

In sommige gevallen kan een bepaalde dataset voor meerdere doeleinden worden gebruikt. In het geval van de BAM-case zijn de beelden van het asfalt een bewerking van beelden die gemaakt zijn met een Horus autocamera, een soortgelijk apparaat als waarmee Google Streetview werkt. Dat wil zeggen dat de oorspronkelijke beelden veel meer informatie bevatten dan alleen asfaltschade. Ze laten bijvoorbeeld ook zien waar welke verkeersborden staan en wat de staat van die borden is. Op basis daarvan kan een onderhoudsplanning van de borden worden gemaakt. Het is ook mogelijk om de overzichtelijkheid van verkeerssituaties te beoordelen: staan de borden op een goed zichtbare en logische plek? Staan er niet teveel borden waardoor chauffeurs door de bomen het bos niet meer zien? Zeker met de komst van zelfrijdende voertuigen is het belangrijk dat verkeerssituaties overzichtelijk zijn. Dit kan met de inzet van AI veel sneller worden beoordeeld.

Dit voorbeeld van verkeersborden laat ook zien dat de benodigde trainingsset verschilt per toepassing. Ieder land kent maar een beperkt aantal verkeersborden. Die hoeft een algoritme slechts eenmalig te leren en vervolgens zal het in staat zijn om alle verkeersborden te herkennen. Het algoritme is dan nog niet in staat om te zien dat een passant een t-shirt draagt met een verkeersbord erop, dus er zal altijd menselijke interventie nodig zijn om een situatie goed te beoordelen. Maar de trainingsset hoeft aanzienlijk minder groot te zijn dan voor een toepassing waarbij een algoritme verschillende typen asfaltschade moet herkennen.

Voordelen inzet AI

De voordelen van de inzet van AI zijn divers:

  1. Hogere efficiency: mensen hoeven niet langer alle camerabeelden te bekijken, maar alleen die beelden waarop waarschijnlijk afwijkingen te zien zijn. Ze kunnen daardoor meer werk verrichten in minder tijd;
  2. Interessanter werk: het werk wordt een stuk interessanter voor de experts die de beelden moeten bekijken. Ze hoeven alleen nog een oordeel te vellen over de meer complexe casussen;
  3. Hogere kwaliteit: anders dan een mens wordt een algoritme niet moe en verliest het niet zijn concentratie. Een AI-model levert altijd een voorspelbare output. Hoe hoog de kwaliteit van die output is, hangt af van hoe goed het model is getraind. In het begin zal een algoritme verre van optimaal presteren. De uitdaging is om het model zo te trainen dat het aantal false negatives wordt gereduceerd naar 0.
  4. Snellere beslissingen: doordat mensen meer werk kunnen verrichten in minder tijd, kunnen ze sneller een beslissing nemen over de camerabeelden de om een interventie vragen. Zeker in spoedsituaties is dit een groot voordeel;
  5. Continuïteit: een AI-model wordt niet ziek, gaat niet op vakantie en kan 24×7 doorwerken;
  6. Schaalbaar: een AI-model kan eenvoudig worden gedupliceerd op andere virtuele machines, zodat nog meer snelheid wordt behaald. Hierdoor kan een enorme hoeveelheid beeldmateriaal parallel worden verwerkt;
  7. Lagere kosten: de hierboven genoemde voordelen – en met name het efficiencyvoordeel – leiden tot aanzienlijk lagere kosten;
  8. Nieuwe businessmodellen: door de lagere kosten en hogere kwaliteit ontstaan mogelijkheden voor nieuwe businessmodellen. Inspectierondes kunnen bijvoorbeeld vaker plaatsvinden waardoor eerder kan worden ingegrepen. Ook wordt het mogelijk om schades in een nog vroeger stadium te detecteren en het schadeverloop nauwgezet te monitoren, waardoor wellicht een ander onderhoudsschema kan worden gemaakt.
  9. Menselijke capaciteit is niet langer een beperkende factor.

Businesscase vaak dichtbij

Het aantal mogelijke toepassingen van AI bij beeldherkenning is groot. Toch wordt het in de praktijk nog weinig toegepast. Dat komt door het vooroordeel dat de techniek nog in de kinderschoenen staat. Niets is minder waar. Neurale netwerken werden al ingezet in de jaren ’80. De eerste beeldherkenningstoepassingen ontstonden al in de jaren ’90. Vanaf dit millennium wordt beeldherkenning al grootschalig ingezet door de politie bij opsporing, denk aan het herkennen van nummerborden en automatische gezichtsherkenning. Ook in de medische wereld wordt AI al breed ingezet, bijvoorbeeld voor het opsporen van kankercellen op een MRI. Kortom, de techniek is volwassen en de kosten van de aankoop van zelflerende modellen daardoor laag.  De échte kosten worden bepaald door de kwaliteit van de trainingsdata. Hoe groter de dataset en hoe nauwkeuriger de annotaties, hoe sneller het algoritme kan worden getraind. Als de trainingsdata echter slecht gelabeld is, dan moet er eerst een kwaliteitsslag plaatsvinden.

Als u wilt weten hoe uw businesscase eruit ziet, ga dan vrijblijvend een gesprek met ons aan. Wij kunnen de kwaliteit van uw data beoordelen en een raming maken van de kosten die komen kijken bij de verbeterslag.

Meer informatie?

Neem contact op met Media Relations.

Stuur een mail Maak een connectie
ICT Group Kantoor