Aanvullen en corrigeren van ruwe data

De meeste monitoringsystemen leveren - bijna per definitie - data met ruis en fouten. Om toch met de gegevens te kunnen werken, is het belangrijk foutieve data zo snel mogelijk te herkennen en te vervangen door meer waarschijnlijke gegevens. Deze nieuwe gegevens kunnen rekenkundig uit andere meetgegevens worden afgeleid. Of de nieuwe gegevens kunnen worden berekend met een model dat (ook) gebruik maakt van andere metingen. Deze laatste optie heeft vaak de voorkeur, maar is moeilijk te implementeren. Het risico van rekenkundig bepaalde aanvullingen is dat ze de statistische eigenschappen van de dataset sterk beïnvloeden. Dit maakt dat ze voor offline beleidsanalyse niet altijd geschikt meer zijn.

Dit artikel is gebaseerd op materiaal uit de PAO-cursus Datafusie en toestand schatten, Bijlage B van Hans van Lint.

Inleiding[]

Vrijwel elk monitoringsysteem kampt met fouten in de meetgegevens die het systeen levert, wat de data tot op zekere hoogte onbetrouwbaar of incompleet maakt. Zo is gemiddeld vijftien procent van de inductielussen van het monitoringsysteem op de Nederlandse snelwegen (MONICA) buiten gebruik of levert onbetrouwbare resultaten. Dit wordt geïllustreerd met een klein experiment dat langs de A13-zuid tussen Den Haag en Rotterdam is gehouden. Om de detectiekwaliteit van de inductielissen te meten, zijn bij deze test over de periode van een uur intensiteiten per minuut vergeleken met videobeelden. In de figuur op deze pagina staat het histogram van de relatieve fouten die in deze periode zijn gemeten. Bij deze relatief kleine dataset van 65 metingen bedroeg het gemiddelde foutpercentage 5,9 procent, met een standaard deviatie van 10,4 procent. Grofweg betekent dit dat in 95 procent van de gevallen een uit twintig auto's wordt gemist of dubbel wordt geteld. Een vergelijkbare test bij een andere detector leidde tot dezelfde conclusie.

Veel monitoringsystemen - al dan niet gebaseerd op lussen - kunnen slecht omgaan met dit type fouten in de data. Over het algemeen geldt dat foute input leidt tot foute output. Het aanvullen en corrigeren van data voor meetsystemen leidt tot een robuuster systeem. Storingen leiden dan niet direct tot grote aftakeling van het hele systeem. In de methode van de rekenkundig bepaalde aanvullingen worden de volgende drie stappen onderscheiden:

Controle - voor dat problemen kunnen worden opgelost, moeten ze eerst gedetecteerd worden.
Aanvulling - gaten in de data worden opgevuld met redelijke vervanging.
Correctie - de volledige dataset wordt gecheckt op consistentie en validiteit. Waar nodig wordt data aangepast of vervangen.

In de meeste systemen/toepassingen worden foutieve en gemiste data gelijk behandeld. Dit wil zeggen dat data van onvoldoende kwaliteit wordt gekenmerkt als ontbrekend en anders wordt uitgerekend.

Controle[]

Om foutieve data te herkennen en aanwijzen, moet je weten wat de mogelijke oorzaken zijn. Deze oorzaken kunnen in drie categorieën worden opgedeeld (zie onderstaande figuur). Een belangrijke opmerking is dat de drie typen meetfouten tegelijk kunnen voorkomen.

(a) Incidental (random) failures - Dit type meetfout zijn willekeurig voorkomende fouten door tijdelijke uitval van stroom of communicatie in het monitoringsysteem.

(b) Structural failures - Dit type meetfout wordt veroorzaakt door fysieke schade of gebrekkig onderhoud aan de sensor of de communicatieapparatuur.

(c) Intrinsic failure - Dit type meetfout zijn fouten die eigen zijn aan het meetsysteem, oftewel ruis en afwijking van de te meten waarden.

Een voorbeeld van intrinsic failure zijn de inductielussystemen die het rekenkundig gemiddelde van de snelheid over de tijd berekenen. Ze zijn een structureel foute schatter van de gemiddelde snelheid over een afstand (zie gemiddelde snelheden). Andere bronnen van intrinsieke meetfouten zijn mistellingen of het dubbel tellen van voertuigen, kalibratiefouten in het meetinstrument, afrondingsfouten, enzovoort.

Controle op deze fouten kan op een aantal manieren worden uitgevoerd. Voor het hoofdwegennet in Nederland voert het systeem MoniCa controle uit op hiaten in de toelevering, uitzonderlijke meetwaarden en vergelijkbare eigenschappen van foutieve meetgegevens. Op basis hiervan wordt een kwaliteitsuitspraak over de data gedaan, die wordt meegenomen in volgende systeemstappen.

Naast deze controlemogelijkheid kan ook worden gedacht aan een continue controle van validiteit van data over tijd en plaats. Wanneer meetgegevens van het ene op het andere moment een totaal ander beeld geven, is dit verdacht. Hetzelfde geldt voor bij elkaar gelegen locaties, die op hetzelfde moment gegevens leveren die niet met elkaar matchen. Door dit type controles kan een betere inschatting van de kwaliteit van de data worden gegeven. Dit is een van de uitgangspunten van het da Vinci project.

Aanvulling en Vervanging[]

Aanvulling van ontbrekende data of vervanging van foutieve data, kan op twee manieren worden opgelost. Door simpele rekenkundige methodes of door vervangingsmethodieken die op verkeersmodellen zijn gebaseerd.

Vervangingstechnieken[]

In de praktijk is de meest voorkomende manier van data correctie, het vervangen van missende gegevens met logische ad-hoc geschatte data. Denk hierbij aan regressievoorspellingen, gemiddeldes of simpelweg de laatst gemeten waarde. Dit brengt wel het gevaar met zich mee dat de statistische eigenschappen van de dataset worden veranderd:

Door ontbrekende gegevens te vervangen met gemiddelde waarden, wordt de variantie van de dataset kleiner. Dit geeft de onterechte indruk dat de metingen zeer stabiel en betrouwbaar zijn.
Door ontbrekende gegevens te vervangen met regressievoorspellingen, wordt de correlatie in de dataset groter. Hiermee ontstaat de verkeerde indruk dat metingen voorspelbaarder zijn dan in werkelijkheid het geval is.

Deze algemene problemen doen zich zich bij allerlei vormen van monitoring voor. Om ze het hoofd te bieden zijn diverse mathematische algoritmes bedacht. Deze hebben echter weer hun eigen nadelen:

Ze zijn veel uitgebreider in implementatie en berekening dan simpeler methodes.
Verkeersgegevens hebben andere statistische eigenschappen dan bijvoorbeeld medische gegevens waar de algoritmes voor bedacht zijn. Dit komt omdat verkeersgegevens een sterke correlatie over de tijd hebben en missende data meestal niet willekeurig, maar structureel is.

Concluderend kan worden gesteld dat er degelijke methodieken zijn om ontbrekende data op te vullen, maar dat deze niet vanzelfsprekend van toepassing zijn op verkeersdata. Hiertegenover staan simpelere methodes die statistische eigenschappen van de dataset veranderen. In de praktijk hoeft dit echter geen probleem te zijn. En het is altijd beter dan wanneer er niets met de foutieve data wordt gedaan.

Vervangingstechnieken op basis van een verkeersmodel[]

Een betere methode om ontbrekende data op te vullen, is om gebruik te maken van een verkeersmodel. Een simpel verkeersmodel draait online mee met de metingen. Met behulp van een Kalman filter worden model en metingen gecombineerd. Hierdoor kunnen ontbrekende gegevens worden opgevuld door de voorspellingen van het model, terwijl het model continu wordt aangepast aan de metingen. Hierbij kunnen ook de meetwaardes van relatief onbetrouwbare metingen gebruikt worden, zie voor meer informatie de discussiepagina en het artikel over Datafusie.

Openstaande vragen[]

Er zijn op dit moment geen openstaande vragen

Bronnen[]

J.W.C. van Lint, Datafusie en toestand schatten, Bijlage B, PAO Delft, 2006