Door: Redactie - 25 maart 2026 |
TNO ontwikkelde een computer vision-methode die gebouwkenmerken zoals dakkapellen en schoorstenen automatisch herkent in straatbeelden. Met slechts twintig voorbeeldfoto’s bereikt het systeem een nauwkeurigheid van ruim 95 procent. Voor de verduurzaming van miljoenen Nederlandse woningen kan deze beeldherkenning een flinke versnelling opleveren, al blijft de vraag hoe breed de technologie zich in de praktijk bewijst.
Nederland staat voor de opgave om miljoenen woningen voor 2050 te verduurzamen. Om per adres te bepalen welke renovatie werkt, combineert TNO data uit het Kadaster en het CBS. Bouwjaar, oppervlakte, woningtype en energielabel: het zit allemaal in de database. Maar voor een nauwkeurige inschatting van renovatiemogelijkheden schiet die informatie regelmatig tekort. Raphaël Gueulet, machine learning engineer bij TNO, legt uit waarom. Of een dak geïsoleerd kan worden, hangt af van dakkapellen, dakramen en ventilatieschachten. Die details registreert niemand in een database, maar ze zijn wel zichtbaar op straatfoto’s. Precies daar komt computer vision om de hoek kijken.
Traditionele beeldherkenningstechnologie vereist enorme hoeveelheden gelabelde data. Voor elk gebouwelement moet iemand handmatig in duizenden foto’s aangeven waar dat element zit. Bij tien duizend benodigde afbeeldingen en twee minuten per stuk, betekent dat meer dan driehonderd uur werk per element. TNO-onderzoeker Tom Slik zocht daarom een andere route. Hij zette een zogeheten Vision Transformer in: een AI-model dat al miljoenen afbeeldingen heeft geanalyseerd zonder menselijke labels. Daardoor beschikt het over een interne representatie van visuele concepten.
Het systeem verdeelt elke afbeelding in kleine blokjes van 14 bij 14 pixels. Elk blokje krijgt een wiskundige beschrijving, een vector. Blokjes die bij elkaar horen, bijvoorbeeld allemaal deel van een dakkapel, krijgen vergelijkbare vectoren. Een apart, lichtgewicht classificatiemodel leert vervolgens welke vectoren bij welk element horen. Doordat één afbeelding uit honderden blokjes bestaat, leveren twintig voorbeelden al genoeg trainingsdata op.
Het resultaat mag er wezen. De computer vision-methode herkent inmiddels zeven gebouwelementen uit Google Street View-beelden: zonnepanelen, dakkapellen, dakopbouwen, schoorstenen, dakramen, dakventilatie, borstweringen en balkons. De gemiddelde nauwkeurigheid ligt op 95,6 procent. De precisie, oftwel de mate waarin een positieve detectie daadwerkelijk klopt, komt uit op 98,2 procent. Wanneer het model zegt dat er een dakkapel op een dak zit, is dat bijna altijd correct. Tom Slik heeft een heldere vuistregel: kan een mens het zien op de afbeelding, dan haalt het model het er ook uit. De voorspellingen voor mogelijke renovaties in de contingentenaanpak worden hiermee tot elf procent nauwkeuriger, afhankelijk van het type ingreep. Voor dakisolatie maakt het veel uit of er een schoorsteen of dakkapel aanwezig is. Voor vloerisolatie speelt dat geen rol.
De contingentenaanpak was de eerste toepassing, maar de mogelijkheden reiken veel verder. TNO onderzoekt bijvoorbeeld of de onderhoudsstaat van kozijnen uit beelden af te leiden valt voor woningcorporaties. Voor infrastructuurbeheerders kijkt het team naar bruggen: bevat een brug een voetpad of fietspad? Dat soort informatie helpt bij beheer en onderhoud. Een gemeente werkt al met TNO samen om specifieke grindsoorten op onverharde wegen te detecteren met behulp van beeldanalyse. Een jaar geleden waren zulke toepassingen nog ondenkbaar vanwege de benodigde data en tijd. In recent TNO-onderzoek naar de combinatie van isolatie en warmtepompen blijkt dat nauwkeurige gebouwdata de verduurzaming van corporatiewoningen flink kan versnellen. Juist de combinatie van digitale beeldherkenning en renovatiestrategieen maakt schaalbare verduurzaming realistischer.
Hoe indrukwekkend de resultaten ook zijn, een kritische noot past hier wel. De nauwkeurigheid van 95 procent klinkt hoog, maar bij miljoenen woningen levert ook een foutmarge van vijf procent tienduizenden incorrecte inschattingen op. Bovendien is de methode afhankelijk van de kwaliteit en actualiteit van straatbeelden. Verouderde foto’s kunnen leiden tot verkeerde conclusies, bijvoorbeeld als een huiseigenaar recent zonnepanelen heeft laten plaatsen. Desondanks biedt de computer vision-aanpak van TNO een enorme tijdwinst ten opzichte van handmatige inventarisatie. Het verschil tussen driehonderd uur en minder dan een uur per element is simpelweg te groot om te negeren. De methode is nu operationeel en klaar voor nieuwe toepassingen. Partijen die data willen verzamelen over de gebouwde omgeving, van verduurzaming tot planologie, kunnen met TNO verkennen wat de mogelijkheden zijn.