Data Tools
Datablog: POMS
De NPO heeft een API voor het systeem POMS (Publieke Omroep Media Service) gemaakt. Deze API maakt het metadata systeem voor televisie toegankelijk, op een manier die vergelijkbaar is met de Radiobox. Hier kan je dus zeer veel informatie vinden over de programma’s die op TV geweest zijn.
Uit de documentatie van de API blijkt dat de API gebouwd is met behulp van CouchDB. We raden aan om daarom een CouchDB client library voor je favoriete programming language te gebruiken, ook al zou je het prima zonder kunnen. Denk er wel aan dat het een read-only API is.
Om de API te testen hebben we in Python een crawler geschreven die de data naar binnen trok (met behulp van de couchdb library voor python). Dit ging erg soepel en leverde uiteindelijk zo’n 260K items op. De belangrijkste catch die ik tegenkwam was bij het opvragen van een view — het design document dat je moet gebruiken heet ‘media’. Voor de rest zijn de query opties bij het opvragen van een view ook belangrijk.
Gezien de omvang van de database is het een goed idee om de views goed te gebruiken, zodat je alleen opvraagt wat je ook echt nodig hebt. Mocht je toch alles nodig hebben, dan kan je ook de dump downloaden die wij gisteren gemaakt hebben.
Laatste berichten van Breyten Ernsting (toon alles)
- NPO Backstage Datablog #3: Met je hoofd op tv! - 31 augustus 2015
- Bouw je eigen Cultuurscraper - 21 mei 2014
- Diplotwoops: Wat verwijderde tweets van diplomaten zeggen over Oekraïne - 21 februari 2014