Data
Datablog: Open Beelden API
Al sinds enige tijd is de Open Beelden API beschikbaar. Dit is een deel van het archief van Beeld en Geluid dat inmiddels rechtenvrij is (Public Domain Mark), danwel onder licenties vrij gegeven worden die hergebruik toelaten (Creative Commons varianten). De Open Beelden API is gebaseerd op Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). Deze Datablog legt uit hoe je ‘meta’-data ophaalt en vervolgens content kan ophalen.
Open Beelden
Op Open Beelden is een set van zo’n 2.200 video’s en bijbehorende metadata uit het archief van het Nederlands Instituut voor Beeld een Geluid beschikbaar. De video’s bevatten met name nieuwsitems uit het Polygoon bioscoopjournaal en enkele andere films over Nederland in de twintigste eeuw, welke onder een Creative Commons licentie zijn vrijgegeven. De beelden beslaan grofweg de periode 1920-1980 en geven een mooi beeld van Nederland in de twintigste eeuw. Daarbij komen niet alleen grote gebeurtenissen, maar ook het leven van alledag aan bod. Daarnaast zijn er ook andere aanbieders die van Open Beelden gebruik maken om hun content onder een Creative Commons licentie of met een Public Domain Mark verspreiden, zoals de VPRO, het EYE Filminstituut en de Universiteit van Amsterdam.
Onze voorbeeld film:
Downloaden, Parsen, Gebruiken
Op Gist is er een stukje demo code gezet wat we hier in enkele uren, zonder moeilijke kennis in elkaar geklust hebben (PHP). OAI-PMH is best een lastige standaard, en Namespaces maken het af en toe verwarrend waar je data nou is gebleven.
Eerst wordt er een deel van de collectie gedownload met file_get_contents. Deze wordt omgezet in XML met SimpleXML library. Vervolgens gaan we door de records heen. Hier worden de namespaces goed gezet (dit was het meeste werk om dit precies scherp te krijgen). Allerlei velden kunnen dan gedumped worden op het scherm (of dus in een database of iets dergelijks). Er wordt gefilterd op een filmpje van Jan Kees de Jager. Als we deze gevonden hebben, kijken we of er een PNG bestand beschikbaar is, en wordt deze gedownload en opgeslagen onder de bestandsnaam.
Als het goed is staat er nu een leuke foto van Jan Kees op je computer! Kortom, welkom in een nieuwe werkelijkheid. Wat mij opviel is dat er niet 1,2,3 er een zoekfunctie in de API te vinden is. Misschien heb ik het over het hoofd gezien, maar ik vermoed dat OAI-PMH met name ontworpen is om metadata en content te delen (red: bevestigt door Beeld en Geluid). Als je in de collectie wilt zoeken, dan zal je zelf een Search dienen aan te leggen.
Gebruiken 2.0
Wellicht is ook interessant om eens te knoeien met Nederlandse spraakherkenning zoals http://www.voxforge.org/nl , http://cmusphinx.sourceforge.net/ en http://julius.sourceforge.jp/en_index.php. Vragen? laat het even hier horen!
- PS. Het integraal bulk downloaden van alle metadata zoals gedocumenteerd op http://www.openbeelden.nl/api/ kan via http://www.openbeelden.nl/feeds/oai/?verb=ListRecords&metadataPrefix=oai_dc (300KB). Maar met &from= en &until heb je meteen een insteek om je database synchroon met die van openbeelden te laten lopen, want deze werkt op basis de modificatiedatum van de velden. Futureproof dus.
Hackathon
Op 9 november a.s. organiseren we Hackathon Publieke Omroep – mede mogelijk gemaakt door NPO en Beeld en Geluid. TV kijken en radio luisteren kan nòg leuker en de omroep is dan ook een beetje van ons. Informatie over inschrijvingen volgt.
Lex Slaghuis
Laatste berichten van Lex Slaghuis (toon alles)
- Atlas Natuurlijk Kapitaal - 17 september 2015
- Klik hier om de KvK te wijzigen - 20 april 2015
- Houd jouw sessie over Internet en wetgeving - 10 april 2015