Data Tools
Datablog: Incontxt
Incontxt is een aparte portal voor het beter toegankelijk maken van journalistieke video producties. hieraan nemen meerdere omroepen deel, die voor deze programma’s op fragment niveau metadata toevoegen. We presenteren een volledige XML dump van de inhoud van deze database. Met deze data kan gedetailleerder zoeken in programma’s en hierdoor op een andere manier ontsluiten. Een waardevolle bron, want met de T888 kan je text analyse doen op fragment niveau.
We kregen van de KRO een volledige XML dump uit de Solr Fulltext database. Met SimpleXML waren er enkele problemen tijdens de import, dus hebben we php-tidy gebruikt om de XML op te schonen. Dit resulteerde in de Tidy incontext XML (gebruik deze dus!).
Helaas zijn IncontextID’s niet gekoppeld aan PRID’s. De KRO heeft hierop een lookup ingang beschikbaar gesteld waar je met je contextID terecht kan, en een PRID terug krijgt. Wij hebben een script geschreven die alle PRIDjes ophaald en in een JSON file opslaat. JSON IncontextID2PRID (gebruik deze dus!).
De broncode voor bovengenoemde operatie staat op Gist.
Conversie XML naar JSON Update
In de Gist is de code aangepast om meteen ook alle xml om te zetten naar JSON. Het JSON resultaat kan je hier downloaden.
Lex Slaghuis
Laatste berichten van Lex Slaghuis (toon alles)
- Atlas Natuurlijk Kapitaal - 17 september 2015
- Klik hier om de KvK te wijzigen - 20 april 2015
- Houd jouw sessie over Internet en wetgeving - 10 april 2015