Datablog: KRO ondertiteling T888

Data

Datablog: KRO ondertiteling T888

Gepubliceerd op 4 november 2013 door Lex Slaghuis

De leukste data komt altijd pas als laatste vrij. Met de KRO ondertitelingsdata heb je van ongeveer 1500 programma’s van 2012 en 2013 inzicht in wat er zoal besproken wordt. Ondertitels worden tevens vergezeld met basale programma informatie. Maak gebruik van textmining technieken om hier soep van te maken.

Prid
De programma ID prid data spreekt redelijk voor zichzelf, het is JSON. Er is enige metadata als programma omschrijving en uitzendtijden aanwezig. Als het goed is, komen de de integrale programmagidsen ook nog beschikbaar, dus dan is die data niet gelimiteerd tot KRO programma’s, en zou deze verder gaan dan de periode 2013-2012. Let op: PRID’s kunnen verwijzen naar meerdere files, zoals vroeger bij superlange speelfilms zoals ‘Dances with Wolves’ met Kevin Costner. Ongetwijfeld is daar ook een Nederlandse versie van gemaakt.

Subs

De subs zijn text files (zip) die beginnen met een marker WEBVTT. Het handigst is om een parser hiervoor te schrijven die hetgeheel omzet naar een hash. Zie hiervoor een provisorische hack die dit doet, en het in Elasticsearch importeert (Gist).

Full textdatabases en textmining

Handig is bijvoorbeeld Elastic Search, als je nog niet precies weet wat je wilt. Installatie gaat eenvoudig op Ubuntu met:

sudo apt-get install openjdk-7-jre-headless -y

wget https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-0.90.5.deb

sudo dpkg -i elasticsearch-0.90.5.deb

sudo service elasticsearch start

Met Elastic Search kan je een search doen (doh!) met het volgende commando:

curl -s -XGET ‘localhost:9200/kro/subs/_search?pretty&q=hilversum’

het resultaat bevat document-id’s

Een document ophalen gaat met:

curl -s -XGET ‘localhost:9200/kro/subs/KRO_12345’

Spannend(er) wordt het als je over alle documenten analyses gaat maken:

curl -s -XGET ‘localhost:9200/kro/subs/_search’ -d ‘{
“size”: 0,”query” : { “match_all” : { } },
“facets” : {
“text” : {
“terms” : {
“field” : “text”,
“size” : 10
} }}}’

Geeft terug de meest voorkomende woorden:

{“term”:”888″,”count”:1461},{“term”:”welkom”,”count”:5},{“term”:”vanuit”,”count”:3},{“term”:”live”,”count”:3},{“term”:”hotel”,”count”:3},{“term”:”arena”,”count”:3},{“term”:”amsterdam”,”count”:3},{“term”:”met”,”count”:2},{“term”:”ikea”,”count”:2},{“term”:”goeiemorgen”,”count”:2}

Met elastic search mappings kan je documenten (zoals de programmagids) linken aan subs, en zo gecombineerde analyses maken.

Succes!

Biografie
Laatste Berichten

Lex Slaghuis

Lex Slaghuis is een van de oprichters van Hack de Overheid en was CTO bij Open State. Hij houdt zich bezig data, API's, community en Apps. Speciale aandacht gaat uit naar Open Cultuur Data, Open Spending en politieke transparantie.

2 comments on “Datablog: KRO ondertiteling T888”

MrKoek op 5 november 2013 om 15:38 zei:

“Als het goed is, komende de integrale programmagidsen ook nog beschikbaar, dus dan is die data niet gelimiteerd tot KRO programma’s, en zou deze verder gaan dan de periode 2013-2012.”

Gaat het hier om alle 888 ondertitels van de Publieke omroep, over de jaren 2012 en 2013 (+ eventueel eerder)? En wanneer is deze data beschikbaar? Ik zou graag alle 888 data van een heel kalenderjaar hebben.

Beantwoorden
Lex Slaghuis op 5 november 2013 om 15:44 zei:

Hallo MrKoek,

Van de T888 worden enkel de ondertitels van de KRO beschikbaar gesteld. De ondertitels zijn onderdeel van ‘het programmapakket’ , en dat is iets waar afspraken door omroepen, programmamakers en NPO over gemaakt zijn.

Voor de Hackathon hebben wij de KRO bereidt gevonden om toestemming te geven voor het delen van deze informatie. De NPO heeft hier ook akkoord voor gegeven. Om t888 integraal vrij te geven, zal er op hoog niveau gekeken dienen worden naar nieuwe afspraken.

Beantwoorden

Geef een reactie Reactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Miljoenenjacht aan de vooravond van Prinsjesdag

9 juni hacking for sustainability

App-competitie TCampEU

Climate Hackathon 8 & 9 april

meetup 18 februari

Hack de Overheid community op Slack

21 oktober deadline Hacking for Sustainability 2!

Miljoenenjacht aan de vooravond van Prinsjesdag

Data