Zoektip #12: Open Data

Longread door Alina Saenko en Bert Lemmens (meemoo)

De samenleving heeft er alle belang bij dat het web 'open' is. We leggen een complex thema simpel uit, met bruikbare tips en links voor wie meer wil weten.
Door Alina Saenko en Bert Lemmens
Medewerkers expertise bij meemoo, Vlaams instituut voor het archief 

Leestijd: 8 minuten | In de voorbije decennia heeft de zogenaamde ‘open’ beweging vleugels gekregen. Ze ontwikkelde zich parallel met de snelle digitalisering van de samenleving. De mogelijkheid om grote hoeveelheden data en kennis online te delen en zo nieuwe inzichten te verwerven, wekte de verwachting dat data als motor voor maatschappelijke ontwikkeling moeten functioneren. Om dit te verwezenlijken dient data zo toegankelijk mogelijk gemaakt en zo breed mogelijk gedeeld te worden, zodat iedereen er gebruik kan van maken.

Open

Het woord open kan breed ingevuld worden en dat zorgt voor verwarring. De term wordt gebruikt in de digitale wereld voor zowel: 
  • broncode van software (open source),
  • oorspronkelijk werk (open content),
  • wetenschappelijk onderzoek (open science of open access), 
  • als kennis in het algemeen (open knowledge).

Je kan ‘open data’ best vertalen als vrije data, maar dan zoals activist en programmeur Richard Stallman het uitdrukt: "Think free as in free speech, not free beer."

“Think free as in free speech, not free beer.”

Het concept vrij refereert aan vier fundamentele vrijheden:

  • je mag data vrij gebruiken = zonder beperking door bv. persoonlijke of maatschappelijke gevoeligheden of voorkeuren; 
  • je mag data vrij bestuderen = de kennis die je daarbij verwerft mag je ook vrij gebruiken;
  • je mag data vrij verspreiden = kopieën maken en delen met wie je maar wil;
  • je mag data vrij aanpassen = data verwerken, verbeteren, uitbreiden en reduceren voor je eigen doeleinden.
Deze vier vrijheden gelden voor iedereen, ongeacht het doel waarvoor de data worden ingezet.
Dit betekent niet dat er geen beperkingen kunnen zijn op het gebruik van open data. Hoewel bepaalde beperkingen het hergebruik bemoeilijken, kunnen ze nuttig zijn om de openheid van data te vrijwaren of te versterken, zoals verplichte naamsvermelding van de bron of auteur van de data.

Open data

Open data op het web moeten aan vier criteria voldoen:
  • De data zijn als een geheel vrij beschikbaar gemaakt. Je mag daarbij wel een marginale kost voor vermenigvuldiging, verstrekking en verspreiding aanrekenen. De data is bij voorkeur downloadbaar via het web en eventuele gebruiksbeperkingen zijn duidelijk aangegeven.
  • De data zijn machineleesbaar.
  • Het formaat is open en wordt ondersteund door minstens één open-source-tool.
  • En last but not least, de data zijn vergezeld van een publiekdomeinverklaring of gepubliceerd onder een open licentie, zodat gebruikers ondubbelzinnig kunnen vaststellen dat de data vrij beschikbaar zijn.

Linked Open Data 

Een specifiek soort open data is ‘linked open data’. Als je spreekt over het online beschikbaar maken van data en deze door machines te laten analyseren, dan land je tegenwoordig snel op de term linked data. Dat zijn gegevens die met elkaar gekoppeld en verweven zijn op een specifieke, duurzame manier. Le_Répertoire_Bibliographique_Universel_vers_1900Het 'Répertoire Bibliographique Universel' rond 1900. Bron: Mundaneum via Wikimedia Commons.
 
Het idee van kennis aan elkaar te linken en vindbaar te maken heeft een lange geschiedenis. Begin 20ste eeuw poogde men om alle kennis ter wereld vindbaar te maken met analoge steekkaarten in het Répertoire Bibliographique Universel en het Mundaneum van Paul Otlet en Henri La Fontaine. Later begon men te dromen van machines die kennis zouden verzamelen, toegankelijk maken en zelf analyseren om nieuwe kennis te creëren: de eerste computers die instructies konden uitvoeren, werden ontwikkeld.

A Colossus Mark 2 codebreaking computer being operated by Dorothy Du Boisson (left) and Elsie Booker (right), 1943
Een 'Colossus Mark 2' die gebruikt werd om Duitse codeberichten te breken tijdens de Tweede Wereldoorlog. Bron: Wikimedia Commons.

Begin jaren ‘90 kwam door het werk van o.a. Tim Berners-Lee (en zijn Belgische collega Robert Cailliau) het internet tot stand: een netwerk dat meerdere machines fysiek met elkaar verbindt en voor de uitwisseling van gegevens zorgt. Met de publicatie van twee papers van Tim Berners-Lee: The Semantic Web (2001) en Linked Data (2006), werd het afsprakenkader van het beschikbaar maken en uitwisselen van data geïntroduceerd. Het belangrijkste concept daarin: het gebruik van persistente (onveranderlijke) HTTP-webadressen ('persistent identifiers' in de vorm van URL’s) om data duurzaam te koppelen met andere data. Zo kunnen ook machines de verschillende linken tussen informatie vinden en begrijpen.

In 2010 schreef Tim Berners-Lee een nieuwe paper: Linked Open Data (LOD). Hier werd de term open toegevoegd aan het afsprakenkader om de toegankelijkheid en de bruikbaarheid van kennis te verbeteren. Sindsdien spreken we over een vijfsterrensysteem, met data die toegankelijk is:
★ onder een open licentie (Open Data);
★★ als machineleesbare, gestructureerde data (bv. Excel i.p.v. PDF);
★★★ in een open formaat (bv. CSV i.p.v. Excel);
★★★★ in een W3C-triple-formaat (bv. RDF);
★★★★★ met duurzame links naar andere Linked Open Data.

In 2018 vulde Rob Sanderson, de semantisch architect van het Getty Institute, deze principes aan met het concept Linked Open Usable Data (LOUD). Hiermee wilde hij informatieprofessionals en -instellingen vooral aan hun gebruikers herinneren. Louter data linken (LOD) en die datasets online publiceren is niet genoeg; data moeten ook bruikbaar (LOUD) zijn. Niemand wil ten slotte een volledige export van een databank zien. Sanderson roept instellingen zoals bibliotheken, archieven, etc. op meer tijd en moeite te steken in goede handleidingen en nuttige selecties. Door een beetje in te boeten aan volledigheid, winnen we aan bruikbaarheid.

Open data in de praktijk

De hoop dat data als motor voor maatschappelijke ontwikkeling optreedt, krijgt een deuk wanneer technologiebedrijven de toegang tot data gaan vermarkten.* Gelukkig is de opendatabeweging erin geslaagd om open data op de maatschappelijke agenda te plaatsen. De Europese richtlijn EU Open Data Directive stelt dat het recht op eenvoudig toegankelijke en optimaal beschikbare overheidsinformatie verankerd moet worden in Europese wetten.
Overheidsinstellingen hebben de plicht om te werken volgens de principes van openbaarheid van bestuur. Om de burger zo goed mogelijk te informeren, publiceren zij naast bestuursdocumenten ook allerlei andere belangrijke data.
Overheidsinstellingen hebben de plicht om te werken volgens de principes van openbaarheid van bestuur. Om de burger zo goed mogelijk te informeren, publiceren zij naast bestuursdocumenten ook allerlei andere belangrijke data. Zo kan je verschillende datasets online vinden over: 
Aangezien onze musea, bibliotheken en archieven grotendeels met publieke middelen worden gefinancierd, verwachten we van deze erfgoedinstellingen dat foto’s/scans uit en metadata over hun collectie vrij beschikbaar zijn voor hergebruik. Zeker als de erfgoedobjecten zich in het publiek domein bevinden. Deze term gebruiken we om aan te duiden dat creatieve werken (programmatuur, teksten, beelden, geluidsopnamen, erfgoedobjecten, etc.) niet langer onder de bescherming van het auteursrecht vallen. Veel internationale en Belgische erfgoedinstellingen maken data over hun collecties online beschikbaar als open data. Hier zijn enkele interessante voorbeelden:

Meer nuttige links en tips

Overzicht van bestaande open-data-platformen
 
Toegang krijgen en hergebruiken
Op bovenstaande platformen kan je, afhankelijk van de aanwezige functionaliteiten, open data op verschillende manieren zoeken en gebruiken:
  • Zoekinterface: zoeken in een zoekbalk, vinden en lezen.
  • Downloadfunctie: vaak kan je de data gewoon downloaden als een bestand (bv. een tabel).
  • Application Programming Interface (API): een functie waarbij je machines ‘met elkaar laat praten’ om heel specifieke zoek- en downloadopdrachten uit te voeren. Zie bv. Cooper Hewitt.
  • Sparql endpoint: een optie waarbij je zelf via een programmeertaal (SPARQL) heel specifieke zoek- en downloadopdrachten kan uitvoeren. Zie bv.: 
    • de sparql endpoint van de EU.
    • De Wikidata sparql endpoint begeleidt je om zoekopdrachten op te stellen. Er is een hulppagina en een lange lijst van voorbeelden die je kunnen helpen om op deze specifieke manier te leren zoeken, zoals: "Works by women that were born between 1800 and 1900, are in the WomenWriters database and are translated", of "Birth places of German poets": 
Zelf bijdragen
Op veel platformen kan je niet enkel open data raadplegen, maar ook zelf bijdragen en zo meer open data creëren! Het meest bekende voorbeeld zijn de Wikimedia-platformen. Kom te weten hoe je zelf kan bijdragen: 

 

* Bekijk hieronder de Tegenlicht-reportage Herover je data die de VPRO uitzond op 18 oktober 2020.


Ga hieronder naar de andere zoektips of ga terug naar de startpagina.

Meld je aan voor onze nieuwsbrief