Grundlagen des Data Managements
Im Bereich des Datenmanagements ist ein grosser Wandel im Gang. Eine Studie von IDC zeigt, dass sich die Daten exponentiell vergrössern. Existierten 2010 um die 1-2 Zettabyte, werden es im 2025 bis zu 175 Zettabyte sein (IDC 2018). Es ist davon auszugehen, dass die Datenmenge weiterhin so stark zunimmt. Einerseits wird die Speicherung der Daten immer billiger, anderseits werden immer mehr Daten gesammelt und gespeichert, was zu einem steigenden Strombedarf führt. Zukünftig wird es eine Herausforderung sein, weiterhin die Übersicht zu behalten.
Es gibt diverse Anwendungsbereiche, wo öffentliche Daten eingesetzt werden. Im Bereich der Mobilität sind dies beispielsweise Flightradar24, welches den Flugverkehr darstellt. Die dahinterliegenden Daten sind öffentlich zugänglich und werden für die Nutzenden aufbereitet. Zugriff auf alle Informationen erhalten die Kunden nur über einen eigenen Account. Ein vergleichbares Tool gibt es auch für die Seefahrt (MarineTraffic).
Damit solche Anwendungen erstellt werden können, sind strukturierte, maschinenlesbare Daten nötig. Diese sind beispielsweise in einer Datenbank abgelegt und nach einem bestimmten Schema strukturiert. Das ermöglicht SQL-Abfragen. Die Daten lassen sich filtern und durchsuchen. Das Gegenteil davon sind unstrukturierte Daten wie Fotos und PDFs, welche sich nicht oder nur mit Einschränkungen weiterverwenden lassen.
Das Datenformat gibt vor, in welcher Syntax die Daten abgespeichert werden und in welchem Datenfeld welche Information enthalten ist. Es gibt sowohl offene wie auch proprietäre Datenformate, was Konsequenzen für die Weiterverwendung hat. Für die Weiterverwendung sind offene Datenformate geeigneter. Je nach Verwendungszweck kommt ein anderes Datenformat zum Einsatz: Im Webumfeld wird beispielsweise JSON eingesetzt, da es viel weniger Speicherplatz benötigt als XML. Firmen können mit dem Erstellen eigener Datenformate eine grosse Machtposition erlangen (Beispiele: Microsoft mit .doc, Esri mit .shp oder Adobe mit .psd). Eine gute Übersicht über Datenformate hat die GBV zusammengestellt.
Als Interoperabilität wird die möglichst nahtlose Zusammenarbeit zwischen Informatiksystemen verstanden, wobei unterschiedliche Reifegrade existieren. Es muss ein Standard (Schnittstellenspezifikation) festgelegt werden, um die Daten einfach auszutauschen. Ziel ist es, dass zwischen den Systemen Daten ausgetauscht werden und das Gesamtsystem weiterhin funktioniert. Klassischerweise wird die Interoperabilität durch APIs hergestellt, d.h. maschinenlesbare Schnittstellen. Die Open Data Plattform des Kantons Basel-Stadt bietet APIs beispielsweise standardmässig an.
Grundlagen von Open Government Data
Der Startschuss in der Schweiz von OGD war das Öffentlichkeitsgesetz und -verordnung, welche seit 1. Juli 2006 in Kraft ist. Das Ziel von OGD ist nicht, dass neue Daten gesammelt werden, sondern dass die vorhandenen Daten gesäubert, in ein offenes Datenformat überführt und dann veröffentlicht werden. Im Mittelpunkt steht die Open Government Data Plattform, welche die Daten zur Verfügung stellt. Der Begriff ‹Government› wird dabei weit gefasst und beinhaltet dabei auch an den öffentlichen Sektor angrenzende Bereiche wie Transportunternehmen und Energieversorger. Wenn die Daten offen sind, dann können alle darauf zugreifen, Visualisierungen erstellen und etwas daraus produzieren. Es geht immer darum, dass schlussendlich aus den Daten eine Wirkung beziehungsweise etwas Nützliches für die Gesellschaft oder Wirtschaft entsteht. Open Data kann Big Data sein, muss es aber auch nicht. Es gibt auch wertvolle kleine Datensätze, welche OGD sind. Die Daten weisen erst dann einen Wert auf, wenn sie weiterverwendet und in Apps eingebaut worden sind.
Im Grundsatz geht es bei Open Data immer um nicht personenbezogene Daten und um nicht sicherheitsrelevante Daten. Die als OGD veröffentlichten Daten sollen möglichst vielen Anwendungszwecke dienen und nicht in der Weiternutzung eingeschränkt werden. Es gibt drei Hauptargumente, warum die Behörden die Daten öffentlich zur Verfügung stellen:
- Die angefallenen Daten wurden durch Steuergelder finanziert. Entsprechend haben die Bürgerinnen und Bürger ein Anrecht darauf, diese einzusehen.
- Der Datenzugang soll frei und ungehindert sein, damit die politische Meinungsbildung stattfinden kann.
- Offene Daten führen zu einer Effizienzsteigerung des öffentlichen Sektors. Zudem profitiert die Gesamtvolkswirtschaft durch Open Data.
Es gibt aber auch Scheinargumente gegen Open Data wie die Haftbarkeit für Fehler im Datensatz, die Gefahr von Fehlinterpretationen und die Diskriminierung von gewissen Bevölkerungsgruppen.
Daten katalogisieren und publizieren
Ein Datenkatalog ist eine zentrale Informationsquelle und Wegweiser, welche alle für den Zugriff und Nutzung der Daten notwendigen Informationen bereitstellt, d.h. die Metadaten. Um Daten nutzen zu können, müssen diverse Informationen, wie Titel, Beschreibung, Zeitpunkt der Erhebung, Data Owner etc. bekannt gegeben werden. Auf dem Datenkatalog wird auf einzelne Datensätze verwiesen, die Daten selbst sind an einem anderen Ort abgelegt. Mit der Katalogisierung der eigenen Daten steigt die Übersicht. Aufgrund der Standardisierung und Veröffentlichung der Daten kann die Vernetzung zwischen den Verwaltungsstellen besser werden. Zugleich können die Daten einfacher und schneller genutzt werden.
Das Potenzial von Datensätze ist dann hoch, wenn die Ziele Transparenz, Partizipation und Innovation erreicht werden können. Die Verknüpfung von Daten steigert ihren Wert. Dazu wird ein Identifier benötigt wie Koordinaten, PLZ, ID oder Zeit. Das ist zugleich auch eine der Grundideen von ‹Linked Data›. Der Unterschied von csv-Tabellen zu Linked Data beinhaltet einen grossen Mehraufwand für die Datenproduzierenden. Die Daten werden komplexer für die Nutzenden, gleichzeitig steigt aber auch das Potenzial beziehungsweise der Wert der Daten.
Mit RDF werden Beziehungen zwischen Objekten erstellt (gerichteter Graph), wobei diese Beziehungen schnell komplex werden. Linked Data sind Graphen, welche eine Richtung besitzen und eine definierte Beziehung zwischen den Objekten aufweisen. Alle diese Objekte sollen dabei eine einzigartige ID besitzen (URI: Uniform Resource Identifiers) und auf eine HTTP URI Seite verweisen. Dort sind sinnvolle Informationen abgespeichert und zusätzlich sollen dort Links auf weitere URIs vorhanden sein. Echte Linked Data sind es dann, wenn auf andere Graphen, wie beispielsweise Wikidata (quasi Hub in der Linked Open Data Cloud), verwiesen wird.
Die Abfragesprache in Linked Data heisst SPARQL und entspricht ungefähr SQL bei relationalen Datenbanken. Mit SPARQL wird nach Mustern gesucht, d.h. wie die Objekte zusammenhängen. Der Vorteil von Linked Data liegt darin, dass es maximal flexibel ist und entsprechend das maximale Potenzial entfalten kann. Darum ist es auch so gut für OGD geeignet, da die Weiternutzungen unbekannt sind.
Datennutzung messen
Der Impact von OGD muss gemessen werden können. Die Schwierigkeit liegt darin, dass der Aufwand für OGD-Aktivitäten sichtbar ist, der Nutzen aber schwierig messbar ist. Für die Evaluation der Wirkung von OGD entwickelten Dapp und Stürmer einen Vorschlag für ein Impact Monitoring Framework. Es orientiert sich dabei an dem Modell ‹Social Return on Investment› (SROI), welches die soziale Wirkung messen möchte.
- Input: Geld
- Output: Wie viele Veranstaltungen durchgeführt oder Datensätze publiziert.
- Outcome: Was für Apps sind aus dem Hackathon entstanden? Welche Start-ups wurden gegründet?
- Impact: Wie viel Steuern bezahlen die Start-ups, die aus OGD entstanden sind? Welche Prozessoptimierungen führten zu einer Effizienzsteigerung?
Fazit
Die Ressourcen müssen für die Einführung eines Datenmanagements klar sein, Data Governance wird benötigt (von minimal bis maximal), die internen Vorgaben müssen festgehalten und ein Datenkatalog muss nachgeführt werden. Um OGD aufzubauen, macht es Sinn zuerst mit den «Willigen» zu starten. Hilfreich dabei ist auch, dass anschliessend die Anwendungsbeispiele gezeigt werden und mit der OGD-Community in Kontakt getreten wird (z.B. Kommentarfunktion). Es ist wichtig von Anfang an die OGD-Community als wichtigen Partner bzw. als wichtigen Teil des Prozesses zu verstehen und sie über passende Kanäle wie Twitter oder Github miteinzubeziehen.
Open Government Data hat einen grossen Nutzen für die Bevölkerung:
- Die Verwaltung ist attraktiver für die Zivilgesellschaft. Es entstehen neue Produkte.
- Die Arbeitgeberattraktivität steigt, wenn die Verwaltung OGD macht.
- Es ermöglicht die echte Umsetzung von Smart City in einer Stadt.
- OGD kann als Vehikel für die Digitalisierung genützt werden.
- OGD führt zu besseren Entscheidungen und mehr Vertrauen der Bevölkerung und ein besseres Verständnis für die Verwaltungstätigkeiten.