Analyse
/ 05. Mai 2017

Datenklassifizierung: Welche Daten brauchen welchen Schutz?

Ein zentrales Problem im Datenschutz ist die Klassifizierung der personenbezogenen Daten, um ihren Schutzbedarf festzulegen. In Zeiten von Big Data sind Lösungen gefragt, die hierbei deutlich unterstützen können. Wir zeigen Beispiele.

Laut einer Veritas-Studie ist mehr als die Hälfte der Unternehmen nicht auf die Datenschutz-Grundverordnung (DSGVO) vorbereitet.

Vorbereitung auf DSGVO: Übersicht über Datenbestände nötig

Die größten Herausforderungen bei der Vorbereitung auf die DSGVO sind laut Umfrage

  • die Fragmentierung von Daten und
  • der fehlende Einblick in die Daten.

Diese Probleme gaben rund 35 Prozent der Befragten als ihre größte Sorge an. Denn sie erschweren es erheblich, die Datenschutzvorgaben einzuhalten, oder machen es letztlich sogar unmöglich. Über die Hälfte der Teilnehmer zeigte sich zudem besorgt darüber, dass dem Unternehmen Daten verloren gehen könnten.

Keine Frage, Unternehmen müssen deutlich mehr für die Transparenz bei ihren „Daten-Bergen“ tun, gerade im Hinblick auf die weitere Anhäufung von Daten im Rahmen von Big Data.

Nicht nur Speicherorte kennen

Vor allem schwer kontrollierbare Speicherorte in der Cloud und File-Sharing-Dienste von Kunden lassen Unternehmen im Hinblick auf die Compliance keine Ruhe, so die Umfrage.

Immerhin benutzt ein Viertel der Studienteilnehmer Cloud-basierte Dienste wie Box, Google Drive, Dropbox oder Microsoft OneDrive, obwohl es nicht konform zu ihren Unternehmens-richtlinien ist. Weitere 25 Prozent bestätigten, dass sie nicht anerkannte Speicherdienste außerhalb des Unternehmens verwenden.

So kritisch die mangelnde Kenntnis der Speicherorte ist – allein damit, die Speicherorte personenbezogener Daten zu ermitteln, ist es nicht getan. Die personenbezogenen Daten müssen klassifiziert werden, um den Schutzbedarf zu ermitteln. Erst dann lassen sich sinnvoll geeignete Schutzmaßnahmen wie z.B. die Verschlüsselung der vertraulichen Daten ergreifen.

Datensicherheit muss Datenrisiken berücksichtigen

Die Datenschutz-Grundverordnung fordert eine Sicherheit der Verarbeitung unter Berücksichtigung

  • des Stands der Technik,
  • der Implementierungskosten und
  • der Art, des Umfangs, der Umstände und der Zwecke der Verarbeitung sowie
  • der unterschiedlichen Eintrittswahrscheinlichkeit und Schwere des Risikos für die Rechte und Freiheiten natürlicher Personen.

Datenkategorien sind entscheidend

Wichtig für die Sicherheit der Verarbeitung sind v.a. die Datenkategorien.

So gelten laut DSGVO als besondere Kategorien personenbezogener Daten die personenbezogenen Daten, aus denen die rassische und ethnische Herkunft, politische Meinungen, religiöse oder weltanschauliche Überzeugungen oder die Gewerkschaftszugehörigkeit hervorgehen, sowie die Verarbeitung von genetischen Daten, biometrischen Daten zur eindeutigen Identifizierung einer natürlichen Person, Gesundheitsdaten oder Daten zum Sexualleben oder der sexuellen Orientierung.

Sofern eine Verarbeitung solcher Daten überhaupt zulässig ist, muss ein Verantwortlicher sehr hohe Standards der Datensicherheit einhalten.

Daten müssen klassifiziert werden

Um eine unzulässige Verarbeitung zu verhindern sowie eine fristgerechte Datenlöschung und einen dem Risiko entsprechenden Schutz zu gewährleisten, müssen sämtliche personenbezogenen Daten klassifiziert werden. Laut der Forrester-Studie „The Data Security Money Pit: Expense In Depth Hinders Maturity“ (http://ogy.de/klassifizierung) klassifizieren jedoch 66 Prozent der befragten Unternehmen ihre Daten nicht ordnungsgemäß.

Das muss sich ändern, gerade in der Vorbereitung auf die Grundverordnung. Bei der Menge an Daten sind manuelle Lösungen aber nahezu unmöglich. Somit müssen geeignete Werkzeuge zum Einsatz kommen.

Wann steht eine Datenklassifizierung an?

  • Entwicklung und Pflege des Datensicherheitskonzepts
  • Prüfung der Zulässigkeit einer Datenverarbeitung
  • Ermittlung der Aufbewahrungs- und Löschfristen
  • Prüfung, ob eine Daten-Migration in die Cloud zulässig ist
  • Planung einer Auftragsverarbeitung
  • Planung einer Datenübermittlung

Machine Learning kann bei Datenklassifizierung helfen

Was muss ein solches Tool können?

  • Eine Lösung im Bereich Datenklassifizierung muss möglichst automatisch Daten und Dokumenten eine definierte Kategorie zuordnen.
  • Anwenderunternehmen müssen dann den Datenkategorien die erforderlichen Schutzmaßnahmen zuweisen.
  • Auf dieser Basis lässt sich einem Datenbestand automatisch die notwendige Datensicherheit zuordnen.
  • Je nach Lösung kann ein Tool dann ebenso automatisch die passende Schutzmaßnahme wie die Datenverschlüsselung aktivieren.

Damit die Zuordnung „Daten – Datenkategorie – Schutzbedarf – Sicherheitsmaßnahmen“ stimmig ist, müssen die Regeln gut durchdacht und regelmäßig aktualisiert werden.

Ein Problem ist jedoch, dass die Vielfalt an Daten und Datenkategorien es erschwert, Zuordnungsregeln aufzustellen. Deshalb können Funktionen wie Machine Learning (Maschinelles Lernen, ML) eine Unterstützung bieten: Die Lösungen sammeln „Erfahrungen“ und werden mit der Zeit immer zutreffender.

Beispiel: Smart Classifier/Compreno

ABBYY Europe z.B. hat kürzlich ABBYY Smart Classifier vorgestellt. Das Produkt bietet eine Dokumentenklassifizierung und unterstützt Unternehmen dabei, unstrukturierte Informationen zu katalogisieren. Die Basis dafür liefert Compreno, eine Natural-Language- Processing-(NLP-)Technologie.

Damit kategorisiert Smart Classifier die Dokumentenbestände basierend auf statistischer und semantischer Inhaltsanalyse. Compreno „versteht“ laut Anbieter die Bedeutung von Worten sowie die Beziehung zwischen ihnen und erzeugt eine Struktur des Textes, die Computer analysieren und für die Klassifizierung nutzen können.

Die Lösung Smart Classifier hat Komponenten für die Einrichtung, das Training sowie für die Kontrolle der Klassifizierungsmodelle und ist in bestehende IT Systeme integrierbar, etwa in Archiv- oder Dokumenten-Management-Systeme (DMS).

Klassifizierungsalgorithmen, die sich während des Lernprozesses automatisch selbst optimieren (Machine Learning), erleichtern die Einführung und Nutzung der Klassifizierungstechnologie. Die Zahl der fehlerhaften Zuordnungen nimmt mit der Zeit ab.

Weitere Beispiele

Weitere Lösungen, die bei der Datenklassifizierung helfen und teils maschinelles Lernen einsetzen, sind z.B.:

Empfehlung: Unterstützung für Datenklassifizierung nutzen und prüfen

Ganz gleich, welche Lösung ein Unternehmen nutzt, um sich bei der Datenklassifizierung unterstützen zu lassen: Ein genauer Blick auf die automatisierten Klassifizierungen lohnt sich. Denn Maschinelles Lernen ist nicht automatisch fehlerfrei.

Eine weitere Prüfung muss der Lösung selbst gelten. Denn Tools zur Datenklassifizierung erhalten tiefe Einblicke, die sie nicht mit Dritten teilen sollten. Der Anbieter muss deshalb eine Datenschutzerklärung haben. Das gilt insbesondere für Lösungen, die die Klassifizierung mittels Cloud vornehmen. Maschinelles Lernen und Künstliche Intelligenz (KI)/Artificial Intelligence (AI) greifen nämlich oftmals auf Cloud-Komponenten zurück.

Oliver Schonschek

+

Weiterlesen mit DP+

Sie haben noch kein Datenschutz-PRAXIS-Abo und möchten weiterlesen?

Weiterlesen mit DP+
Konzentrieren Sie sich aufs Wesentliche
Profitieren Sie von kurzen, kompakten und verständlichen Beiträgen.
Kein Stress mit Juristen- und Admin-Deutsch
Lesen Sie praxisorientierte Texte ohne Fußnotenapparat und Techniker-Sprech.
Sparen Sie sich langes Suchen
Alle Arbeitshilfen und das komplette Heftarchiv finden Sie online.