5 * Technische Details

5.1 * Konzept

5.1.1 Allgemeines Modell für die Krebsregistrierung

Allgemeines Modell
Abbildung 3: Allgemeines Modell für die Krebsregistrierung

Da ein Patient in der Regel im Verlauf von Diagnose, Therapie und Nachsorge mit mehreren verschiedenen Ärzten Kontakt hat, die allesamt meldeberechtigt sind, sind im epidemiologischen Krebsregister auch mehrere Meldungen zur selben Tumorerkrankung zu erwarten.

Modelliert man diesen Sachverhalt für ein Entity-Relationship-Diagramm (ER-Diagramm), so ergibt sich zwischen den Entitäten 'Tumor' und 'Meldung' eine Beziehung vom Typ 1:n. Da ferner ein Patient im Laufe seines Lebens an mehreren Tumoren erkranken kann, ergibt sich im Modell eine weitere 1:n-Beziehung zwischen den Entitäten 'Person' und 'Tumor', so daß insgesamt eine Hierarchie dieser drei Entitäten besteht (siehe Abbildung 3). In Worten ausgedrückt: ein Patient kann an 1 bis n Tumoren erkranken, jeder dieser Tumore kann 1 bis n-mal gemeldet werden (n kann in beiden Zusammenhängen für unterschiedliche Zahlen stehen). Daraus ergibt sich eine Hierarchie patienten-, tumor- und meldungsbezogener Information.

Meldungsbezogene Information charakterisiert eine Meldung und kann sogar zwischen mehreren Meldungen zur selben Erkrankung desselben Patienten differieren. Meldungsbezogen sind demnach alle Originalangaben des Meldebogens zum Patienten und seiner Erkrankung sowie die administrativen Daten des Meldevorgangs. Tumorbezogene Information sind die Angaben zur Erkrankung, z. B. das Datum der Diagnosenstellung, der Diagnosecode nach ICD-10 oder das Stadium der Erkrankung. Aufgrund der Mehrfachmeldungen liegen sie n-mal im Register vor, müssen aber nicht zwangsläufig übereinstimmen. Tumorbezogene Information sind demnach nicht die Originalangaben des Meldebogens, sondern die aus allen Meldebögen extrahierte beste Information zur gleichen Erkrankung. In der Praxis kann sich die tumorbezogene Information beispielsweise zusammensetzen aus der Originalangabe des Pathologen zur Tumorhistologie und den Originalangaben des Hausarztes zum derzeit ausgeübten Beruf. Die patientenbezogene Information wie z. B. das Geburtsdatum oder das Geschlecht des Patienten wird aus allen Originalangaben aller Meldebögen zum Patienten selektiert. Die patientenbezogene Information charakterisiert den Patienten, ist also unabhängig von der Erkrankung.

Die Auftrennung des Krebsregisters in eine Vertrauensstelle und eine Registerstelle, wobei jeder Stelle spezifische Arbeitsprozesse zugeordnet sind, verlangt die Anpassung des allgemeinen Modells mit zwei getrennten ER-Diagrammen, deren Entitäten und ihre Beziehungen untereinander bereits im konzeptuellen Schritt getrennt voneinander analysiert werden müssen. Die ER-Diagramme werden in der sogenannten (1,c,m)-Notation entwickelt.

5.2 * Vertrauensstelle

Folgende Besonderheiten der Arbeitsprozesse in der Vertrauensstelle beeinflussen den Entwurf einer Datenbank:
  1. Die Datenbank der Vertrauensstelle ist eine temporäre Sammelstelle für Meldungen, bis diese in der Registerstelle einem Patienten zugeordnet werden konnten. Die Vertrauensstelle hat deshalb nicht die Möglichkeit zu entscheiden, ob die gerade erfaßte Meldung oder Todesbescheinigung zu einem dem Register bereits bekannten Patienten gehört.
  2. Der gemeinsame Meldebogen für das epidemiologische Krebsregister und die Nachsorge wird auch mit einem gemeinsamen Erfassungsprogramm erfaßt und erst nach der Eingabe getrennt. In der Vertrauensstelle wird somit auch nachsorgespezifische Information erfaßt, die nicht an die Registerstelle des Krebsregisters weitergegeben wird.
  3. Auf dem Meldebogen ist auch Raum für Angaben zum Tod des Patienten. Diese Sterbeinformation wird separat betrachtet, da sie nur für einen geringen Anteil aller Meldungen vorliegt.
  4. In der Vertrauensstelle werden diejenigen Todesbescheinigungen und Obduktionsscheine erfaßt, auf denen eine Tumorerkrankung als Grundleiden oder Begleiterkrankung eingetragen ist.
Punkt 1 führt dazu, daß die Entitäten 'Person' und 'Tumor' des allgemeinen Modells im ER-Diagramm der Vertrauensstelle nicht existieren. Punkt 2 erfordert die Definition einer Entität 'Nachsorge', in der die nachsorgespezifische Information abgelegt ist. Für Meldungen, die ausschließlich an das Krebsregister adressiert sind, gibt es keine Nachsorgeinformation, so daß zwischen den Entitäten 'Meldung' und 'Nachsorge' eine Beziehung vom Typ 1:c besteht, d. h. zu jeder Meldung gibt es höchstens eine nachsorgespezifische Information. Ebenso verhält es sich mit der Information zu einem Sterbefall (Punkt 3), die nur dann ausgefüllt ist, wenn der Patient auch verstorben ist und der meldende Arzt davon Kenntnis hatte. Punkt 4 führt die Todesbescheinigungen und Obduktionsscheine als eigene Entität ein ('Totenschein'). Das ER-Diagramm für die Vertrauensstelle ist in Abbildung 4 dargestellt.
ER-Diagramm für die Vertrauensstelle
Abbildung 4: ER-Diagramm für die Vertrauensstelle

Außer den Daten der Meldung werden in der Vertrauensstelle die Daten des Melders (Entität 'Arzt') vorgehalten, die zwar ebenfalls auf dem Meldebogen angegeben sind, aber nur bei der ersten Meldung dieses Melders erfaßt werden. Die Beziehung zwischen den Entitäten 'Meldung' und 'Arzt' ist 1:mc, da zu einem aktuellen Zustand der temporären Datenbank der Vertrauensstelle nicht zu jedem erfaßten Arzt auch zugeordnete Meldungen gespeichert sein müssen. Jeder Arzt ist einer Institution zugeordnet (z. B. Krankenhausabteilung, Praxis, pathologisches Institut, Gesundheitsamt), während aus derselben Institution mehrere Ärzte melden können. Diese sind allerdings möglicherweise durch eigene Telefonnummern (für Rückfragen) oder eigene Bankverbindungen (für die Vergütung der Meldung) charakterisiert. Bei der Beobachtung des Meldeverhaltens ist jedoch die Entität 'Institution' wichtig. Ausnahmsweise kann ein Arzt auch zwei Institutionen zugeordnet sein (z. B. Belegarzt im Krankenhaus mit eigener Praxis). Solche doppelten Meldeaktivitäten desselben Arztes kann das Krebsregister nicht systematisch erkennen, so daß im ER-Diagramm eine 1:m-Beziehung modelliert wurde.

Das ER-Diagramm der Vertrauensstelle wurde in eine relationale Datenbank umgesetzt, wobei sich für jede Entität des Diagramms eine Relation der Datenbank ergab. Primärschlüssel der Relationen 'Meldung', 'Nachsorge' und 'Sterbefall' wurde eine fortlaufende Nummer der Meldung, die sich aus einer fünfstelligen laufenden Nummer eines Eingangsjahres, dem vierstelligen Eingangsjahr und einer Prüfziffer zusammensetzt. Sie wird vom Erfassungsprogramm generiert. Auch die Todesbescheinigungen und Obduktionsscheine erhalten eine fortlaufende Nummer aus diesem Mechanismus. Eine Institution wird über eine vierstellige Ziffer identifiziert, der Primärschlüssel der Relation 'Arzt' setzt sich aus dem Primärschlüssel der zugeordneten Institution und einer zweistelligen laufenden Nummer des meldenden Arztes zusammen. Die Attributierung der Relationen stimmt mit einer Ausnahme für Vertrauensstelle und Registerstelle überein. In der Relation 'Meldung' der Vertrauensstelle sind die Attribute Nachname, Vorname, Geburtsname, früherer Name, Straße, Postleitzahl, Wohnort, Geburtsdatum und Diagnosedatum enthalten. Vor der Übertragung in die Registerstelle werden diese zu den sogenannten Kontrollnummern chiffriert (siehe 5.3) und die Attribute Geburtsmonat, Geburtsjahr, Diagnosemonat, Diagnosejahr, Alter zum Zeitpunkt der Diagnosenstellung in Monaten und die Gemeindekennziffer generiert.

5.1.3 * Registerstelle

Folgende Besonderheiten der Arbeitsprozesse in der Registerstelle beeinflussen den Entwurf einer Datenbank:
  1. In der Registerstelle wird beim Zusammenführen der Meldungsdatensätze entschieden, ob eine Meldung zu einem dem Register bereits gemeldeten Patienten gehört.
  2. In der Registerstelle werden Meldungsdatensätze mit Datensätzen von Todesbescheinigungen und Obduktionsscheine zusammengeführt. Da möglicherweise auch bereits auf der Meldung Angaben zum Tod des Patienten gemacht wurden, kann es sein, daß das Register aus verschiedenen Datenquellen Kenntnis über den Tod des Patienten erhält.
  3. In manchen Fällen hat das Krebsregister Angaben zur Erkrankung des Patienten allein über Todesbescheinigung oder Obduktionsschein erhalten (DCO-Fälle). Das heißt, es gibt zur Erkrankung des Patienten keinen Meldungsdatensatz sondern ausschließlich einen Datensatz einer Todesbescheinigung oder eines Obduktionsscheins.
Punkt 1 folgend wird das allgemeine Modell für die Krebsregistrierung (siehe 5.1.1) das Grundgerüst des ER-Diagramms der Registerstelle. Eine ähnliche Hierarchie ergibt sich Punkt 2 zufolge für die Information über den Tod des Patienten. Diese kann über eine Todesbescheinigung oder einen Obduktionsschein erfolgen oder über einen Meldebogen zur Krebserkrankung. Ähnlich wie aus Mehrfachmeldungen die beste Information zur Erkrankung extrahiert wird, müssen aus der Sterbeinformation von Todesbescheinigung, Meldebogen und ggf. Obduktionsschein die validesten Angaben selektiert werden. Demzufolge wird eine Entität 'Sterbemeldung' für die Originalangaben und eine Entität 'Sterbeinfo' für die verläßlichste Information über den Tod des Patienten definiert, die Beziehung zwischen den Entitäten ist vom Typ 1:m. Punkt 3 beschreibt DCO-Fälle. Diese werden in das Modell eingefügt, indem als Beziehung zwischen den Entitäten 'Tumor' und 'Meldung' 1:mc festgelegt wird, d. h. es gibt Objekte in 'Tumor' ohne Beziehung zu Objekten in 'Meldung', nämlich genau dann, wenn ausschließlich eine Beziehung zu einem Objekt in 'Sterbemeldung' (und zwar einer Todesbescheinigung oder einem Obduktionsschein) existiert. Der Vorteil dieser Modellierung ist es, daß die Entität 'Tumor' alle Objekte vom Typ Tumor enthält, unabhängig davon, ob es sich um eine gemeldete Erkrankung oder einen DCO-Fall handelt. Das ER-Diagramm für die Registerstelle ist in Abbildung 5 dargestellt.
ER-Diagramm für die Registerstelle
Abbildung 5: ER-Diagramm für die Registerstelle

Das ER-Diagramm der Registerstelle wurde in ein relationales Datenbankschema umgesetzt. Hierbei wurden die Entitäten 'Tumor', 'Meldung', 'Arzt', 'Institution' und 'Sterbemeldung' zu Relationen, die Entitäten 'Person' und 'Sterbeinfo' wurden in eine gemeinsame Relation 'Person' umgesetzt. Grund hierfür war, daß aufgrund der Speicherung von Krebspatienten über mehrere Jahrzehnte zu dem größeren Anteil der Personen auch Angaben über deren Versterben vorliegen.

Relation  Primärschlüssel  Fremdschlüssel 
Person Person-ID  -
Tumor Tumor-ID Person-ID
Meldung fortlaufende Nummer Tumor-ID
Arzt-ID
Sterbemeldung fortlaufende Nummer Person-ID
Arzt-ID
Arzt Arzt-ID  Institutions-ID
Institution Institutions-ID -
Tabelle 1: Primär- und Fremdschlüssel der Relationen der Datenbank der Registerstelle

Tabelle 1 verdeutlicht die Verweisstruktur und die Zusammenhänge der Relationen in der Datenbank. Für jede Relation werden die Primärschlüssel und die Fremdschlüssel dargestellt. Die Primärschlüssel der Relationen 'Person' und 'Tumor' werden als laufende Nummern in der Registerstelle generiert, die Ausprägungen der Primärschlüssel der anderen Relationen wurden bereits in der Vertrauensstelle erzeugt.

Bei der Attributierung muß für jedes epidemiologische Merkmal entschieden werden, ob es personenbezogen, tumorbezogen oder meldungsbezogen ist. Grundlegend ergibt sich folgende Einteilung:

Die Einteilung für die meisten Merkmale ergibt sich zwangsläufig, nur die Gruppe der zeitlich veränderlichen personenbezogenen Angaben stellt einen Sonderfall dar. Hierzu gehört zum einen die Gemeindekennziffer, da für die regionale Gesundheitsmonitoringfunktion des Krebsregisters nicht die aktuelle Adresse des Patienten sondern vielmehr der Wohnort zum Zeitpunkt der Erkrankung von Interesse ist. Auch die Angaben zur Tätigkeitsanamnese sind tumorbezogen, da sowohl der aktuelle als auch der am längsten ausgeübte Beruf sich von der Diagnose eines ersten Tumors bis zur Diagnose eines Zweittumors geändert haben kann.

Aus dem Datenbankschema ausgeklammert sind die chiffrierten Personendaten. Auf deren Verarbeitung und Speicherung wird in 5.3 eingegangen. Die aus den Personendaten gebildeten Kontrollnummern sind meldungsbezogen, da sie nach der Löschung der Meldung in der Vertrauensstelle unveränderlich sind.

Bei der Umsetzung des ER-Diagramms in eine relationale Datenbank wurde darauf geachtet, die Datenbank für Routineanfragen so zu gestalten, daß diese mit einfachen SQL-Anfragen vor allem ohne Kenntnisse von speziellem "Insider"-Wissen über die Datendefinition und -haltung zu beantworten sind. Personen-, tumor- und meldungsbezogene Anfragen sind über jeweils eine einzige Relation möglich.

Die Erfahrungen der Pilotphase haben gezeigt, daß die Wahl, die Datenhaltung der Registerstelle in einem relationalen Datenmodell abzubilden, als gelungen betrachtet werden kann. Die Eindeutigkeit der Primärschlüssel erlaubt gleichzeitig die häufig benötigte Zählung von sowohl Personen als auch Tumorerkrankungen oder Meldungen. Die Normalisierung wahrt durch die Redundanzfreiheit die Konsistenz der Datenbank, ohne daß in diesem speziellen Anwendungsfall die oft im Rahmen der Normalisierung auftretende Unübersichtlichkeit der Datenbankstruktur eingetreten ist. Dies zeichnete sich aufgrund der 1:n-Beziehungen bereits bei der Entwicklung des allgemeinen Modells (vergl. 5.1.1) ab. Die Datenbankkonsistenz wird ferner durch referentielle Integritäten unterstützt, so kann z. B. die Meldequelle einer Meldung nicht "verloren" gehen. Die Umsetzung der Verarbeitung von Meldungen auf Basis der Datenbankschemata wird in 5.2 beschrieben.

5.2 * Realisierung

Das in 5.1 erläuterte Konzept ist im relationalen Datenbanksystem Paradox für Windows 7.0 realisiert. Das in der Pilotphase des Krebsregisters verwendete Datenbanksystem Ingres unter IBM AIX wurde aus Kosten- und Komplexitätsgründen sukzessive ersetzt.

Die Datenhaltung im beschriebenen relationalen Modell stellt weitgehend die Konsistenz und Pflegbarkeit der Daten sicher. Die praktische Umsetzung erfordert weitere Maßnahmen, um die erforderliche Datenqualität zu erreichen sowie angenehmes und ergonomische Arbeiten zu ermöglichen. Auf zwei Werkzeuge soll hier näher eingegangen werden.

5.2.1 * Qualitätssicherung durch Plausibilitätsprüfungen

Die Sicherung der Datenqualität ist im gesamten Bereich der Meldungsbearbeitung im Krebsregister von besonderer Bedeutung. Die Verarbeitung von kryptographierten Daten im Krebsregister erfordert die Erkennung und Behebung von Fehlern in den erhobenen Daten möglichst innerhalb der Zeit, in der noch Klartextdaten verfügbar sind (maximal drei Monate), spätere Korrektur ist nahezu unmöglich. Die Erfassung der Daten aus den verschiedenen Meldewegen mit verschiedenen Programmen, aber auch spätere Bearbeitungsschritte wie die Erstellung der "Best-of"-Information aus Mehrfachmeldungen, bei denen jeweils weitgehend die gleichen Anforderungen zu stellen sind, erfordern komfortable und effiziente Prüfmodule.

Bei der Übertragung der Daten vom Meldebogen in den PC können durch Ablese-, Codier- oder Eingabefehler in den etwa 35 erfaßten Merkmalen sehr viele Meldungen verfälscht werden. Die geeignete und vollständige Prüfung der Daten bei der Erfassung bei den EDV-Meldern kann nicht vorausgesetzt werden, daher stellen sich für die Übernahme der Daten in die Datenbank des Registers grundsätzlich die gleichen Prüfanforderungen. Die Prüfungen unterscheiden sich nur im Zeitpunkt der Anwendung, womit sich jedoch das Vorgehen bei der Prüfung unterscheidet. Bei der manuellen Eingabe kann direkt bei der Erfassung eines Attributes eine Reaktion durch Sperren der Eingabe oder eine Warnung erfolgen, bei im Batchbetrieb hinzugefügten EDV-Meldungen müssen Fehlerlisten erstellt werden.

Das entwickelte Programm zur Plausibilitätsprüfung erfüllt folgende Anforderungen:

Die Prüfungen werden in einer Datenbank abgelegt. Alle zu prüfenden Werte werden als Strings in der Datenbank gespeichert. Durch einen Eintrag in der Konfigurationsdatei kann jedoch der Vergleich von Variablen auch als numerischer Wert oder als Datumswert erfolgen. Die Zahl der gegeneinander zu prüfenden Felder wird auf drei begrenzt.
 

Die Datenbank besteht aus zwei Tabellen:

Tabelle "Gruppen"
Diese Tabelle bezeichnet alle Felder einer Prüfung. Plausibilitätsprüfungen können zwei oder drei Felder in die Prüfung einbeziehen.
Gruppe
Name
Feld 1
Feld 2
Feld 3
1
Geschlecht-ICD Geschlecht ICD  
  ...      
16
ICD-Alter ICD Alter  
17
Geschlecht-Histologie Geschlecht Histologie  
18
Alter-Histologie-ICD Alter Histologie ICD
  ...      
Tabelle 2: Beispieldatensätze der Tabelle Gruppen
Tabelle "Prüfungen"
Diese Tabelle enthält für die beteiligten Felder die Zahl der zu berücksichtigenden Stellen, Ausprägungen, den Fehlerstatus. Pro Feld kann die Zahl der in die Prüfung einzubeziehenden Stellen, gegebenenfalls auch die letzten Stellen des Wertes und ein Vergleichsoperator (gleich, ungleich, größer gleich, kleiner gleich, zwischen und nicht zwischen, außerdem Bedingung Feld 1 und Feld 2 identisch), angegeben werden. Ein Beispiel wird in Tabelle 3 erläutert.
Gruppe
ID
Feld
Stellen
Operator
Wert 1
Wert 2
Fehlerstatus
...
             
16
67
Alter
0
..][..
15
45
Fehler
   
Histologie
4
=
9100
   
   
ICD
3
=
C58
   
...
             
18
39
ICD
3
[..]
C54
C55
Warnung
   
Alter
0
<=
5
   
...
             
Tabelle 3: Beispiele von Plausibilitätsprüfungen zu den Gruppen aus Tabelle 2
Prüfung aus Gruppe 16: Ein Chorionkarzinom (9100/3) in der Plazenta (C58) entsteht nur im Alter zwischen 15 und 45 Jahren.
Prüfung für Gruppe 18: Eine bösartige Neubildung des Uterus (C54-C55) im Alter unter 5 Jahren ist unwahrscheinlich.
Die Erstellung und Pflege von Prüfungen und die Konfiguration für Anwendungen ist in einem Werkzeug "Plausibilitätenverwasltung" (siehe Abbildung 6) zusammengefaßt. Zur Bearbeitung der Prüfungen wird ein Regeleditor verwendet, der lokal den zur Änderung berechtigten Mitarbeitern zur Verfügung steht. In diesem Programm können auch weitere Gruppen von Prüfungen angelegt werden.
Regeleditor
Abbildung 6: Regeleditor: Ein Karzinom an weiblichen Geschlechtsorganen (ICD erste drei Stellen des ICD zwischen C51 und C58) bei Geschlecht männlich (1) soll als Fehler erkannt werden.

Das System zur Plausibilitätsprüfung ist seit Mitte 1996 im Krebsregister in mehreren Programmen im Einsatz und hat sich sehr gut bewährt.

5.2.2 * Meldungszuordnung

Ziel der Meldungszuordnung ist es, verschiedene Meldungen, die dieselbe Person oder denselben Tumor betreffen, als solche zu erkennen und aus allen zur Verfügung stehenden Informationen einen zur Auswertung möglichst validen Datensatz zu erstellen. Die Zuordnung wird dadurch erschwert, daß alle personenidentifizierenden Daten nur in chiffrierter Form zur Verfügung stehen. Bei Umsetzung einiger Standardisierungen vor der Chiffrierung der Daten führt dies jedoch bei geeigneten Zuordnungsverfahren zu akzeptablen Fehlerraten bei der Zuordnung [12].

Im Krebsregister Rheinland-Pfalz wurden daher Verfahren und Werkzeuge für eine qualitativ gute und einfach handhabbare Meldungszuordnung entwickelt.

Abgleich der Meldungen

Anwendung von Automatch
Abbildung 7: Anwendung von Automatch

Neue Meldungen aus der Vertrauensstelle werden regelmäßig in die Datenbank der Registerstelle übertragen und mit dem Status "Neu" gekennzeichnet. Für die Automatch-Läufe werden alle relevanten Attribute in zwei Textdateien - abhängig vom Status ("Neu" - alle anderen) - übertragen.

Zur Erkennung der zu einer Person gehörenden Meldungen werden nacheinander acht Durchläufe mit unterschiedlichen Blockvariablen durchgeführt. Blockvariablen sind Merkmale, nach denen die Meldungen vor dem Vergleich sortiert werden. Anschließend werden nur Datensätze verglichen, die in diesen Blockvariablen übereinstimmen. Es sind mehrere Durchläufe nötig, um auch zusammengehörende Datensätze zu finden, die in einer der Blockvariablen nicht übereinstimmen. In jedem Durchlauf werden zunächst die neuen Meldungen auf Duplikate geprüft ("Unduplicate"), dann werden die neuen Meldungen mit den alten Daten abgeglichen ("Matchlauf"). Die Ergebnisse aus "Unduplicate" und Matchlauf mit jeweils identischen Blockvariablen werden zusammengeführt; im Anschluß daran erfolgt die manuelle Nachbearbeitung der Gruppen potentiell zusammengehörender Datensätze (Matchgruppen) im Nachbearbeitungssystem.

Nachbearbeitung

Erstellen der Nachbearbeitungs-Datenbank
Erstellung der Nachbearbeitungsdatenbank
Abbildung 8: Erstellung der Nachbearbeitungsdatenbank
Erzeugen von Pseudoausprägungen
Abbildung 9: Erzeugen von Pseudoausprägungen

Bearbeitung im Meldungszuordnungsprogramm

Die Meldungen einer Matchgruppe werden in Tabellenform zeilenweise angezeigt. Wegen der verwendeten etwa 50 Attribute ist diese Tabelle horizontal verschiebbar. Zur leichteren Positionierung auf die Spalten mit Personendaten, epidemiologischen Daten und sonstigen Informationen sind unter der Bildlaufleiste zusätzlich Schaltflächen vorhanden. In den Tabellen werden Spalten mit übereinstimmenden Werten grau hinterlegt, die anderen Spalten weiß. Zur Markierung einzelner Zeilen können Lineale vom unteren Rand der Tabelle auf eine Zeile geschoben werden. Die Bedienung erfolgt durchgängig mit der Maus. Kontextsensitive Hilfen und hinterlegte Tabellen zu ICD, Histologie und Lokalisation stehen zur Unterstützung auf Mausklick zur Verfügung.
Personenzuordnung
In der Spalte "Person" werden alle Meldungen markiert, die zu einer Person gehören. Durch Betätigen des Schalters "Person zuordnen" wird in einer Tabelle "Beste Information zur Person" ein Best-Of-Datensatz angelegt. Als Best-Of-Information eines Attributs zur Person kann hier die mehrheitlich genannte Ausprägung, beispielsweise des Geburtsdatums, als die vermutlich beste Information angesehen werden. Alle in den zusammengeführten Datensätzen übereinstimmenden Merkmale werden automatisch in diesen Best-Of-Datensatz übernommen. Weiße Hinterlegung hebt eventuell noch fehlende Informationen in der Tabelle hervor. Durch Doppelklicken auf das entsprechende Feld in der Meldungstabelle kann manuell ein Wert eingetragen werden.

In der Meldungstabelle kennzeichnet ein farbiges Symbol in der Spalte "Person" alle schon zugeordneten Datensätze, ein Symbol in gleicher Farbe markiert den zugehörigen Datensatz in der Tabelle "Beste Information Person".

Tumorzuordnung
Tumorzuordnung
Abbildung 10: Alle Meldungen sind einer Person zugeordnet. Meldungen 1 und 3 betreffen einen Tumor, Meldungen 2 und 4 sind zur Zuordnung zu einen zweiten Tumor markiert.

Die Zuordnung mehrerer Meldungen zu einem Tumor erfolgt in ähnlicher Weise wie die Personenzuordnung und erstellt einen Datensatz in der Tabelle "Beste Information zum Tumor". Hier kann eine Best-Of-Regel lauten, daß vermutlich die Information zu einem Tumor vom Pathologen präziser sein wird als die Einweisungsdiagnose des Hausarztes. Auch hier werden eindeutige Ausprägungen automatisch in den Best-Of-Datensatz übernommen, nicht eindeutige Werte können durch Doppelklicken übernommen werden. In einigen Feldern kann in den Best-Of-Informationen zum Tumor auch ein Editieren nötig sein. Zur Vermeidung von Fehlern bei der manuellen Eingabe von Werten greift das Programm auf eine Plausibilitäten-Datenbank zu und verhindert die Eingabe bei Plausibilitätsfehlern.

Kann bei einer Meldung oder einer Gruppe von Meldungen keine Entscheidung über die Zuordnung getroffen werden, dann besteht die Möglichkeit der Eingabe von Notizen zur späteren Bearbeitung oder zur Weitergabe an die Vertrauensstelle, welche die Meldung überprüfen oder durch Nachfrage beim meldenden Arzt korrigieren kann.

Weiterbearbeitung
Die getroffenen Zuordnungen und eine Statusinformation werden nach Abschluß aller Matchdurchläufe in die Registerdatenbank zurückgeschrieben.
Erfahrungen
Die Meldungszuordnung nach dem beschriebenen Modell ist in Paradox für Windows 7.0 realisiert und wird im Krebsregister Rheinland-Pfalz seit Mitte 1995 eingesetzt. Das System hat sich in dieser Zeit sehr gut bewährt. Durchgeführte Vergleiche in der Bearbeitung derselben Daten im Klartext auf ausgedruckten Listen und in kryptographierter Form im vorgestellten System zeigten vernachlässigbar geringe Unterschiede bei der Zuordnung, jedoch deutliche Komfort- und Geschwindigkeitsvorteile für das beschriebene System.
Ausblick
Nach der Festlegung verbindlicher Regeln für die Erzeugung der Best-Of-Datensätze ist der Ausbau der Module zur automatischen Generierung der Best-Of-Attribute geplant.

5.3 * Kontrollnummern und Chiffrierung

Das Treuhandmodell sieht an mehreren Stellen das Chiffrieren von Daten vor. Der Eingriff in die "informationelle Selbstbestimmung" der Patienten wird so minimiert. Für die alltägliche Arbeit des Krebsregisters wird die Information, welche Personen an Krebs erkrankt sind, nicht benötigt. Es genügt, entscheiden zu können, ob eine neu eingegangene Meldung zu einer bereits registrierten Person gehört. Zu diesem Zweck werden aus den Identitätsdaten durch Chiffrieren Kontrollnummern gebildet.

Die neu eingegangenen Datensätze werden anhand der Kontrollnummern und einiger im Klartext vorliegender Merkmale wie Geschlecht, Wohnort, Geburtsmonat und -jahr mit dem in der Registerstelle vorhandenen Bestand abgeglichen.

5.3.1 * Vertrauensstelle

Die Kontrollnummern müssen so beschaffen sein, daß auch bei Fehlern in einzelnen Merkmalen Datensätze zu einer Person zusammengeführt werden können. Daher werden mehrteilige Namen und Vornamen in drei Teile zerlegt, so daß auch eine partielle Übereinstimmung erkannt werden kann. Aus diesen Teilen werden standardisierte Namen gebildet, aus denen wiederum phonetische Codes (Kölner Phonetik [8]) erzeugt werden. Phonetische Codes bilden ähnlich klingende Namen auf dieselbe Zeichenkette ab und können so Übertragungsfehler zum Teil kompensieren. Titel werden in zwei Teile zerlegt. Die Zerlegung und Standardisierung ist in Abbildung 11 illustriert, der phonetische Code in Abbildung 12.
Namenszerlegung und Standardisierung
Abbildung 11: Namenszerlegung und Standardisierung

Phonetischer Code
Abbildung 12: Phonetischer Code

Jedes dieser Attribute wird zuerst mit dem Einwegverfahren MD5, dann mit dem symmetrischen IDEA-Verfahren chiffriert. (Für Einzelheiten der verwendeten Chiffrierverfahren wird auf die kryptographische Literatur verwiesen, z. B. [10].) Ebenso wird mit dem Geburtstag und dem DDR-Namenscode verfahren. Außerdem werden die Kontrollnummern, die im Krebsregister Baden-Württemberg verwendet werden, erzeugt. So ergeben sich die Kontrollnummern im "Abgleichformat" ("Linkage Format"), in dieser Form kann mit den Kontrollnummern abgeglichen werden. Der DDR-Code und die Kontrollnummern aus Baden-Württemberg wurden aufgenommen, um Abgleiche mit dem Altbestand des gemeinsamen Krebsregisters der neuen Bundesländer und mit dem Krebsregister Baden-Württemberg zu ermöglichen.

Die Attribute, aus denen die Kontrollnummern erzeugt werden, sind in Tabelle 4 aufgeführt.

A1,...,A3  Name, drei Komponenten
A4,...,A6  Vorname, drei Komponenten
A7,...,A9  Geburtsname, drei Komponenten
A10,...,A12  früherer Name, drei Komponenten
A13 Geburtstag 
A14 DDR-Namenscode 
A15 phonetischer Code "standardisierter" Name 
A16 phonetischer Code "standardisierter" Vorname 
A17 phonetischer Code "standardisierter" Geburtsname 
A18 phonetischer Code "standardisierter" früherer Name 
A19, A20  Titel, zwei Komponenten
A21, A22  zwei Kontrollnummern aus Baden-Württemberg, basierend auf drei Zeichen Vorname, drei Zeichen Name, vollständiges Geburtsdatum bzw. drei Zeichen Vorname, drei Zeichen Geburtsname, vollständiges Geburtsdatum. 
Tabelle 4: Attribute für Kontrollnummern

Das oben beschriebene Verfahren entspricht den Empfehlungen, die aufbauend auf Untersuchungen im Krebsregister Rheinland-Pfalz gemeinsam mit einer Arbeitsgruppe in Oldenburg erarbeitet [1] wurden. So wird gewährleistet, daß ein Abgleich zwischen verschiedenen Bundesländern und mit der Dachdokumentation Krebs am Robert-Koch-Institut möglich ist.

Für Studien oder spezielle Nachfragen muß es grundsätzlich möglich bleiben, die Identitätsdaten im Klartext wiederherzustellen. Um dies zu erreichen, werden die gesamten Identitätsdaten mit einem asymmetrischen Verfahren chiffriert. Bei asymmetrischer Chiffrierung werden zwei Schlüssel eingesetzt, einer zum Verschlüsseln, einer zum Entschlüsseln. Der Schlüssel zum Entschlüsseln wird außerhalb des Krebsregisters beim Daten- und Informationszentrum Rheinland-Pfalz hinterlegt, so daß nur in definierten Ausnahmefällen und unter Kontrolle Identitätsdaten dechiffriert werden können.

Das im Krebsregister Rheinland-Pfalz eingesetzte asymmetrische Verfahren ist eine hybride IDEA-RSA-Chiffrierung. Dabei werden die Identitätsdaten mit dem symmetrischen IDEA-Verfahren chiffriert, der hierfür je Sitzung nach einem Zufallsverfahren erzeugte IDEA-Schlüssel wird mit dem "öffentlichen" Schlüssel RSA-chiffriert und mit den chiffrierten Identitätsdaten abgelegt. Die konkrete Umsetzung beruht auf dem Programm PGP (Pretty Good Privacy, Philip Zimmermann).

Chiffrierung im KrebsregisterChiffrierung im Krebsregister
Abbildung 13: Chiffrierung im Krebsregister

5.3.2 * Registerstelle

Nach dem Abgleich in der Registerstelle werden die Kontrollnummern KN1, ..., KN22 vor der permanenten Abspeicherung in der Datenbank nochmals, ergänzt um eine Zufallszahl x, zusammen symmetrisch chiffriert (IDEA). Als Ergebnis erhält man den Schlüsseltext im "Speicherformat" ("Storage Format"), in dem die Kontrollnummern in der Registerstelle dauerhaft gespeichert werden. Die Kontrollnummern sind meldungsbezogen und werden in einer separaten Relation abgelegt. Der dabei verwendete IDEA-Schlüssel (IDEA-RST) ist unabhängig von dem IDEA-Schlüssel der Vertrauensstelle (IDEA-VST) und nur in der Registerstelle bekannt. Die Zufallszahl dient dem Schutz vor einer Probechiffrierung von Kontrollnummern. Selbst wenn zwei Datensätze zu einer Person völlig übereinstimmende Identitätsdaten enthalten, unterscheiden sich die Kontrollnummern im Speicherformat.

Wenn neue Meldungen aus der Vertrauensstelle mit dem Bestand in der Registerstelle abgeglichen werden sollen, wird die letzte IDEA-Chiffrierung rückgängig gemacht. Die Kontrollnummern stehen dann für die Dauer des Abgleichs im "Abgleichformat" zur Verfügung.

Das ganze Chiffrierverfahren ist in Abbildung 13 illustriert.

5.3.3 * Sicherheitsaspekte

Im folgenden werden ausschließlich Maßnahmen zur Gewährleistung der Vertraulichkeit beschrieben. Diese sind Bestandteile eines umfassenden Konzeptes zur Gewährleistung der Datensicherheit. Vorarbeiten wurden gemeinsam mit dem BSI bereits begonnen. Die oben beschriebenen Verfahren gewährleisten folgende Sicherheitsaspekte:
  • Eine Wiederherstellung der Identitätsdaten aus den Kontrollnummern ist wegen des nicht umkehrbaren MD5-Verfahrens nicht möglich.
  • Ein statistischer Angriff ist nur möglich, wenn ein potentieller Angreifer über die Daten im Abgleichformat oder im Speicherformat zusammen mit dem zugehörigen Schlüssel (IDEA-RST) verfügt. Eine Probechiffrierung ist möglich, falls der Angreifer zusätzlich über den Schlüssel IDEA-VST verfügt. Die Daten liegen jedoch nur kurze Zeit im Abgleichformat" vor, so daß ein erfolgreicher Angriff unwahrscheinlich ist.
  • Darüber hinaus wird mit organisatorischen Maßnahmen die Gefahr einer Probechiffrierung oder eines statistischen Angriffs noch weiter verringert. Die IDEA-Schlüssel von Vertrauensstelle und Registerstelle werden sicher verwahrt. Ein Schlüsselwechsel in gewissen Zeitabständen bietet zusätzliche Sicherheit dagegen, daß Schlüssel rechtswidrig Unbefugten bekannt werden. Während der Durchführung des Abgleichs der neuen Meldungen und Todesbescheinigungen in der Registerstelle ist besonders sorgfältig darauf zu achten, daß kein Unbefugter Zugang zu den Daten hat. Die Daten müssen für die Weitergabe von der Vertrauensstelle an die Registerstelle zusätzlich geschützt werden, z. B. durch Überchiffrieren aller Dateien. Bei der Rückgabe der Daten an die Vertrauensstelle vor einem registerübergreifenden Abgleich und bei der Weitergabe an die Vertrauensstelle eines kooperierenden Registers sind die Daten ebenfalls zusätzlich zu schützen.

    Seitenanfang vorheriges Kapitel nächstes Kapitel Bericht Inhaltsverzeichnis Startseite
    Webmaster: seebauer@mail.uni-mainz.de (08.02.98)