5 * Technische Details
5.1 * Konzept
5.1.1 Allgemeines Modell für die
Krebsregistrierung
Abbildung 3: Allgemeines Modell für die
Krebsregistrierung
Da ein Patient in der Regel im Verlauf von Diagnose, Therapie und Nachsorge mit
mehreren verschiedenen Ärzten Kontakt hat, die allesamt meldeberechtigt sind, sind
im epidemiologischen Krebsregister auch mehrere Meldungen zur selben Tumorerkrankung zu
erwarten.
Modelliert man diesen Sachverhalt für ein Entity-Relationship-Diagramm
(ER-Diagramm), so ergibt sich zwischen den Entitäten 'Tumor' und 'Meldung' eine
Beziehung vom Typ 1:n. Da ferner ein Patient im Laufe seines Lebens an mehreren Tumoren
erkranken kann, ergibt sich im Modell eine weitere 1:n-Beziehung zwischen den
Entitäten 'Person' und 'Tumor', so daß insgesamt eine Hierarchie dieser drei
Entitäten besteht (siehe Abbildung 3). In Worten ausgedrückt: ein Patient
kann an 1 bis n Tumoren erkranken, jeder dieser Tumore kann 1 bis n-mal gemeldet werden
(n kann in beiden Zusammenhängen für unterschiedliche Zahlen stehen). Daraus
ergibt sich eine Hierarchie patienten-, tumor- und meldungsbezogener Information.
Meldungsbezogene Information charakterisiert eine Meldung und kann sogar zwischen
mehreren Meldungen zur selben Erkrankung desselben Patienten differieren.
Meldungsbezogen sind demnach alle Originalangaben des Meldebogens zum Patienten und
seiner Erkrankung sowie die administrativen Daten des Meldevorgangs. Tumorbezogene
Information sind die Angaben zur Erkrankung, z. B. das Datum der Diagnosenstellung, der
Diagnosecode nach ICD-10 oder das Stadium der Erkrankung. Aufgrund der
Mehrfachmeldungen liegen sie n-mal im Register vor, müssen aber nicht
zwangsläufig übereinstimmen. Tumorbezogene Information sind demnach nicht die
Originalangaben des Meldebogens, sondern die aus allen Meldebögen extrahierte
beste Information zur gleichen Erkrankung. In der Praxis kann sich die tumorbezogene
Information beispielsweise zusammensetzen aus der Originalangabe des Pathologen zur
Tumorhistologie und den Originalangaben des Hausarztes zum derzeit ausgeübten
Beruf. Die patientenbezogene Information wie z. B. das Geburtsdatum oder das Geschlecht
des Patienten wird aus allen Originalangaben aller Meldebögen zum Patienten
selektiert. Die patientenbezogene Information charakterisiert den Patienten, ist also
unabhängig von der Erkrankung.
Die Auftrennung des Krebsregisters in eine Vertrauensstelle und eine Registerstelle,
wobei jeder Stelle spezifische Arbeitsprozesse zugeordnet sind, verlangt die Anpassung
des allgemeinen Modells mit zwei getrennten ER-Diagrammen, deren Entitäten und
ihre Beziehungen untereinander bereits im konzeptuellen Schritt getrennt voneinander
analysiert werden müssen. Die ER-Diagramme werden in der sogenannten
(1,c,m)-Notation entwickelt.
5.2 * Vertrauensstelle
Folgende Besonderheiten der Arbeitsprozesse in der Vertrauensstelle beeinflussen den
Entwurf einer Datenbank:
- Die Datenbank der Vertrauensstelle ist eine temporäre Sammelstelle für
Meldungen, bis diese in der Registerstelle einem Patienten zugeordnet werden konnten.
Die Vertrauensstelle hat deshalb nicht die Möglichkeit zu entscheiden, ob die
gerade erfaßte Meldung oder Todesbescheinigung zu einem dem Register bereits
bekannten Patienten gehört.
- Der gemeinsame Meldebogen für das epidemiologische Krebsregister und die
Nachsorge wird auch mit einem gemeinsamen Erfassungsprogramm erfaßt und erst nach
der Eingabe getrennt. In der Vertrauensstelle wird somit auch nachsorgespezifische
Information erfaßt, die nicht an die Registerstelle des Krebsregisters
weitergegeben wird.
- Auf dem Meldebogen ist auch Raum für Angaben zum Tod des Patienten. Diese
Sterbeinformation wird separat betrachtet, da sie nur für einen geringen Anteil
aller Meldungen vorliegt.
- In der Vertrauensstelle werden diejenigen Todesbescheinigungen und
Obduktionsscheine erfaßt, auf denen eine Tumorerkrankung als Grundleiden oder
Begleiterkrankung eingetragen ist.
Punkt 1 führt dazu, daß die Entitäten 'Person' und 'Tumor' des
allgemeinen Modells im ER-Diagramm der Vertrauensstelle nicht existieren. Punkt 2
erfordert die Definition einer Entität 'Nachsorge', in der die
nachsorgespezifische Information abgelegt ist. Für Meldungen, die
ausschließlich an das Krebsregister adressiert sind, gibt es keine
Nachsorgeinformation, so daß zwischen den Entitäten 'Meldung' und
'Nachsorge' eine Beziehung vom Typ 1:c besteht, d. h. zu jeder Meldung gibt es
höchstens eine nachsorgespezifische Information. Ebenso verhält es sich mit
der Information zu einem Sterbefall (Punkt 3), die nur dann ausgefüllt ist, wenn
der Patient auch verstorben ist und der meldende Arzt davon Kenntnis hatte. Punkt 4
führt die Todesbescheinigungen und Obduktionsscheine als eigene Entität ein
('Totenschein'). Das ER-Diagramm für die Vertrauensstelle ist in Abbildung 4
dargestellt.

Abbildung 4: ER-Diagramm für die Vertrauensstelle
Außer den Daten der Meldung werden in der Vertrauensstelle die Daten des
Melders (Entität 'Arzt') vorgehalten, die zwar ebenfalls auf dem Meldebogen
angegeben sind, aber nur bei der ersten Meldung dieses Melders erfaßt werden. Die
Beziehung zwischen den Entitäten 'Meldung' und 'Arzt' ist 1:mc, da zu einem
aktuellen Zustand der temporären Datenbank der Vertrauensstelle nicht zu jedem
erfaßten Arzt auch zugeordnete Meldungen gespeichert sein müssen. Jeder Arzt
ist einer Institution zugeordnet (z. B. Krankenhausabteilung, Praxis, pathologisches
Institut, Gesundheitsamt), während aus derselben Institution mehrere Ärzte
melden können. Diese sind allerdings möglicherweise durch eigene
Telefonnummern (für Rückfragen) oder eigene Bankverbindungen (für die
Vergütung der Meldung) charakterisiert. Bei der Beobachtung des Meldeverhaltens
ist jedoch die Entität 'Institution' wichtig. Ausnahmsweise kann ein Arzt auch
zwei Institutionen zugeordnet sein (z. B. Belegarzt im Krankenhaus mit eigener Praxis).
Solche doppelten Meldeaktivitäten desselben Arztes kann das Krebsregister nicht
systematisch erkennen, so daß im ER-Diagramm eine 1:m-Beziehung modelliert
wurde.
Das ER-Diagramm der Vertrauensstelle wurde in eine relationale Datenbank umgesetzt,
wobei sich für jede Entität des Diagramms eine Relation der Datenbank ergab.
Primärschlüssel der Relationen 'Meldung', 'Nachsorge' und 'Sterbefall' wurde
eine fortlaufende Nummer der Meldung, die sich aus einer fünfstelligen laufenden
Nummer eines Eingangsjahres, dem vierstelligen Eingangsjahr und einer Prüfziffer
zusammensetzt. Sie wird vom Erfassungsprogramm generiert. Auch die Todesbescheinigungen
und Obduktionsscheine erhalten eine fortlaufende Nummer aus diesem Mechanismus. Eine
Institution wird über eine vierstellige Ziffer identifiziert, der
Primärschlüssel der Relation 'Arzt' setzt sich aus dem
Primärschlüssel der zugeordneten Institution und einer zweistelligen
laufenden Nummer des meldenden Arztes zusammen. Die Attributierung der Relationen
stimmt mit einer Ausnahme für Vertrauensstelle und Registerstelle überein. In
der Relation 'Meldung' der Vertrauensstelle sind die Attribute Nachname, Vorname,
Geburtsname, früherer Name, Straße, Postleitzahl, Wohnort, Geburtsdatum und
Diagnosedatum enthalten. Vor der Übertragung in die Registerstelle werden diese zu
den sogenannten Kontrollnummern chiffriert (siehe 5.3) und die
Attribute Geburtsmonat, Geburtsjahr, Diagnosemonat, Diagnosejahr, Alter zum Zeitpunkt
der Diagnosenstellung in Monaten und die Gemeindekennziffer generiert.
5.1.3 * Registerstelle
Folgende Besonderheiten der Arbeitsprozesse in der Registerstelle beeinflussen den
Entwurf einer Datenbank:
- In der Registerstelle wird beim Zusammenführen der Meldungsdatensätze
entschieden, ob eine Meldung zu einem dem Register bereits gemeldeten Patienten
gehört.
- In der Registerstelle werden Meldungsdatensätze mit Datensätzen von
Todesbescheinigungen und Obduktionsscheine zusammengeführt. Da möglicherweise
auch bereits auf der Meldung Angaben zum Tod des Patienten gemacht wurden, kann es
sein, daß das Register aus verschiedenen Datenquellen Kenntnis über den Tod
des Patienten erhält.
- In manchen Fällen hat das Krebsregister Angaben zur Erkrankung des Patienten
allein über Todesbescheinigung oder Obduktionsschein erhalten (DCO-Fälle).
Das heißt, es gibt zur Erkrankung des Patienten keinen Meldungsdatensatz sondern
ausschließlich einen Datensatz einer Todesbescheinigung oder eines
Obduktionsscheins.
Punkt 1 folgend wird das allgemeine Modell für die Krebsregistrierung (siehe 5.1.1) das Grundgerüst des ER-Diagramms der Registerstelle.
Eine ähnliche Hierarchie ergibt sich Punkt 2 zufolge für die Information
über den Tod des Patienten. Diese kann über eine Todesbescheinigung oder
einen Obduktionsschein erfolgen oder über einen Meldebogen zur Krebserkrankung.
Ähnlich wie aus Mehrfachmeldungen die beste Information zur Erkrankung extrahiert
wird, müssen aus der Sterbeinformation von Todesbescheinigung, Meldebogen und ggf.
Obduktionsschein die validesten Angaben selektiert werden. Demzufolge wird eine
Entität 'Sterbemeldung' für die Originalangaben und eine Entität
'Sterbeinfo' für die verläßlichste Information über den Tod des
Patienten definiert, die Beziehung zwischen den Entitäten ist vom Typ 1:m. Punkt 3
beschreibt DCO-Fälle. Diese werden in das Modell eingefügt, indem als
Beziehung zwischen den Entitäten 'Tumor' und 'Meldung' 1:mc festgelegt wird, d. h.
es gibt Objekte in 'Tumor' ohne Beziehung zu Objekten in 'Meldung', nämlich genau
dann, wenn ausschließlich eine Beziehung zu einem Objekt in 'Sterbemeldung' (und
zwar einer Todesbescheinigung oder einem Obduktionsschein) existiert. Der Vorteil
dieser Modellierung ist es, daß die Entität 'Tumor' alle Objekte vom Typ
Tumor enthält, unabhängig davon, ob es sich um eine gemeldete Erkrankung oder
einen DCO-Fall handelt. Das ER-Diagramm für die Registerstelle ist in Abbildung 5
dargestellt.

Abbildung 5: ER-Diagramm für die
Registerstelle
Das ER-Diagramm der Registerstelle wurde in ein relationales Datenbankschema
umgesetzt. Hierbei wurden die Entitäten 'Tumor', 'Meldung', 'Arzt', 'Institution'
und 'Sterbemeldung' zu Relationen, die Entitäten 'Person' und 'Sterbeinfo' wurden
in eine gemeinsame Relation 'Person' umgesetzt. Grund hierfür war, daß
aufgrund der Speicherung von Krebspatienten über mehrere Jahrzehnte zu dem
größeren Anteil der Personen auch Angaben über deren Versterben
vorliegen.
| Relation |
Primärschlüssel |
Fremdschlüssel |
| Person |
Person-ID |
- |
| Tumor |
Tumor-ID |
Person-ID |
| Meldung |
fortlaufende Nummer |
Tumor-ID
Arzt-ID |
| Sterbemeldung |
fortlaufende Nummer |
Person-ID
Arzt-ID |
| Arzt |
Arzt-ID |
Institutions-ID |
| Institution |
Institutions-ID |
- |
Tabelle 1: Primär- und Fremdschlüssel der Relationen der Datenbank
der Registerstelle
Tabelle 1 verdeutlicht die Verweisstruktur und die Zusammenhänge der Relationen
in der Datenbank. Für jede Relation werden die Primärschlüssel und die
Fremdschlüssel dargestellt. Die Primärschlüssel der Relationen 'Person'
und 'Tumor' werden als laufende Nummern in der Registerstelle generiert, die
Ausprägungen der Primärschlüssel der anderen Relationen wurden bereits
in der Vertrauensstelle erzeugt.
Bei der Attributierung muß für jedes epidemiologische Merkmal entschieden
werden, ob es personenbezogen, tumorbezogen oder meldungsbezogen ist. Grundlegend
ergibt sich folgende Einteilung:
- personenbezogen: zeit- und erkrankungsunabhängige Angaben, Angaben zum Tod des
Patienten
- tumorbezogen: erkrankungsabhängige Angaben, zeitlich veränderliche
personenbezogene Angaben
- meldungsbezogen: Originalangaben zur Person und Tumor, administrative Daten zur
Meldung
Die Einteilung für die meisten Merkmale ergibt sich zwangsläufig, nur die
Gruppe der zeitlich veränderlichen personenbezogenen Angaben stellt einen
Sonderfall dar. Hierzu gehört zum einen die Gemeindekennziffer, da für die
regionale Gesundheitsmonitoringfunktion des Krebsregisters nicht die aktuelle Adresse
des Patienten sondern vielmehr der Wohnort zum Zeitpunkt der Erkrankung von Interesse
ist. Auch die Angaben zur Tätigkeitsanamnese sind tumorbezogen, da sowohl der
aktuelle als auch der am längsten ausgeübte Beruf sich von der Diagnose eines
ersten Tumors bis zur Diagnose eines Zweittumors geändert haben kann.
Aus dem Datenbankschema ausgeklammert sind die chiffrierten Personendaten. Auf deren
Verarbeitung und Speicherung wird in 5.3 eingegangen. Die aus den
Personendaten gebildeten Kontrollnummern sind meldungsbezogen, da sie nach der
Löschung der Meldung in der Vertrauensstelle unveränderlich sind.
Bei der Umsetzung des ER-Diagramms in eine relationale Datenbank wurde darauf
geachtet, die Datenbank für Routineanfragen so zu gestalten, daß diese mit
einfachen SQL-Anfragen vor allem ohne Kenntnisse von speziellem "Insider"-Wissen
über die Datendefinition und -haltung zu beantworten sind. Personen-, tumor- und
meldungsbezogene Anfragen sind über jeweils eine einzige Relation
möglich.
Die Erfahrungen der Pilotphase haben gezeigt, daß die Wahl, die Datenhaltung
der Registerstelle in einem relationalen Datenmodell abzubilden, als gelungen
betrachtet werden kann. Die Eindeutigkeit der Primärschlüssel erlaubt
gleichzeitig die häufig benötigte Zählung von sowohl Personen als auch
Tumorerkrankungen oder Meldungen. Die Normalisierung wahrt durch die Redundanzfreiheit
die Konsistenz der Datenbank, ohne daß in diesem speziellen Anwendungsfall die
oft im Rahmen der Normalisierung auftretende Unübersichtlichkeit der
Datenbankstruktur eingetreten ist. Dies zeichnete sich aufgrund der 1:n-Beziehungen
bereits bei der Entwicklung des allgemeinen Modells (vergl.
5.1.1) ab. Die Datenbankkonsistenz wird ferner durch referentielle
Integritäten unterstützt, so kann z. B. die Meldequelle einer Meldung nicht
"verloren" gehen. Die Umsetzung der Verarbeitung von Meldungen auf Basis der
Datenbankschemata wird in 5.2 beschrieben.
5.2 * Realisierung
Das in 5.1 erläuterte Konzept ist im relationalen
Datenbanksystem Paradox für Windows 7.0 realisiert. Das in der Pilotphase des
Krebsregisters verwendete Datenbanksystem Ingres unter IBM AIX wurde aus Kosten- und
Komplexitätsgründen sukzessive ersetzt.
Die Datenhaltung im beschriebenen relationalen Modell stellt weitgehend die
Konsistenz und Pflegbarkeit der Daten sicher. Die praktische Umsetzung erfordert
weitere Maßnahmen, um die erforderliche Datenqualität zu erreichen sowie
angenehmes und ergonomische Arbeiten zu ermöglichen. Auf zwei Werkzeuge soll hier
näher eingegangen werden.
5.2.1 * Qualitätssicherung durch
Plausibilitätsprüfungen
Die Sicherung der Datenqualität ist im gesamten Bereich der Meldungsbearbeitung im
Krebsregister von besonderer Bedeutung. Die Verarbeitung von kryptographierten Daten im
Krebsregister erfordert die Erkennung und Behebung von Fehlern in den erhobenen Daten
möglichst innerhalb der Zeit, in der noch Klartextdaten verfügbar sind
(maximal drei Monate), spätere Korrektur ist nahezu unmöglich. Die Erfassung
der Daten aus den verschiedenen Meldewegen mit verschiedenen Programmen, aber auch
spätere Bearbeitungsschritte wie die Erstellung der "Best-of"-Information aus
Mehrfachmeldungen, bei denen jeweils weitgehend die gleichen Anforderungen zu stellen
sind, erfordern komfortable und effiziente Prüfmodule.
Bei der Übertragung der Daten vom Meldebogen in den PC können durch
Ablese-, Codier- oder Eingabefehler in den etwa 35 erfaßten Merkmalen sehr viele
Meldungen verfälscht werden. Die geeignete und vollständige Prüfung der
Daten bei der Erfassung bei den EDV-Meldern kann nicht vorausgesetzt werden, daher
stellen sich für die Übernahme der Daten in die Datenbank des Registers
grundsätzlich die gleichen Prüfanforderungen. Die Prüfungen
unterscheiden sich nur im Zeitpunkt der Anwendung, womit sich jedoch das Vorgehen bei
der Prüfung unterscheidet. Bei der manuellen Eingabe kann direkt bei der Erfassung
eines Attributes eine Reaktion durch Sperren der Eingabe oder eine Warnung erfolgen,
bei im Batchbetrieb hinzugefügten EDV-Meldungen müssen Fehlerlisten erstellt
werden.
Das entwickelte Programm zur Plausibilitätsprüfung erfüllt folgende
Anforderungen:
- Wartbarkeit und Erweiterbarkeit der Prüfungen aufgrund neuen Wissens oder
neuer Erfahrungen,
- Anpassung der Prüfungen bei Schlüsselwechsel (z. B. ICD, ICD-O),
- abgestufte Reaktion auf Fehler (Verhindern der Speicherung) oder Warnung bei
ungewöhnlichen Merkmalskombinationen,
- Anpassung an verschiedene Arbeitsprozesse mit unterschiedlichen Anforderungen
bezüglich der Feldkombinationen der geprüften Felder,
- Prüfung auf Übereinstimmung mit den Werten in
Ausprägungslisten,
- Konfiguration für Online- und Batchbetrieb.
Die Prüfungen werden in einer Datenbank abgelegt. Alle zu prüfenden Werte
werden als Strings in der Datenbank gespeichert. Durch einen Eintrag in der
Konfigurationsdatei kann jedoch der Vergleich von Variablen auch als numerischer Wert
oder als Datumswert erfolgen. Die Zahl der gegeneinander zu prüfenden Felder wird
auf drei begrenzt.
Die Datenbank besteht aus zwei Tabellen:
Tabelle "Gruppen"
Diese Tabelle bezeichnet alle Felder einer Prüfung.
Plausibilitätsprüfungen können zwei oder drei Felder in die Prüfung
einbeziehen.
| Gruppe |
Name |
Feld 1 |
Feld 2 |
Feld 3 |
| 1 |
Geschlecht-ICD |
Geschlecht |
ICD |
|
| |
... |
|
|
|
| 16 |
ICD-Alter |
ICD |
Alter |
|
| 17 |
Geschlecht-Histologie |
Geschlecht |
Histologie |
|
| 18 |
Alter-Histologie-ICD |
Alter |
Histologie |
ICD |
| |
... |
|
|
|
Tabelle 2: Beispieldatensätze der Tabelle Gruppen
Tabelle "Prüfungen"
Diese Tabelle enthält für die beteiligten Felder die Zahl der zu
berücksichtigenden Stellen, Ausprägungen, den Fehlerstatus. Pro Feld kann die
Zahl der in die Prüfung einzubeziehenden Stellen, gegebenenfalls auch die letzten
Stellen des Wertes und ein Vergleichsoperator (gleich, ungleich, größer
gleich, kleiner gleich, zwischen und nicht zwischen, außerdem Bedingung Feld 1
und Feld 2 identisch), angegeben werden. Ein Beispiel wird in Tabelle 3 erläutert.
| Gruppe |
ID |
Feld |
Stellen |
Operator |
Wert 1 |
Wert 2 |
Fehlerstatus |
| ... |
|
|
|
|
|
|
|
| 16 |
67 |
Alter |
0 |
..][.. |
15 |
45 |
Fehler |
| |
|
Histologie |
4 |
= |
9100 |
|
|
| |
|
ICD |
3 |
= |
C58 |
|
|
| ... |
|
|
|
|
|
|
|
| 18 |
39 |
ICD |
3 |
[..] |
C54 |
C55 |
Warnung |
| |
|
Alter |
0 |
<= |
5 |
|
|
| ... |
|
|
|
|
|
|
|
Tabelle 3: Beispiele von Plausibilitätsprüfungen zu den Gruppen aus
Tabelle 2
Prüfung aus Gruppe 16: Ein Chorionkarzinom (9100/3) in der Plazenta
(C58) entsteht nur im Alter zwischen 15 und 45 Jahren.
Prüfung für Gruppe 18: Eine bösartige Neubildung des Uterus (C54-C55) im
Alter unter 5 Jahren ist unwahrscheinlich.
Die Erstellung und Pflege von Prüfungen und die Konfiguration für Anwendungen
ist in einem Werkzeug "Plausibilitätenverwasltung" (siehe Abbildung 6)
zusammengefaßt. Zur Bearbeitung der Prüfungen wird ein Regeleditor
verwendet, der lokal den zur Änderung berechtigten Mitarbeitern zur Verfügung
steht. In diesem Programm können auch weitere Gruppen von Prüfungen angelegt
werden.
Abbildung 6: Regeleditor: Ein Karzinom an weiblichen
Geschlechtsorganen (ICD erste drei Stellen des ICD zwischen C51 und C58) bei Geschlecht
männlich (1) soll als Fehler erkannt werden.
Das System zur Plausibilitätsprüfung ist seit Mitte 1996 im Krebsregister
in mehreren Programmen im Einsatz und hat sich sehr gut bewährt.
5.2.2 * Meldungszuordnung
Ziel der Meldungszuordnung ist es, verschiedene Meldungen, die dieselbe Person oder
denselben Tumor betreffen, als solche zu erkennen und aus allen zur Verfügung
stehenden Informationen einen zur Auswertung möglichst validen Datensatz zu
erstellen. Die Zuordnung wird dadurch erschwert, daß alle
personenidentifizierenden Daten nur in chiffrierter Form zur Verfügung stehen. Bei
Umsetzung einiger Standardisierungen vor der Chiffrierung der Daten führt dies
jedoch bei geeigneten Zuordnungsverfahren zu akzeptablen Fehlerraten bei der Zuordnung
[12].
Im Krebsregister Rheinland-Pfalz wurden daher Verfahren und Werkzeuge für eine
qualitativ gute und einfach handhabbare Meldungszuordnung entwickelt.
Abgleich der Meldungen
Abbildung 7: Anwendung von Automatch
Neue Meldungen aus der Vertrauensstelle werden regelmäßig in die
Datenbank der Registerstelle übertragen und mit dem Status "Neu" gekennzeichnet.
Für die Automatch-Läufe werden alle relevanten Attribute in zwei Textdateien
- abhängig vom Status ("Neu" - alle anderen) - übertragen.
Zur Erkennung der zu einer Person gehörenden Meldungen werden nacheinander acht
Durchläufe mit unterschiedlichen Blockvariablen durchgeführt. Blockvariablen
sind Merkmale, nach denen die Meldungen vor dem Vergleich sortiert werden.
Anschließend werden nur Datensätze verglichen, die in diesen Blockvariablen
übereinstimmen. Es sind mehrere Durchläufe nötig, um auch
zusammengehörende Datensätze zu finden, die in einer der Blockvariablen nicht
übereinstimmen. In jedem Durchlauf werden zunächst die neuen Meldungen auf
Duplikate geprüft ("Unduplicate"), dann werden die neuen Meldungen mit den alten
Daten abgeglichen ("Matchlauf"). Die Ergebnisse aus "Unduplicate" und Matchlauf mit
jeweils identischen Blockvariablen werden zusammengeführt; im Anschluß daran
erfolgt die manuelle Nachbearbeitung der Gruppen potentiell zusammengehörender
Datensätze (Matchgruppen) im Nachbearbeitungssystem.
Nachbearbeitung
Erstellen der Nachbearbeitungs-Datenbank

Abbildung 8: Erstellung der Nachbearbeitungsdatenbank
- Die Gruppenzuordnungen der acht Unduplicate- und der acht Matchläufe von
Automatch werden in einer Datei zusammengefaßt.
- Aus dem gesamten Datenbestand werden alle Datensätze selektiert und zu den
Matchgruppen hinzugefügt, die mit mindestens einem der Datensätze der Gruppe
schon zusammengeführt wurden (gleiche Personen-ID).
- Alle für die Entscheidung zur Zusammenführung von Person oder Tumor
relevanten Daten der Matchgruppen werden aus der Registerdatenbank in eine
Matchdatenbank übertragen. Zur besseren Handhabung werden anstelle der
Kontrollnummern (chiffriert, 33 Zeichen Länge) innerhalb jeder Gruppe
Pseudoausprägungen (A, B, C, ...) erstellt. Hierbei werden für alle Vor- und
alle Nachnamenskomponenten die Pseudoausprägungen gemeinsam erstellt, so daß
auch eine Verdrehung der Bestandteile oder eine unterschiedliche Zuordnung bei
Geburtsname oder früherer Name erkennbar sind.

Abbildung 9: Erzeugen von Pseudoausprägungen
Bearbeitung im Meldungszuordnungsprogramm
Die Meldungen einer Matchgruppe werden in Tabellenform zeilenweise angezeigt. Wegen der
verwendeten etwa 50 Attribute ist diese Tabelle horizontal verschiebbar. Zur leichteren
Positionierung auf die Spalten mit Personendaten, epidemiologischen Daten und sonstigen
Informationen sind unter der Bildlaufleiste zusätzlich Schaltflächen
vorhanden. In den Tabellen werden Spalten mit übereinstimmenden Werten grau
hinterlegt, die anderen Spalten weiß. Zur Markierung einzelner Zeilen können
Lineale vom unteren Rand der Tabelle auf eine Zeile geschoben werden. Die Bedienung
erfolgt durchgängig mit der Maus. Kontextsensitive Hilfen und hinterlegte Tabellen
zu ICD, Histologie und Lokalisation stehen zur Unterstützung auf Mausklick zur
Verfügung.
Personenzuordnung
In der Spalte "Person" werden alle Meldungen markiert, die zu einer Person
gehören. Durch Betätigen des Schalters "Person zuordnen" wird in einer
Tabelle "Beste Information zur Person" ein Best-Of-Datensatz angelegt. Als
Best-Of-Information eines Attributs zur Person kann hier die mehrheitlich genannte
Ausprägung, beispielsweise des Geburtsdatums, als die vermutlich beste Information
angesehen werden. Alle in den zusammengeführten Datensätzen
übereinstimmenden Merkmale werden automatisch in diesen Best-Of-Datensatz
übernommen. Weiße Hinterlegung hebt eventuell noch fehlende Informationen in
der Tabelle hervor. Durch Doppelklicken auf das entsprechende Feld in der
Meldungstabelle kann manuell ein Wert eingetragen werden.
In der Meldungstabelle kennzeichnet ein farbiges Symbol in der Spalte "Person" alle
schon zugeordneten Datensätze, ein Symbol in gleicher Farbe markiert den
zugehörigen Datensatz in der Tabelle "Beste Information Person".
Tumorzuordnung

Abbildung 10: Alle Meldungen sind einer Person zugeordnet. Meldungen 1 und 3 betreffen
einen Tumor, Meldungen 2 und 4 sind zur Zuordnung zu einen zweiten Tumor
markiert.
Die Zuordnung mehrerer Meldungen zu einem Tumor erfolgt in ähnlicher Weise wie
die Personenzuordnung und erstellt einen Datensatz in der Tabelle "Beste Information
zum Tumor". Hier kann eine Best-Of-Regel lauten, daß vermutlich die Information
zu einem Tumor vom Pathologen präziser sein wird als die Einweisungsdiagnose des
Hausarztes. Auch hier werden eindeutige Ausprägungen automatisch in den
Best-Of-Datensatz übernommen, nicht eindeutige Werte können durch
Doppelklicken übernommen werden. In einigen Feldern kann in den
Best-Of-Informationen zum Tumor auch ein Editieren nötig sein. Zur Vermeidung von
Fehlern bei der manuellen Eingabe von Werten greift das Programm auf eine
Plausibilitäten-Datenbank zu und verhindert die Eingabe bei
Plausibilitätsfehlern.
Kann bei einer Meldung oder einer Gruppe von Meldungen keine Entscheidung über
die Zuordnung getroffen werden, dann besteht die Möglichkeit der Eingabe von
Notizen zur späteren Bearbeitung oder zur Weitergabe an die Vertrauensstelle,
welche die Meldung überprüfen oder durch Nachfrage beim meldenden Arzt
korrigieren kann.
Weiterbearbeitung
Die getroffenen Zuordnungen und eine Statusinformation werden nach Abschluß aller
Matchdurchläufe in die Registerdatenbank zurückgeschrieben.
Erfahrungen
Die Meldungszuordnung nach dem beschriebenen Modell ist in Paradox für Windows 7.0
realisiert und wird im Krebsregister Rheinland-Pfalz seit Mitte 1995 eingesetzt. Das
System hat sich in dieser Zeit sehr gut bewährt. Durchgeführte Vergleiche in
der Bearbeitung derselben Daten im Klartext auf ausgedruckten Listen und in
kryptographierter Form im vorgestellten System zeigten vernachlässigbar geringe
Unterschiede bei der Zuordnung, jedoch deutliche Komfort- und Geschwindigkeitsvorteile
für das beschriebene System.
Ausblick
Nach der Festlegung verbindlicher Regeln für die Erzeugung der
Best-Of-Datensätze ist der Ausbau der Module zur automatischen Generierung der
Best-Of-Attribute geplant.
5.3 * Kontrollnummern und Chiffrierung
Das Treuhandmodell sieht an mehreren Stellen das Chiffrieren von Daten vor. Der
Eingriff in die "informationelle Selbstbestimmung" der Patienten wird so minimiert.
Für die alltägliche Arbeit des Krebsregisters wird die Information, welche
Personen an Krebs erkrankt sind, nicht benötigt. Es genügt, entscheiden zu
können, ob eine neu eingegangene Meldung zu einer bereits registrierten Person
gehört. Zu diesem Zweck werden aus den Identitätsdaten durch Chiffrieren
Kontrollnummern gebildet.
Die neu eingegangenen Datensätze werden anhand der Kontrollnummern und einiger
im Klartext vorliegender Merkmale wie Geschlecht, Wohnort, Geburtsmonat und -jahr mit
dem in der Registerstelle vorhandenen Bestand abgeglichen.
5.3.1 * Vertrauensstelle
Die Kontrollnummern müssen so beschaffen sein, daß auch bei Fehlern in
einzelnen Merkmalen Datensätze zu einer Person zusammengeführt werden
können. Daher werden mehrteilige Namen und Vornamen in drei Teile zerlegt, so
daß auch eine partielle Übereinstimmung erkannt werden kann. Aus diesen
Teilen werden standardisierte Namen gebildet, aus denen wiederum phonetische Codes
(Kölner Phonetik [8]) erzeugt werden. Phonetische
Codes bilden ähnlich klingende Namen auf dieselbe Zeichenkette ab und können
so Übertragungsfehler zum Teil kompensieren. Titel werden in zwei Teile zerlegt.
Die Zerlegung und Standardisierung ist in Abbildung 11 illustriert, der phonetische
Code in Abbildung 12.

Abbildung 11: Namenszerlegung und Standardisierung

Abbildung 12: Phonetischer Code
Jedes dieser Attribute wird zuerst mit dem Einwegverfahren MD5, dann mit dem
symmetrischen IDEA-Verfahren chiffriert. (Für Einzelheiten der verwendeten
Chiffrierverfahren wird auf die kryptographische Literatur verwiesen, z. B. [10].) Ebenso wird mit dem Geburtstag und dem DDR-Namenscode
verfahren. Außerdem werden die Kontrollnummern, die im Krebsregister
Baden-Württemberg verwendet werden, erzeugt. So ergeben sich die Kontrollnummern
im "Abgleichformat" ("Linkage Format"), in dieser Form kann mit den Kontrollnummern
abgeglichen werden. Der DDR-Code und die Kontrollnummern aus Baden-Württemberg
wurden aufgenommen, um Abgleiche mit dem Altbestand des gemeinsamen Krebsregisters der
neuen Bundesländer und mit dem Krebsregister Baden-Württemberg zu
ermöglichen.
Die Attribute, aus denen die Kontrollnummern erzeugt werden, sind in Tabelle 4
aufgeführt.
| A1,...,A3 |
Name, drei Komponenten |
| A4,...,A6 |
Vorname, drei Komponenten |
| A7,...,A9 |
Geburtsname, drei Komponenten |
| A10,...,A12 |
früherer Name, drei Komponenten |
| A13 |
Geburtstag |
| A14 |
DDR-Namenscode |
| A15 |
phonetischer Code "standardisierter" Name |
| A16 |
phonetischer Code "standardisierter" Vorname |
| A17 |
phonetischer Code "standardisierter" Geburtsname |
| A18 |
phonetischer Code "standardisierter" früherer Name |
| A19, A20 |
Titel, zwei Komponenten |
| A21, A22 |
zwei Kontrollnummern aus Baden-Württemberg, basierend auf drei
Zeichen Vorname, drei Zeichen Name, vollständiges Geburtsdatum bzw. drei Zeichen
Vorname, drei Zeichen Geburtsname, vollständiges Geburtsdatum. |
Tabelle 4: Attribute für Kontrollnummern
Das oben beschriebene Verfahren entspricht den Empfehlungen, die aufbauend auf
Untersuchungen im Krebsregister Rheinland-Pfalz gemeinsam mit einer Arbeitsgruppe in
Oldenburg erarbeitet [1] wurden. So wird
gewährleistet, daß ein Abgleich zwischen verschiedenen Bundesländern
und mit der Dachdokumentation Krebs am Robert-Koch-Institut möglich ist.
Für Studien oder spezielle Nachfragen muß es grundsätzlich
möglich bleiben, die Identitätsdaten im Klartext wiederherzustellen. Um dies
zu erreichen, werden die gesamten Identitätsdaten mit einem asymmetrischen
Verfahren chiffriert. Bei asymmetrischer Chiffrierung werden zwei Schlüssel
eingesetzt, einer zum Verschlüsseln, einer zum Entschlüsseln. Der
Schlüssel zum Entschlüsseln wird außerhalb des Krebsregisters beim
Daten- und Informationszentrum Rheinland-Pfalz hinterlegt, so daß nur in
definierten Ausnahmefällen und unter Kontrolle Identitätsdaten dechiffriert
werden können.
Das im Krebsregister Rheinland-Pfalz eingesetzte asymmetrische Verfahren ist eine
hybride IDEA-RSA-Chiffrierung. Dabei werden die Identitätsdaten mit dem
symmetrischen IDEA-Verfahren chiffriert, der hierfür je Sitzung nach einem
Zufallsverfahren erzeugte IDEA-Schlüssel wird mit dem "öffentlichen"
Schlüssel RSA-chiffriert und mit den chiffrierten Identitätsdaten abgelegt.
Die konkrete Umsetzung beruht auf dem Programm PGP (Pretty Good Privacy, Philip
Zimmermann).


Abbildung 13: Chiffrierung im Krebsregister
5.3.2 * Registerstelle
Nach dem Abgleich in der Registerstelle werden die Kontrollnummern KN1, ..., KN22 vor der
permanenten Abspeicherung in der Datenbank nochmals, ergänzt um eine Zufallszahl
x, zusammen symmetrisch chiffriert (IDEA). Als Ergebnis erhält man den
Schlüsseltext im "Speicherformat" ("Storage Format"), in dem die Kontrollnummern
in der Registerstelle dauerhaft gespeichert werden. Die Kontrollnummern sind
meldungsbezogen und werden in einer separaten Relation abgelegt. Der dabei verwendete
IDEA-Schlüssel (IDEA-RST) ist unabhängig von dem IDEA-Schlüssel der
Vertrauensstelle (IDEA-VST) und nur in der Registerstelle bekannt. Die Zufallszahl
dient dem Schutz vor einer Probechiffrierung von Kontrollnummern. Selbst wenn zwei
Datensätze zu einer Person völlig übereinstimmende Identitätsdaten
enthalten, unterscheiden sich die Kontrollnummern im Speicherformat.
Wenn neue Meldungen aus der Vertrauensstelle mit dem Bestand in der Registerstelle
abgeglichen werden sollen, wird die letzte IDEA-Chiffrierung rückgängig
gemacht. Die Kontrollnummern stehen dann für die Dauer des Abgleichs im
"Abgleichformat" zur Verfügung.
Das ganze Chiffrierverfahren ist in Abbildung 13 illustriert.
5.3.3 * Sicherheitsaspekte
Im folgenden werden ausschließlich Maßnahmen zur Gewährleistung der
Vertraulichkeit beschrieben. Diese sind Bestandteile eines umfassenden Konzeptes zur
Gewährleistung der Datensicherheit. Vorarbeiten wurden gemeinsam mit dem BSI
bereits begonnen. Die oben beschriebenen Verfahren gewährleisten folgende
Sicherheitsaspekte:
Darüber hinaus wird mit organisatorischen Maßnahmen die Gefahr einer
Probechiffrierung oder eines statistischen Angriffs noch weiter verringert. Die
IDEA-Schlüssel von Vertrauensstelle und Registerstelle werden sicher verwahrt. Ein
Schlüsselwechsel in gewissen Zeitabständen bietet zusätzliche Sicherheit
dagegen, daß Schlüssel rechtswidrig Unbefugten bekannt werden. Während
der Durchführung des Abgleichs der neuen Meldungen und Todesbescheinigungen in der
Registerstelle ist besonders sorgfältig darauf zu achten, daß kein
Unbefugter Zugang zu den Daten hat. Die Daten müssen für die Weitergabe von
der Vertrauensstelle an die Registerstelle zusätzlich geschützt werden, z. B.
durch Überchiffrieren aller Dateien. Bei der Rückgabe der Daten an die
Vertrauensstelle vor einem registerübergreifenden Abgleich und bei der Weitergabe
an die Vertrauensstelle eines kooperierenden Registers sind die Daten ebenfalls
zusätzlich zu schützen.
Webmaster:
seebauer@mail.uni-mainz.de (08.02.98)