Werkzeugkasten
DGT-TM des Acquis communautaire
Mehrsprachiger EU-Rechtstextekorpus im TMX-Format frei verfügbar
Im November 2007 machte die Generaldirektion Übersetzung der Europäischen Kommission (kurz DGT) ein mehrsprachiges Translation Memory (TM) mit dem „Acquis communautaire“ – also dem gemeinschaftlichen Besitzstand des EU-Rechts – öffentlich zugänglich. Es enthält amtliche EU-Texte, die bis Ende 2006 erschienen sind. Im April 2012 wurde eine neue DGT-TM-Version veröffentlicht (im Folgenden „DGT-TM-2011“ genannt), die zusätzliche Texte aus dem Zeitraum 2004 bis 2010 beinhaltet. Über das Internet hat jeder Interessierte Zugriff auf diesen Übersetzungsspeicher in 22 Amtssprachen der Europäischen Union.
Hintergrund
Bereits im Mai 2006 hatte die Gemeinsame Forschungsstelle (Joint Research Centre – JRC) der Europäischen Kommission erstmalig einen mehrsprachigen Paralleltextkorpus des Acquis communautaire als „JRC-Acquis“ frei zugänglich gemacht – ebenfalls für die 231 Sprachenpaare, die sich aus der Kombination von 22 Amtssprachen der EU ergeben. Die Unterschiede zwischen dem DGT-TM und dem JRC-Acquis sind weiter unten erläutert.
Der Ausgangspunkt dieser Datenfreigabe ist das allgemeine Bemühen der Europäischen Kommission um die Förderung der Sprachenvielfalt und die einfache Nutzbarkeit von Kommissionsinformationen. Dahinter steht die politische Vorgabe, dass das Gemeinschaftsrecht in den Amtssprachen aller Mitgliedstaaten veröffentlicht werden muss, da es in innerstaatliches Recht eingeht und von allen europäischen Bürgerinnen und Bürgern zu beachten ist. Folglich müssen die Bürger – und die nationalen Gerichte – die Rechtsvorschriften in ihrer eigenen Sprache lesen und verstehen können. Auch in der Vorbereitung neuer Rechtsakte muss auf allen Ebenen – auf europäischer, nationaler und lokaler Ebene – über die jeweiligen Vorschläge beraten werden, und jeder in der Union hat das Recht, in der Amtssprache seiner Wahl zu dieser Diskussion beizutragen.
Der Acquis communautaire ist der „gemeinschaftliche Besitzstand“ des EU-Rechts und umfasst alle Rechtsakte, die für die Mitgliedstaaten der EU verbindlich sind (Europäisches Recht). Zu diesen Rechtsakten gehören Verträge, Verordnungen, Richtlinien und Entscheidungen der Organe der EU und die Entscheidungen des Europäischen Gerichtshofes. Da der Acquis communautaire von jedem Staat, der der EU beitritt, in seinem kompletten Umfang übernommen werden muss, liegt dieser EU-Rechtstextebestand in 22 Amtssprachen der Europäischen Union vor: Bulgarisch, Dänisch, Deutsch, Englisch, Estnisch, Finnisch, Französisch, Griechisch, Italienisch, Lettisch, Litauisch, Maltesisch, Niederländisch, Polnisch, Portugiesisch, Rumänisch Schwedisch, Slowakisch, Slowenisch, Spanisch, Tschechisch und Ungarisch. Ins Irische als 23. Amtsprache der EU wurde der Acquis communautaire nur in Teilen übersetzt.
DGT-TM – das Translation Memory der Generaldirektion Übersetzung der Europäischen Kommission
Das DGT-TM ist ein Fundus von Textsegmenten (Sätzen), der durch das Alignment von Texten des Acquis communautaire in 22 Amtssprachen der EU gewonnen wurde. Die Übersetzungseinheiten (TUs – Translation Units) dieses Übersetzungsspeichers stammen aus einem großen gemeinsamen TM der Generaldirektion Übersetzung im europäischen Informationssystem Euramis (European Advanced Multilingual Information System). Das DGT-TM beinhaltet die meisten, aber nicht alle Dokumente des Acquis communautaire sowie einige zusätzliche Dokumente, die nicht zum gemeinschaftlichen Besitzstand gehören. Aus Vereinfachungsgründen wurde bei der Extraktion Englisch als Ausgangssprache gewählt.
Die Reihenfolge der TUs in den extrahierten Dateien des DGT-TM entspricht nicht unbedingt der textlichen Reihenfolge in den zugrundeliegenden Dokumenten. Redundanzen von Textsegmenten (wie beispielsweise „Artikel 1“) sind in einem derartigen Textkorpus dabei nicht zu vermeiden. Die TUs sind mit einem Hinweis auf das Rechtsdokument, aus dem sie stammen, in Form einer Dokumentennummer gekennzeichnet. Dieses Kürzel entspricht der Dokumentennummer, die auch in der EUR-Lex-Datenbank verwendet wird. Es ist jedoch zu beachten, dass die zugrundeliegenden Dokumente bei der Extraktion der Übersetzungseinheiten teilweise bearbeitet wurden und die Originaldokumente daher nicht aus den Einzel-TUs rekonstruiert werden können.
Das DGT-TM-2011 liegt im TMX-Format in 25 Dateipaketen vor. Diese Satzarchive können zur Erstellung von zweisprachigen Paralleltextkorpora (TMs) herangezogen werden (Näheres unter Zweisprachige TMX-Auszüge erstellen). Das DGT-TM enthält keine Hinweise auf die Ausgangssprache der enthaltenen Dokumente bzw. Sätze – in vielen Fällen ist jedoch davon auszugehen, dass die Originale auf Englisch verfasst und dann in die anderen Sprachen übersetzt wurden. Verständlicherweise übernimmt die DGT keinerlei Verantwortung für Qualität und Inhalt des TMs.
Ausführliche Informationen enthält die Veröffentlichung DGT-TM: A freely Available Translation Memory in 22 Languages.
Datenaufbereitung
Vor dem Alignment wurden die Dokumente aufbereitet. Dabei wurden beispielsweise überflüssige Leerschritte und Abschnittswechsel gelöscht. Auch Zeilen, die nur Zahlen, Klammern, Satzzeichen u.ä. enthielten, oder Fuß- und Endnoten, die lediglich die Fundstelle im Amtsblatt angaben, wurden entfernt (Einzelheiten zu den Veränderungen siehe langtech.jrc.it). Durch diese und weitere Korrekturen wurden die dem Alignment unterzogenen Dokumente verändert, so dass der Inhalt des DGT-TM nicht mehr unbedingt mit den Originaldokumenten übereinstimmt.
Das Alignment erfolgte nach den Segmentierungsregeln der Generaldirektion Übersetzung der Europäischen Kommission. Als Zusatzinformation der einzelnen TUs wurde bei der Extraktion nur die EUR-Lex-Dokumentennummer beibehalten, aus der sich weitere Informationen wie z.B. Jahr und Dokumenttyp ablesen lassen (Näheres unter „Die Dokumentennummern der EUR-Lex-Datenbank“).
Unterschiede zwischen DGT-TM und JRC-Acquis
Die beiden Textkorpora sind einander recht ähnlich, da beide auf dem Acquis communautaire basieren, sie sind jedoch nicht identisch. Die Textbestände DGT-TM und JRC-Acquis unterscheiden sich vor allem in folgenden Punkten:
- Zwar haben großenteils dieselben Dokumente Eingang in die Textbestände gefunden, diese unterscheiden sich teilweise jedoch aufgrund der unterschiedlichen Art der Textkorpuserfassung. Kein Textbestand entspricht exakt dem Acquis communautaire: Bei der Erstellung des JRC-Acquis galten recht weiche Kriterien (Erfassung aller Dokumente, die in mindestens zehn Sprachen – davon mindestens drei „neuen“ EU-Sprachen – verfügbar waren), so dass der JRC-Acquis umfangreicher ist.
- Das DGT-TM ist eine Sammlung von Übersetzungseinheiten, aus denen sich der jeweilige Volltext nicht reproduzieren lässt. Der JRC-Acquis ist dagegen vor allem eine Sammlung von Volltexten mit Zusatzinformationen zum Alignment der einzelnen Sätze.
- Das DGT-TM-2007 ist in großen Teilen mit dem Euramis-Alignmenteditor manuell nachkorrigiert worden, während das DGT-TM-2011 durch deas automatische Alignment von Texten gewonnen wurde. Auch beim JRC-Acquis wurde auf die manuelle Nachkorrektur verzichtet. Hier wurden jedoch EuroVoc-Klassifikationen nachträglich manuell zugeordnet.
- Bei der Bereinigung und Vorbereitung der Texte für das Alignment wurden unterschiedliche Verfahren und Instrumente eingesetzt.
Download des DGT-TM
Das DGT-TM-2011-Paket umfasst 25 ZIP-Dateien (Vol_2004_1.zip bis Vol_2010_4.zip), die jeweils höchstens 100 MB groß sind. Jede ZIP-Datei enthält Hunderte von TMX-Dateien mit der EUR-Lex-Dokumentennummer des zugrundeliegenden Rechtsaktes als Namen und eine Dateiliste im TXT-Format mit Angaben zu den Sprachen, in denen die jeweiligen Dokumente verfügbar sind.
Die ZIP-Dateien des DGT-TM-2011-Paktes können von der JRC-Seite heruntergeladen werden – die „alten“ Dateien des DGT-TM-2007-Korpus werden auf der Seite http://optima.jrc.it/Acquis/DGT_TU_1.0/data/ weiterhin bereitgehalten. Für die TMX-Erstellung im gewünschten Sprachenpaar ist das Extraktionsprogramm TMXtract notwendig, das unter wt.jrc.it/lt/Acquis/DGT_TU_1.0/ExtractionTool/TMXtract.exe zum Download bereitsteht. Der Benutzer muss die heruntergeladenen ZIP-Dateien nicht selbst entpacken, da das Extraktionsprogramm auf die Daten in diesen Dateien direkt zugreift. Die Texte der verschiedenen Sprachen sind über die einzelnen ZIP-Dateien verteilt, so dass für den Erhalt des gesamten Paralleltextkorpus alle Dateien heruntergeladen werden müssen. Grundsätzlich ist es jedoch auch möglich, nur einen Teil der ZIP-Dateien herunterzuladen – man erhält dann einen entsprechend eingeschränkten Paralleltextkorpus.
Eine Auflistung der in den einzelnen ZIP-Dateien enthaltenen TMX-Dateien finden Sie in der „ZIP-Dateienliste 2012“ (TXT-Datei, rund 85 KB), der „ZIP-Dateienliste 2011“ (TXT-Datei, knapp 700 KB) und der „ZIP-Dateienliste 2007“ (TXT-Datei, knapp 400 KB).Das Extraktionsprogramm ist ebenfalls auf den eigenen Rechner herunterzuladen. Es muss im gleichen Verzeichnis wie die angesprochenen ZIP-Dateien gespeichert werden. Das Extraktionsprogramm ist in zwei verschiedenen Versionen verfügbar – einer Version mit grafischer Benutzeroberfläche für das Betriebssystem Windows („TMXtract“) und einer maschinenunabhängigen Version als Java-Bytecode (zur Ausführung ist die Java Runtime Environment ab Version 1.4 erforderlich). Das unter Windows lauffähige Extraktionsprogramm umfasst zwei Dateien: eine Programm-Datei und eine Dynamische Bibliothek (DLL-Datei).
Zweisprachige TMX-Auszüge erstellen
Aus Vereinfachungsgründen wurde bei der Erstellung des DGT-TM Englisch als Ausgangssprache gewählt. Benutzer können jedoch mit dem Extraktionsprogramm TMXtract (für Windows) jedes beliebige Sprachenpaar für die Extraktion festlegen. Die Auszugserstellung ist einfach und umfasst die folgenden Schritte:
- Kopieren Sie die ZIP-Dateien, das Extraktionsprogramm TMXtract (EXE-Datei) und die Datei swt-win32-3218.dll auf Ihren PC, und zwar alle in dasselbe Verzeichnis.
- Öffnen Sie TMXtract.
- Klicken Sie auf die Schaltfläche Quelldateien auswählen und geben Sie die gewünschte(n) Datei(en) an (Vol_2004_1.zip etc.)
- Klicken Sie auf Zieldatei angeben (das Ergebnis wird immer in einer Datei gespeichert).
- Wählen Sie Quellsprache und Zielsprache.
- Klicken sie auf die Schaltfläche Ausführen.
Bei Schritt 3 ist es eventuell ratsam, die ZIP-Dateien einzeln konvertieren zu lassen, da ansonsten die Zieldatei je nach Sprachenpaar sehr groß werden kann (Anhaltswerte zum zu erwartenden Gesamtumfang bietet die JRC-Statistik).
Nach der Extraktion ist es dann möglich, die resultierende(n) TMX-Datei(en) in praktisch jedes Translation-Memory-Tool (Wordfast, SDL Trados, Déjà Vu, MemoQ usw.) zu importieren und dort weiterzuverwenden. Diese TM-Dateien stellen für professionelle ÜbersetzerInnen einen riesigen terminologischen Fundus dar, der über die Konkordanzsuche des jeweiligen CAT-Tools genutzt werden kann.
Exkurs: Die Dokumentennummern der EUR-Lex-Datenbank
Alle Rechtsakte der Europäischen Union sind in der EUR-Lex-Datenbank öffentlich abrufbar (unter http://eur-lex.europa.eu). In dieser Datenbank ist jeder Rechtsakt mit einer Dokumentennummer (auch „Celex-Nummer“ genannt) gekennzeichnet, die aus einer Reihe von Zahlen und Buchstaben besteht. Anhand dieser Dokumentennummer lässt sich jeder Rechtsakt sowohl im systematischen Verzeichnis als auch im chronologischen Register von EUR-Lex auffinden (am schnellsten durch Eingabe der Celex-Nummer auf der Seite eur-lex.europa.eu/RECH_celex.do).
Die Struktur der Dokumentennummer soll anhand einer typischen 10-stelligen Dokumentennummer erläutert werden.
Beispiel:
| 3 | 1999 | R | 0026 |
| Rechtsbereich | Jahreszahl | Dokumenttyp | Nummer des Rechtsakts |
| abgeleitetes Gemeinschaftsrecht | Jahr des Erlasses bzw. der Veröffentlichung des Rechtsakts | Verordnung | Verordnung Nr. 0026 des betreffenden Jahres |
Die erste Zahl ist die Bereichsnummer: Sie gibt an, in welchen Bereich des Celex-Systems der betreffende Rechtsakt einzuordnen ist. Die vier folgenden Ziffern geben das Erlass- bzw. Veröffentlichungsjahr an. Der darauffolgende Buchstabe (manchmal auch mehrere Buchstaben) ist der Code für den Dokumenttyp, der die Rechtsform des Akts ausweist. Abschließend folgt noch die fortlaufende Nummer des Rechtsaktes im jeweiligen Jahr.
Bereichsnummern:
| Bereich 1 | Primäres Gemeinschaftsrecht (Verträge zur Gründung der Europäischen Gemeinschaften, Verträge zu ihrer Änderung oder Ergänzung sowie Verträge über den Beitritt neuer Mitgliedstaaten) |
| Bereich 2 | Aus den Außenbeziehungen der Europäischen Gemeinschaften (oder den von den Mitgliedstaaten geschlossenen Verträgen, sofern sie die Außenbeziehungen der Gemeinschaften betreffen) hervorgegangenes Recht |
| Bereich 3 | Abgeleitetes (sekundäres) Gemeinschaftsrecht |
| Bereich 4 | Komplementärrecht (Beschlüsse der im Rat vereinigten Vertreter der Regierungen der Mitgliedstaaten, zwischen den Mitgliedstaaten in Anwendung der Vertragsbestimmungen geschlossene Völkerrechtsabkommen, zwischen den Mitgliedstaaten geschlossene internationale Übereinkünfte) |
| Bereich 5 | Gesetzgebungsvorarbeiten (Vorschläge der Kommission, Stellungnahmen, Initiativanträge und Entschließungen des Europaparlaments, Stellungnahmen des Wirtschafts- und Sozialausschusses, Programme, Berichte und Mitteilungen der Kommission etc.) |
Dokumenttypen für die Bereiche 2 bis 5 (Auszug):
| A | Abkommen |
| B | Haushalt |
| D | Rechtsakte von durch internationale Übereinkünfte geschaffenen Einrichtungen (im Bereich 2) bzw. Entscheidungen (außer den allgemeinen EGKS-Entscheidungen) und Beschlüsse (im Bereich 3) |
| DC | Vorbereitende Dokumente der Kommission (Mitteilungen, Programme, Berichte etc.) |
| K | EGKS-Empfehlungen |
| L | EWG/EURATOM-Richtlinien und EGKS-Empfehlungen |
| PC | Vorschläge der Kommission |
| R | EWG/EURATOM-Verordnungen und Allgemeine EGKS-Entscheidungen |
| S | Allgemeine EGKS-Entscheidungen |
| X | Sonstige Rechtsakte, Entschließungen, Stellungnahmen usw. (im Amtsblatt Reihe L oder vor 1968 in der einheitlichen Ausgabe des Amtsblatts veröffentlicht) |
| Y | Sonstige Akte (im Amtsblatt Reihe C veröffentlicht) |
Weiterführende Hinweise finden sich auf der Website der Universität Konstanz und der EUR-Lex-Datenbank.
Anmerkung: Die erste Druckausgabe dieses Artikels finden Sie in „FORUM“, der Verbandszeitschrift von ATICOM – die PDF-Ausgabe vom Juni 2008 ist auf der ATICOM-Website online abrufbar.
Alle Auskünfte nach bestem Wissen, aber ohne Gewähr.
