![]() |
| Translation Service Diplom-Übersetzerin Elisabeth John |
|
This page is part of the German website section only, therefore the text remains in German. DGT-TM des Acquis communautaireMehrsprachiger EU-Rechtstextekorpus im TMX-Format frei verfügbarIm November 2007 machte die Generaldirektion Übersetzung der Europäischen Kommission (kurz DGT) ein mehrsprachiges Translation Memory (TM) mit dem „Acquis communautaire“ – also dem gemeinschaftlichen Besitzstand des EU-Rechts – öffentlich zugänglich. Über das Internet hat jeder Interessierte Zugriff auf diesen als „DGT-TM“ bezeichneten Übersetzungsspeicher in 22 Amtssprachen der Europäischen Union. HintergrundBereits im Mai 2006 hatte die Gemeinsame Forschungsstelle (Joint Research Centre – JRC) der Europäischen Kommission erstmalig einen mehrsprachigen Paralleltextkorpus des Acquis communautaire als „JRC-Acquis“ frei zugänglich gemacht – ebenfalls für die 231 Sprachenpaare, die sich aus der Kombination von 22 Amtssprachen der EU ergeben. Die Unterschiede zwischen dem DGT-TM und dem JRC-Acquis sind weiter unten erläutert. Der Ausgangspunkt dieser Datenfreigabe ist das allgemeine Bemühen der Europäischen Kommission um die Förderung der Sprachenvielfalt und die einfache Nutzbarkeit von Kommissionsinformationen. Dahinter steht die politische Vorgabe, dass das Gemeinschaftsrecht in den Amtssprachen aller Mitgliedstaaten veröffentlicht werden muss, da es in innerstaatliches Recht eingeht und von allen europäischen Bürgerinnen und Bürgern zu beachten ist. Folglich müssen die Bürger – und die nationalen Gerichte – die Rechtsvorschriften in ihrer eigenen Sprache lesen und verstehen können. Auch in der Vorbereitung neuer Rechtsakte muss auf allen Ebenen – auf europäischer, nationaler und lokaler Ebene – über die jeweiligen Vorschläge beraten werden, und jeder in der Union hat das Recht, in der Amtssprache seiner Wahl zu dieser Diskussion beizutragen. Der Acquis communautaire ist der „gemeinschaftliche Besitzstand“ des EU-Rechts und umfasst alle Rechtsakte, die für die Mitgliedstaaten der EU verbindlich sind (Europäisches Recht). Zu diesen Rechtsakten gehören Verträge, Verordnungen, Richtlinien und Entscheidungen der Organe der EU und die Entscheidungen des Europäischen Gerichtshofes. Da der Acquis communautaire von jedem Staat, der der EU beitritt, in seinem kompletten Umfang übernommen werden muss, liegt dieser EU-Rechtstextebestand in 22 Amtssprachen der Europäischen Union vor: Bulgarisch, Dänisch, Deutsch, Englisch, Estnisch, Finnisch, Französisch, Griechisch, Italienisch, Lettisch, Litauisch, Maltesisch, Niederländisch, Polnisch, Portugiesisch, Rumänisch Schwedisch, Slowakisch, Slowenisch, Spanisch, Tschechisch und Ungarisch. Ins Irische als 23. Amtsprache der EU wurde der Acquis communautaire nur in Teilen übersetzt. DGT-TM – das Translation Memory der Generaldirektion Übersetzung der Europäischen KommissionDas DGT-TM ist ein Fundus von Textsegmenten (Sätzen), der durch das Alignment von Texten des Acquis communautaire in 22 Amtssprachen der EU gewonnen wurde. Die Übersetzungseinheiten (TUs – Translation Units) dieses Übersetzungsspeichers stammen aus einem großen gemeinsamen TM der Generaldirektion Übersetzung im europäischen Informationssystem Euramis (European Advanced Multilingual Information System). Das DGT-TM beinhaltet die meisten, aber nicht alle Dokumente des Acquis communautaire sowie einige zusätzliche Dokumente, die nicht zum gemeinschaftlichen Besitzstand gehören. Aus Vereinfachungsgründen wurde bei der Extraktion Englisch als Ausgangssprache gewählt. Die Reihenfolge der TUs in den extrahierten Dateien des DGT-TM entspricht nicht unbedingt der textlichen Reihenfolge in den zugrundeliegenden Dokumenten. Redundanzen von Textsegmenten (wie beispielsweise „Artikel 1“) sind in einem derartigen Textkorpus dabei nicht zu vermeiden. Die TUs sind mit einem Hinweis auf das Rechtsdokument, aus dem sie stammen, in Form einer Dokumentennummer gekennzeichnet. Dieses Kürzel entspricht der Dokumentennummer, die auch in der EUR-Lex-Datenbank verwendet wird. Es ist jedoch zu beachten, dass die zugrundeliegenden Dokumente bei der Extraktion der Übersetzungseinheiten teilweise bearbeitet wurden und die Originaldokumente daher nicht aus den Einzel-TUs rekonstruiert werden können. Das DGT-TM liegt im TMX-Format in derzeit zwölf Dateipaketen vor. Diese Satzarchive können zur Erstellung von zweisprachigen Paralleltextkorpora (TMs) herangezogen werden (Näheres unter Zweisprachige TMX-Auszüge erstellen). Das DGT-TM enthält keine Hinweise auf die Ausgangssprache der enthaltenen Dokumente bzw. Sätze – in vielen Fällen ist jedoch davon auszugehen, dass die Originale auf Englisch verfasst und dann in die anderen Sprachen übersetzt wurden. Verständlicherweise übernimmt die DGT keinerlei Verantwortung für Qualität und Inhalt des TMs. DatenaufbereitungVor dem Alignment wurden die Dokumente aufbereitet. Dabei wurden beispielsweise überflüssige Leerschritte und Abschnittswechsel gelöscht. Auch Zeilen, die nur Zahlen, Klammern, Satzzeichen u.ä. enthielten, oder Fuß- und Endnoten, die lediglich die Fundstelle im Amtsblatt angaben, wurden entfernt (Einzelheiten zu den Veränderungen siehe langtech.jrc.it). Durch diese und weitere Korrekturen wurden die dem Alignment unterzogenen Dokumente verändert, so dass der Inhalt des DGT-TM nicht mehr unbedingt mit den Originaldokumenten übereinstimmt. Das Alignment erfolgte nach den Segmentierungsregeln der Generaldirektion Übersetzung der Europäischen Kommission. Als Zusatzinformation der einzelnen TUs wurde bei der Extraktion nur die EUR-Lex-Dokumentennummer beibehalten, aus der sich weitere Informationen wie z.B. Jahr und Dokumenttyp ablesen lassen (Näheres unter „Die Dokumentennummern der EUR-Lex-Datenbank“). Unterschiede zwischen DGT-TM und JRC-AcquisDie beiden Textkorpora sind einander recht ähnlich, da beide auf dem Acquis communautaire basieren, sie sind jedoch nicht identisch. Die Textbestände DGT-TM und JRC-Acquis unterscheiden sich vor allem in folgenden Punkten:
Download des DGT-TMDas DGT-TM-Paket umfasst 12 ZIP-Dateien (Volume_1.zip bis Volume_12.zip), die jeweils rund 100 MB groß sind. Jede ZIP-Datei enthält Hunderte von TMX-Dateien mit der EUR-Lex-Dokumentennummer des zugrundeliegenden Rechtsaktes als Namen und eine Dateiliste im TXT-Format mit Angaben zu den Sprachen, in denen die jeweiligen Dokumente verfügbar sind. Die ZIP-Dateien können von der JRC-Seite heruntergeladen werden. Auch ein Extraktionsprogramm, das für die TMX-Erstellung im gewünschten Sprachenpaar notwendig ist, steht zum Download bereit (unter http://langtech.jrc.it/DGT-TM.html). Der Benutzer muss die heruntergeladenen ZIP-Dateien nicht selbst entpacken, da das Extraktionsprogramm auf die Daten in diesen Dateien direkt zugreift. Die Texte der verschiedenen Sprachen sind über die einzelnen ZIP-Dateien verteilt, so dass für den Erhalt des gesamten Paralleltextkorpus alle Dateien heruntergeladen werden müssen. Grundsätzlich ist es jedoch auch möglich, nur einen Teil der ZIP-Dateien herunterzuladen – man erhält dann einen entsprechend eingeschränkten Paralleltextkorpus. Eine Auflistung der in den einzelnen ZIP-Dateien enthaltenen TMX-Dateien finden Sie in der „ZIP-Dateienliste“ (TXT-Datei, rund 1,1 MB). Das Extraktionsprogramm ist ebenfalls auf den eigenen Rechner herunterzuladen. Es muss im gleichen Verzeichnis wie die angesprochenen ZIP-Dateien gespeichert werden. Das Extraktionsprogramm ist in zwei verschiedenen Versionen verfügbar – einer Version mit grafischer Benutzeroberfläche für das Betriebssystem Windows („TMXtract“) und einer maschinenunabhängigen Version als Java-Bytecode (zur Ausführung ist die Java Runtime Environment ab Version 1.4 erforderlich). Das unter Windows lauffähige Extraktionsprogramm umfasst zwei Dateien: eine Programm-Datei und eine Dynamische Bibliothek (DLL-Datei). Zweisprachige TMX-Auszüge erstellenAus Vereinfachungsgründen wurde bei der Erstellung des DGT-TM Englisch als Ausgangssprache gewählt. Benutzer können jedoch mit dem Extraktionsprogramm TMXtract (für Windows) jedes beliebige Sprachenpaar für die Extraktion festlegen. Die Auszugserstellung ist einfach und umfasst die folgenden Schritte:
Bei Schritt 3 ist es eventuell ratsam, die ZIP-Dateien einzeln konvertieren zu lassen, da ansonsten die Zieldatei je nach Sprachenpaar sehr groß werden kann (Anhaltswerte zum zu erwartenden Gesamtumfang bietet die JRC-Statistik). Nach der Extraktion ist es dann möglich, die resultierende(n) TMX-Datei(en) in praktisch jedes Translation-Memory-Tool (Wordfast, Déjà Vu, SDL Trados usw.) zu importieren und dort weiterzuverwenden (Empfehlung für Wordfast-Nutzer: umgewandelte DGT-TM-Auszüge gibt es auf www.wissenschadetnicht.eu). Diese TM-Dateien stellen für professionelle ÜbersetzerInnen einen riesigen terminologischen Fundus dar, der über die Konkordanzsuche (bzw. Konkordanzsuche) des jeweiligen CAT-Tools genutzt werden kann. Exkurs: Die Dokumentennummern der EUR-Lex-DatenbankAlle Rechtsakte der Europäischen Union sind in der EUR-Lex-Datenbank öffentlich abrufbar (unter http://eur-lex.europa.eu). In dieser Datenbank ist jeder Rechtsakt mit einer Dokumentennummer (auch „Celex-Nummer“ genannt) gekennzeichnet, die aus einer Reihe von Zahlen und Buchstaben besteht. Anhand dieser Dokumentennummer lässt sich jeder Rechtsakt sowohl im systematischen Verzeichnis als auch im chronologischen Register von EUR-Lex auffinden (am schnellsten durch Eingabe der Celex-Nummer auf der Seite eur-lex.europa.eu/RECH_celex.do). Die Struktur der Dokumentennummer soll anhand einer typischen 10-stelligen Dokumentennummer erläutert werden. Beispiel:
Die erste Zahl ist die Bereichsnummer: Sie gibt an, in welchen Bereich des Celex-Systems der betreffende Rechtsakt einzuordnen ist. Die vier folgenden Ziffern geben das Erlass- bzw. Veröffentlichungsjahr an. Der darauffolgende Buchstabe (manchmal auch mehrere Buchstaben) ist der Code für den Dokumenttyp, der die Rechtsform des Akts ausweist. Abschließend folgt noch die fortlaufende Nummer des Rechtsaktes im jeweiligen Jahr. Bereichsnummern:
Dokumenttypen für die Bereiche 2 bis 5 (Auszug):
Weiterführende Hinweise finden sich auf der Website der Universität Konstanz und der EUR-Lex-Datenbank. Anmerkung: Die Druckausgabe dieses Artikels finden Sie in „FORUM“, der Verbandszeitschrift von ATICOM – die PDF-Ausgabe vom Juni 2008 ist auf der ATICOM-Website online abrufbar. |
| © 2008–2010 Elisabeth John ::: Schleiden, Deutschland | E-Mail an: Link |