Computerlinguistik (die Verarbeitung von Sprache mit dem Computer) und Texttechnologie (die automatisierte Handhabung elektronischer Texte) haben im letzten Jahrzehnt unterschiedliche Richtungen eingeschlagen. Beide Disziplinen speisen sich jedoch aus der gleichen Quelle: der formalen Grammatik. Deshalb ist eine gemeinsame Darstellung sinnvoll.
Der Bezug auf die gemeinsamen Grundlagen und die kontrastierende Gegenüberstellung einzelner Teilbereiche fördern das Verständnis der jeweils anderen Disziplin und eröffnen interessante Querbezüge. Erstmals wird die Verknüpfung von Computerlinguistik und Texttechnologie mit dieser Einführung in knapper Form systematisch vollzogen, was sie insbesondere für Module im Bachelor-Studium geeignet macht.
Tabla de materias
1. Einleitung 7
2. Geschichte und Gebiete 9
2.0 Ziele und Warm Up. 9
2.1 CL-1: Computerlinguistik – Der Computer lernt Sprache 10
2.2 TT-1: Texttechnologie – Die Digitalisierung von Texten 17
2.3 Fazit, Aufgaben, Vertiefung 20
3. Grammatiken 23
3.0 Ziele und Warm Up. 23
3.1 CL-2: Kontextfreie Grammatiken – Bäume aus Wörtern 23
3.2 CL-3: Satz-Erzeugung mit einer Konstituenten- Grammatik 29
3.3 TT-2: Dokumentgrammatiken – Regeln, die Texte beschreiben 33
3.4 Fazit, Aufgaben, Vertiefung 38
4. Parsing und Annotation. 42
4.0 Ziele und Warm Up. 42
4.1 CL-4: Parsing – mit Grammatik rechnen 42
4.2 CL-5: Chart-Parsing – Parsing mit Gedächtnis 48
4.3 TT-3: Annotation – Strukturinformation in Texten 53
4.4 Fazit, Aufgaben, Vertiefung 58
5. Merkmale und Attribute. 62
5.0 Ziele und Warm Up. 62
5.1 CL-6: Merkmale – Aufbau linguistischer Strukturen. 62
5.2 TT-4: Attribute – Texte als textuelle Datenstrukturen 69
5.3 Fazit, Aufgaben, Vertiefung 74
6. Semantik und Transformation. 77
6.0 Ziele und Warm Up. 77
6.1 CL-7: Semantik – Übersetzung in die Sprache der Bedeutung 78
6.2 TT-5: Transformation – von Baum zu Baum. 85
6.3 Fazit, Aufgaben, Vertiefung 92
7. Ressourcen und Standards 95
7.0 Ziele und Warm Up. 95
7.1 CL-8: Computerlinguistische Ressourcen – Niemand muss bei Null anfangen 96
7.2 CL-9: Baumbanken – Korpora mit grammatischer Struktur. 102
7.3 TT-6: Texttechnologische Standards – Verabredungen für den Datenaustausch 107
7.4 Fazit, Aufgaben, Vertiefung 113
Literaturverzeichnis. 115
Abkürzungen 118
Register 120
Sobre el autor
Prof. Dr. Hening Lobin ist Wissenschaftlicher Direktor des Leibniz-Instituts für Deutsche Sprache und Vorsitzender des Vorstands der gleichnamigen Stiftung bürgerlichen Rechts.