Kursangebot

Diese Seite gibt einen Überblick zum Kursangebot der Sommerschule.

Die studentischen Teilnehmenden werden bei der Anmeldung gebeten, für jeden Block (A-D) zu wählen, welchen Kurs sie jeweils belegen möchten.

Block A :: Grundlagen :: Di, 31. Aug. 2010

Im Block A kann jede/r Teilnehmende einen der folgenden 3 zeitgleichen Kurse belegen:

A1: Multimodale Sammlungen von Sprachdaten (4 Sitzungen)

Kurssprachen: Deutsch und Englisch

Der Kurs besteht aus zwei Teilbereichen. Am Vormittag erfolgt eine Einführung in multimodale Sprachressourcen. Dabei wird vermittelt, wie Annotation und Auswertungen mit akkustischen Sprachaufzeichungen oder Videodaten durchgeführt werden können. Am Nachmittag stehen multimodale Annotationsformate und entsprechende Standards im Vordergrund.

Dozenten: Peter Wittenburg (MPI Nijmegen) und Thomas Schmidt (Hamburg)

A2: Grundlagen linguistischer Webservices und deren Nutzung (4 Sitzungen)

Dieser Kurs vermittelt einen Überblick über Webservices und ihre Anwendung. Das in D-Spin entwickelte Portal "WebLicht" und seine verschiedenen über Webservices realisierten linguistischen Tools werden praktisch angewendet. Die Möglichkeiten und Grenzen der Nutzung von Webservices und theoretische Grundlagen wie z.B. Standards und Metadaten werden aufgezeigt.

Dozenten: Thomas Zastrow, Ulrich Heid, Kathrin Beck, Volker Boehlke

Weitere Informationen zu WebLicht: weblicht.sfs.uni-tuebingen.de/

A3: Korpuslinguistik - Ein interaktives Tutorium (4 Sitzungen)

Dieser Kurs vermittelt Grundlagen der Nutzung von Sprachressourcen. Im ersten Teil des Kurses werden grundlegende Begriffe der Korpuslinguistik eingeführt und aktuelle korpuslinguistische Projekte vorgestellt. Dabei werden neben Korpora der Gegenwartssprache insbesondere auch Korpora historischer Sprachen exemplarisch vorgestellt. Ein besonderes Augenmerk wird auf den Begriff "Web linguistics" gerichtet. Teil 2 befasst sich mit Abfragemöglichkeiten und der praktischen Auswertung von Korpusdaten anhand von Konkordanzen, Kookkurrenzen, Häufigkeitslisten und Keywords. Im gesamten Kurs werden E-Learning Materialien eingesetzt, die auch über den Kurs hinaus individuell genutzt werden können.

Dozenten: Svetlana Ahlborn (Frankfurt) und Frank Binder (Gießen)

Block B :: Praxis-Tutorien zu Ressourcen oder Methoden :: Mi, 01. Sept. 2010

Im Block B kann jede/r Teilnehmende einen der folgenden zeitgleichen Kurse belegen:

B1: Tools for language resources (LAT) (4 sessions)

Primary course language: English

This course is divided into two parts. In the morning sessions, we will learn how to annotate, search through, perform statistics with and visualise language data with the tools ELAN, ANNEX and TROVA. The afternoon sessions deal with how to create, manipulate and visualise multimodal lexica and conceptual spaces.

Tutors: Eric Auer, Jacquelijn Ringersma, Dieter van Uytvanck (all MPI Nijmegen)

B2: Lexikographische Arbeit mit vernetzten Ressourcen (4 Sitzungen)

Ausgehend vom Digitalen Wörterbuch der Deutschen Sprache (DWDS) sowie weiteren lexikalischen Ressourcen der BBAW (Etymologisches Wörterbuch, integrierter Thesaurus eines anderen Anbieters) soll gezeigt werden, wie mit vernetzten elektronischen Ressourcen gearbeitet werden kann und welchen zusätzlichen Nutzen die Vernetzung sowohl für den recherchierenden Benutzer als auch für Lexikographen bringt. Es wird dargestellt, welche organisatorischen und technischen Voraussetzungen geschaffen werden müssen, um verschiedene lexikalische Ressourcen zu vernetzen. Im Idealfall kann gezeigt werden, wie die Teilnehmenden eigene lexikalische Ressourcen integrieren können.

Dozenten: Axel Herold und Lothar Lemnitzer (beide BBAW Berlin)

B3: Texttechnologische Grundlagen - Erstellung und Verarbeitung XML-annotierter Korpora (4 Sitzungen)

Der Kurs bietet einen praktischen Einstieg in XML. Der Schwerpunkt des Kurses vermittelt den Umgang mit Werkzeugen für die Erstellung und Verarbeitung von XML-Dokumenten (u.a. Bearbeitung, Validierung, Transformation). Als Anwendungszenarien dienen dabei Möglichkeiten zur manuellen und semi-automatischen Annotation bzw. allgemein die Arbeit mit XML-annotierten Korpora.

Voraussetzungen: Grundkenntnisse im Umgang mit dem Computer

Dozent: Mirco Hilbert (Gießen)

Block C :: weitere Praxis-Tutorien zu Ressourcen oder Methoden :: Do, 02. Sept. 2010

Im Block C kann jede/r Teilnehmende einen der folgenden zeitgleichen Kurse belegen:

C1: Language resources and archives (4 sessions)

Primary course language: English

This course is divided into two parts. In the morning session we will learn about what is required in order for language resources to be successfully archived. The topics include standards for metadata; creating, manipulating and harvesting metadata. Furthermore we will see how to organize and upload new resources into archives and how to manage access rights to those resources. The afternoon sessions will provide an introduction into the multimodal archive of the MPI Nijmegen and its catalogue. We will also focus on the Virtual Language Observatory (VLO) as well as relevant community sites.

Tutors: Jacquelijn Ringersma, Dieter van Uytvanck (all MPI Nijmegen)

C2: Ermittlung von Mehrwortlexemen aus Textkorpora (4 Sitzungen)

Wir geben einen Einblick in Methoden und Werkzeuge zur automatischen Extraktion von Mehrwortlexemen. Beginnend mit einer musterbasierten, rein syntaktischen Extraktion (auf Chunking vs. Parsing-Ebene) von Mehrwortlexem-Kandidaten, werden wir im Laufe des Kurses verschiedene Möglichkeiten aufzeigen um lexikographisch relevante Mehrwortlexeme automatisch von trivialen Okkurrenzen unterscheiden zu können. Die morpho-syntaktische Varianz spielt dabei ebenso eine Rolle wie die semantische Opazität der Mehrwortlexeme. Teilnehmer können Texte, aus welchen Sie domänenspezifische Mehrwortlexeme extrahieren wollen mitbringen, und diese dann durch die Extraktionspipeline schicken.

Dozenten: Fabienne Fritzinger und Ulrich Heid (Stuttgart)

C3: Grundlagen der Programmierung - Erstellung und Verarbeitung von Text-Korpora (4 Sitzungen)

Der Kurs bietet einen praktischen Einstieg in die skriptbasierte Programmierung. Der Schwerpunkt des Kurses vermittelt den Umgang mit einfachen Werkzeugen zur Verarbeitung von Text-Dokumenten und Text-Korpora und der Erstellung eigener kleiner Werkzeuge mit Hilfe der Programmiersprache Perl. Als Anwendungsszenarien dienen dabei Möglichkeiten zum Durchsuchen von Texten nach spezifischen Mustern mittels regulärer Ausdrücke (z.B. zur Informationsextraktion), zur systematischen Verarbeitung und Transformation von größeren Textmengen (z.B. zur Bereinigung und Normalisierung von Text-Korpora) und zum automatischen Erzeugen von Statistiken (z.B. bei spezifischen quantitativen Fragenstellungen).

Themen: Einführung in die Programmierung; Werkzeuge zur Arbeit mit Text-Dokumenten und Text-Korpora; Erstellen einfacher Skripte mit Perl; Durchsuchen und Verarbeiten von Text-Dokumenten mit regulären Ausdrücken

Voraussetzungen: Grundkenntnisse im Umgang mit dem Computer, dem Dateisystem und der Eingabeaufforderung/Shell

Dozent: Mirco Hilbert (Gießen)

Block D :: Weiterführende Themen :: Fr, 03. Sept. 2010

Im Block D kann jede/r Teilnehmende einen der folgenden zeitgleichen Kurse belegen:

D1: TextGrid Tutorium (2 Sitzungen)

TextGrid ist ein Verbundforschungsprojekt mit zehn Partnern, das die Entwicklung einer Virtuellen Forschungsumgebung für Philologen, Linguisten, Musikwissenschaftler und Kunsthistoriker zum Ziel hat. Seit 2006 wird im Rahmen des Projektes eine internetbasierte Plattform aufgebaut, die wissenschaftlern Werkzeuge und Dienste für die Auswertung von textbasierten Daten in unterschiedlichen digitalen Archiven bietet – unabhängig von Datenform, Standort oder Softwareausstattung. In dem Workshop wird zunächst das Projekt TextGrid vorgestellt, dann exemplarisch in die Arbeit mit Werkzeugen des TextGridLabs eingeführt. Die Teilnehmer werden aktiv partizipieren. Das TextGridLab dient als Einstiegspunkt in die Virtuelle Forschungsumgebung. Die Software steht jetzt und zukünftig kostenfrei zur Verfügung und wird kontinuierlich weiterentwickelt.

Dozenten: Simon Rettelbach, Oliver Schmid u.a. (TextGrid, Trier)

Weitere Informationen zum Forschungsprojekt TextGrid: www.textgrid.de

D2: Topic Maps und ihre Anwendungen in den Digital Humanities (2 Sitzungen)

Topic Maps sind hoch vernetzte, semantische Datenbanken, die extrem flexibel erweitert und genutzt werden können. Topic Maps spiegeln somit die Realität in den meisten Anwendungsfeldern wieder: diese bestehen zumeist aus vielen verschiedenen Beziehungen zwischen unterschiedlichen Dingen, einheitliche, monoton wiederkehrende Strukturen sind die Ausnahme und nicht die Regel.

Topic-Maps-Portale sind die Nutzerschnittstellen zu vernetzten, flexiblen Daten. Aus den Vernetzungen der Daten ergeben sich stark vernetzte Portale. In Topic-Maps-Portalen stehen die Themen im Mittelpunkt, und nicht die Dokumente. Darüber hinaus sind Topic Maps eine Integrationstechnologie: verschiedene, heterogene Datenquellen können themenzentriert miteinander verbunden werden, so dass zentrale Informationshubs für jedes einzelne Thema entstehen.

Topic Maps ist der internationale Industriestandard (IS0 13250) für die semantische Informationsrepräsentation. Diese Technologie wird als semantische Integrations- und Portaltechnologie bereits von vielen Institutionen eingesetzt. Dazu gehört z. B. die Dänische Nationalbibliothek, die Polizei von Amsterdam, die norwegische Post, die Regierung in Norwegen, das Helmholtzzentrum München, die nationale Steuerbehörde der USA sowie die Europäischen Weltraumagentur (ESA).

Ziel des Kurses ist, dass Sie Topic Maps und die Möglichkeiten von Topic-Maps-Portalen kennenlernen. Nach dem Kurs werden Sie entscheiden können, ob Topic Maps das geeignete Werkzeug für eine neue Aufgabenstellung sind.

Dozent: Lutz Maicher (Leipzig)

TopicMapsLab: www.topicmapslab.de

Zuletzt aktualisiert am Freitag, den 20. August 2010 um 13:08 Uhr

Sommerschule 2010