Munich Corpus Lab

Graduiertenschule Sprache & Literatur, LMU München

Quirin Würschinger | January 14, 2026
q.wuerschinger@lmu.de

Projektkontext

Anlass: Lizenzgebühren für english-corpora.org und Sketch Engine

Weitere sprachwissenschaftliche Bedarfe:

Nutzen bestehender Korpora außerhalb von Plattformen/Tools
Erstellen von Korpora: z.B. moderne Datenquellen wie Reddit, YouTube und WhatsApp
Analyse von Korpora mit aktuellen Methoden aus NLP und LLMs (z.B. dependency parsing, topic modelling, sentiment analysis, embeddings, classification)
Forschungsdatenmanagement: Teilen, Publizieren und Archivieren von korpuslinguistischen Daten

Ziel: effektive und nachhaltige korpuslinguistische Arbeit

Erster Schritt: Entwicklung einer App, um Potenziale zu prüfen.

https://www.wuerschinger.org/mcl
Benutzername: lipp@lmu.de
Passwort: Sch3ll!ng1860

React interface

No Sketch Engine interface

Alle Funktionen von Sketch Engine:

ausgenommen: Word Sketches, Ngrams und Thesaurus

Zusätzlich:

linguistische Attribute
- Dependency Parsing
- Morphological Parsing
- Named Entity Recognition
semantische Analysen auf Basis von Embeddings
Klassifikation von Korpusdaten mit LLMs
vollumfänglicher Export
API für Python und R
Dokumentation für Features und Korpora

Wort-Formen für [lemma="denken"] im GeRedE-Korpus:

Frequenz von [word="eh"] zwischen Communities im GeRedE-Korpus:

[lemma="virus"] im Russian Reddit - Korpus:

Causative alternation für [lemma="break" & tag="vv.*"] im COCA:

[word="Putin"] im Russian Reddit-Korpus:

Aktuell verfügbare Korpora:

COHA (Davies): Corpus of Historical American English, 1820–2019, 475M Tokens. Genre-balanciert: Zeitungen, Zeitschriften, Belletristik, akademische Texte.
COCA (Davies): Corpus of Contemporary American English, 1990–heute, 560M Tokens. Genre-balanciert: Zeitungen, Zeitschriften, Belletristik, akademische Texte, TV/Film.
Stream (Benker): Englische YouTube-Transkripte, drei Kanäle (Entertainment, Commentary), ~15M Tokens.
ICE-Bahamas (Hackert): International Corpus of English – Bahamas-Komponente, 50K Tokens. Varietätenforschung im karibischen Englisch.
UniPlans (Kersten): Englische Strategiepläne von 50 Universitäten weltweit, 2020–2024, 383K Tokens. Institutioneller Diskurs und Hochschulpolitik.
ruRed: Russische Reddit-Diskussionen (r/Pikabu, r/AskARussian), 215M Tokens. Informelle Online-Kommunikation.
fRed: Französische Reddit-Diskussionen aus Quebec, Frankreich und Belgien (r/Quebec, r/rance, r/Belgium2), 272M Tokens.
GeRedE (FAU): Deutsche Reddit-Diskussionen aus 11 Subreddits (Austria, ich_iel, Finanzen, etc.), 51M Tokens, 2010–2018. Informelle Online-Kommunikation.

Siehe Dokumentation für Details und CQL-Beispiele.

Wir sehen aktuell Potenzial für die Englische Sprachwissenschaft & Didaktik.
Für die nachhaltige Entwicklung des Projekts werden langfristige Ressourcen für
- Development & Maintenance,
- Infrastruktur,
- und Beratung bei Analysen und Verarbeitung neuer Daten notwendig sein.

Gibt es grundsätzlich Interesse oder Bedarfe an anderen Lehrstühlen?
Wenn ja, gibt es bestimme Datensätze oder Methoden, die von besonderem Interesse wären?
Ideen für die weitere Durchführung und institutionelle Organisation?