Munich Corpus Lab

Graduiertenschule Sprache & Literatur, LMU München

Quirin Würschinger | January 14, 2026
q.wuerschinger@lmu.de

Projektkontext

Anlass und Bedarfe

Anlass: Lizenzgebühren für english-corpora.org und Sketch Engine

Weitere sprachwissenschaftliche Bedarfe:

  • Nutzen bestehender Korpora außerhalb von Plattformen/Tools
  • Erstellen von Korpora: z.B. moderne Datenquellen wie Reddit, YouTube und WhatsApp
  • Analyse von Korpora mit aktuellen Methoden aus NLP und LLMs (z.B. dependency parsing, topic modelling, sentiment analysis, embeddings, classification)
  • Forschungsdatenmanagement: Teilen, Publizieren und Archivieren von korpuslinguistischen Daten

Munich Corpus Lab

Ziel: effektive und nachhaltige korpuslinguistische Arbeit

  • App
  • Infrastruktur
  • Service

Erster Schritt: Entwicklung einer App, um Potenziale zu prüfen.

Die Munich Corpus Lab App

https://www.wuerschinger.org/mcl
Benutzername: lipp@lmu.de
Passwort: Sch3ll!ng1860

React interface

No Sketch Engine interface

Feature-Übersicht

Alle Funktionen von Sketch Engine:

  • Query Builder
  • Konkordanzen
  • linguistische Attribute
    • Satzsegmentierung
    • Lemmatisierung
    • POS tagging
  • Frequenzanalysen

ausgenommen: Word Sketches, Ngrams und Thesaurus

Zusätzlich:

  • linguistische Attribute
    • Dependency Parsing
    • Morphological Parsing
    • Named Entity Recognition
  • semantische Analysen auf Basis von Embeddings
  • Klassifikation von Korpusdaten mit LLMs
  • vollumfänglicher Export
  • API für Python und R
  • Dokumentation für Features und Korpora

Aktuelle Funktionen

Query Builder

Concordance View

Frequenzanalyse

Verb in [lemma="be"] [word="going"] [word="to"] [tag="VB.*"] im Stream-Korpus:

Wort-Formen für [lemma="denken"] im GeRedE-Korpus:

Frequenz von [word="eh"] zwischen Communities im GeRedE-Korpus:

[lemma="virus"] im Russian Reddit - Korpus:

Dependenzen

Named Entities

[ent_type="GPE" & deprel="dobj"] im UniPlans-Korpus:

Semantic analysis

[lemma="mouse"] im COCA:

LLM classification

Causative alternation für [lemma="break" & tag="vv.*"] im COCA:

[word="Putin"] im Russian Reddit-Korpus:

Korpora

Aktuell verfügbare Korpora:

  • COHA (Davies): Corpus of Historical American English, 1820–2019, 475M Tokens. Genre-balanciert: Zeitungen, Zeitschriften, Belletristik, akademische Texte.
  • COCA (Davies): Corpus of Contemporary American English, 1990–heute, 560M Tokens. Genre-balanciert: Zeitungen, Zeitschriften, Belletristik, akademische Texte, TV/Film.
  • Stream (Benker): Englische YouTube-Transkripte, drei Kanäle (Entertainment, Commentary), ~15M Tokens.
  • ICE-Bahamas (Hackert): International Corpus of English – Bahamas-Komponente, 50K Tokens. Varietätenforschung im karibischen Englisch.
  • UniPlans (Kersten): Englische Strategiepläne von 50 Universitäten weltweit, 2020–2024, 383K Tokens. Institutioneller Diskurs und Hochschulpolitik.
  • ruRed: Russische Reddit-Diskussionen (r/Pikabu, r/AskARussian), 215M Tokens. Informelle Online-Kommunikation.
  • fRed: Französische Reddit-Diskussionen aus Quebec, Frankreich und Belgien (r/Quebec, r/rance, r/Belgium2), 272M Tokens.
  • GeRedE (FAU): Deutsche Reddit-Diskussionen aus 11 Subreddits (Austria, ich_iel, Finanzen, etc.), 51M Tokens, 2010–2018. Informelle Online-Kommunikation.

Siehe Dokumentation für Details und CQL-Beispiele.

Fazit

  • Wir sehen aktuell Potenzial für die Englische Sprachwissenschaft & Didaktik.
  • Für die nachhaltige Entwicklung des Projekts werden langfristige Ressourcen für
    • Development & Maintenance,
    • Infrastruktur,
    • und Beratung bei Analysen und Verarbeitung neuer Daten notwendig sein.

Diskussion

  • Gibt es grundsätzlich Interesse oder Bedarfe an anderen Lehrstühlen?
  • Wenn ja, gibt es bestimme Datensätze oder Methoden, die von besonderem Interesse wären?
  • Ideen für die weitere Durchführung und institutionelle Organisation?