Munich Corpus Lab

Germanistische Linguistik, LMU München

Quirin Würschinger | 21. Januar 2026
q.wuerschinger@lmu.de

Projektkontext

Anlass und Bedarfe

Anlass: Lizenzgebühren für english-corpora.org und Sketch Engine

Weitere sprachwissenschaftliche Bedarfe:

  • Nutzen bestehender Korpora außerhalb von Plattformen/Tools
  • Erstellen von Korpora: z.B. moderne Datenquellen wie Reddit, YouTube und WhatsApp
  • Analyse von Korpora mit aktuellen Methoden aus NLP und LLMs (z.B. dependency parsing, topic modelling, sentiment analysis, embeddings, classification)
  • Forschungsdatenmanagement: Teilen, Publizieren und Archivieren von korpuslinguistischen Daten

Munich Corpus Lab

Ziel: effektive und nachhaltige korpuslinguistische Arbeit

  • App
  • Infrastruktur
  • Service

Erster Schritt: Entwicklung einer App, um Potenziale zu prüfen.

Die Munich Corpus Lab App

https://www.wuerschinger.org/mcl
Benutzername: lipp@lmu.de
Passwort: Sch3ll!ng1860

React interface

No Sketch Engine interface

Feature-Übersicht

Alle Funktionen von Sketch Engine:

  • Query Builder
  • Konkordanzen
  • linguistische Attribute
    • Satzsegmentierung
    • Lemmatisierung
    • POS tagging
  • Frequenzanalysen

ausgenommen: Word Sketches, Ngrams und Thesaurus

Zusätzlich:

  • linguistische Attribute
    • Dependency Parsing
    • Morphological Parsing
    • Named Entity Recognition
  • semantische Analysen auf Basis von Embeddings
  • Klassifikation von Korpusdaten mit LLMs
  • vollumfänglicher Export
  • API für Python und R
  • Dokumentation für Features und Korpora

Aktuelle Funktionen

Query Builder

Concordance View

Frequenzanalyse

Verb in [lemma="be"] [word="going"] [word="to"] [tag="VB.*"] im Stream-Korpus:

[lemma="virus"] im Russian Reddit - Korpus:

Named Entities

[ent_type="GPE" & deprel="dobj"] im UniPlans-Korpus:

Semantic analysis

[lemma="mouse"] im COCA:

LLM classification

Causative alternation für [lemma="break" & tag="vv.*"] im COCA:

[word="Putin"] im Russian Reddit-Korpus:

Aktuell verfügbare Korpora

  • COHA (Davies 2012): Corpus of Historical American English, 1820–2019, 475M Tokens. Genre-balanciert: Zeitungen, Zeitschriften, Belletristik, akademische Texte.
  • COCA (Davies 2010): Corpus of Contemporary American English, 1990–heute, 560M Tokens. Genre-balanciert: Zeitungen, Zeitschriften, Belletristik, akademische Texte, TV/Film.
  • Stream (Benker): Englische YouTube-Transkripte, drei Kanäle (Entertainment, Commentary), ~15M Tokens.
  • ICE-Bahamas (Hackert 2010): International Corpus of English – Bahamas-Komponente, 50K Tokens. Varietätenforschung im karibischen Englisch.
  • UniPlans (Kersten): Englische Strategiepläne von 50 Universitäten weltweit, 2020–2024, 383K Tokens. Institutioneller Diskurs und Hochschulpolitik.
  • enRed: Englische Reddit-Diskussionen aus regionalen Subreddits (r/Wales, r/Scotland, r/northernireland, r/AskUK, r/AskAnAmerican), 1,47B Tokens, 2010–2024. Varietätenforschung.
  • ruRed: Russische Reddit-Diskussionen (r/Pikabu, r/AskARussian), 215M Tokens. Informelle Online-Kommunikation.
  • fRed: Französische Reddit-Diskussionen aus Quebec, Frankreich und Belgien (r/Quebec, r/rance, r/Belgium2), 272M Tokens.
  • GeRedE (FAU): Deutsche Reddit-Diskussionen aus 11 Subreddits (Austria, ich_iel, Finanzen, etc.), 51M Tokens, 2010–2018. Informelle Online-Kommunikation.
  • deRed: Deutsche Reddit-Diskussionen mit Dialekterkennung (GlotLID), 14 Subreddits, 61M Tokens, 2018–2025. Bairisch, Alemannisch, Schweizerdeutsch.

Anwendung in der Germanistischen Linguistik

Aktuell verfügbare Korpora

  • GeRedE (Blombach u. a. 2020): Deutsche Reddit-Diskussionen aus 11 Subreddits, 51M Tokens, 2010–2018. Entwickelt an der FAU Erlangen-Nürnberg. Sprachfilterung über Thread-Level-Scores.

  • deRed: Deutsche Reddit-Diskussionen, 61M Tokens, 2018–2025. Erweiterte Annotation mit Dialekterkennung, Meme-Metadaten und Social Network Analysis. Details auf der nächsten Folie.

deRed: Deutsches Reddit — Korpusaufbau

Eckdaten

Metrik Wert
Tokens 61M
Dokumente 1,9M
Subreddits 14
Zeitraum 2018–2025
spaCy-Modell de_core_news_lg

Communities

  • 🇦🇹 Austria, aeiou, wien, graz
  • 🇩🇪 de, ich_iel, FragReddit, Finanzen
  • 🔵⚪ bavaria, Munich, fcbayern, 1860Munich

Dialekterkennung (GlotLID)

Entwickelt am CIS der LMU (Kargaran u. a. 2023)
Varietät Tokens Anteil
Standarddeutsch 7,8M 77,50%
Englisch (Code-Switching) 1,5M 15,50%
Bairisch 345K 3,40%
Alemannisch 25K 0,25%
Niederdeutsch 2K 0,02%

Regionale Nutzer-Flairs:

Wien, Steiermark, OÖ, NÖ, Tirol, Kärnten, Salzburg, Vorarlberg, Burgenland

Linguistische Features

Lexikalische Variation

Frequenz von [word="eh"] im deRed-Korpus.

Lemmatisierung

Wort-Formen für [lemma="denken"] im GeRedE-Korpus:

Morphological Parsing

[morph=".Gender=Masc."] im GeRedE-Korpus:

Frequenzanalysen

Frequenz von [word="eh"] zwischen Communities im GeRedE-Korpus:

Dependenzen

Relativsätze: Bairisches wo

Beispiele:

  • Der oane der wo beim Starmania gsungen hat
  • die wo denken das es echt is
  • Der Sturm der wo des kloane Ding ausradiert
  • des wo ummalieng sig hau i des weg
  • wos wo i üban durchschnitt bin

Memes

ich_iel (Standarddeutsch)
Score 1029

Phrase Treffer
Hurensohn 7.121
Sprich Deutsch 365
meine Kerle 165

aeiou (Österreichisch)
Score 353

Phrase Treffer
ned 13.546
Oida 5.046
Piefke 714

Semantische Analysen

LLM-Klassifikation

Dialekte

Bairisch (345K Tokens, 3,4%)

  • Na, Junior, wü i ned
  • I sog das i sie ned mog
  • I loss mi ned va eich vaoaschn

[word="ned"] within <doc lang_group="de_bavarian"/>

Alemannisch/Schweizerdeutsch (25K Tokens, 0,25%)

  • Hüt hani en nöis Schimpfwort glernt: Pifke
  • züridütsch gsii wenni mi recht errinere
  • us am Ländle hot mi dia Nachricht verletzt

[word="hani" | word="gsii"] within <doc lang_group="de_alemannic"/>

Register: formell vs. informell

r/Finanzen (formal)

  • allerdings — 260 pmw
  • jedoch — 138 pmw

„Das wichtigste ist allerdings das ich einen sehr guten Schlaf habe.”

[word="allerdings"] within <doc subreddit="Finanzen"/>

r/ich_iel (informal)

  • allerdings — nur 76 pmw (3.4× weniger)
  • ne? — 13.3 pmw (3.8× mehr als Finanzen)

„Wirst schon wissen was du tust, ne?

[word="ne"] [word="\?"] within <doc subreddit="ich_iel"/>

→ formelle Konnektoren vs. informelle Diskurspartikeln

Individuelle Variation: Intensifier

Intensifier bei gut (via [tag="ADV" & head="gut"])

Autor sehr ziemlich n
YMK1234 22% 3% 93
LolaRuns 6% 12% 223
  • „…im Geschichtsunterricht sehr gut geschlafen” (YMK1234)
  • „…zeigt ziemlich gut dass das subreddit hier…” (LolaRuns)

[tag="ADV" & head="gut"] within <doc author="YMK1234"/>

Top 10 AutorInnen

# Autor Tokens
1 LolaRuns 418K
2 mitsuhiko 192K
3 Sukrim 135K
4 YMK1234 134K
5 Sordak 121K
6 rupaw67 96K
7 cwebb1977 85K
8 Alpha_LetItGo 80K
9 ManWithABeard 79K
10 iKnitYogurt 76K

Social Network Analysis

Subreddit Network

User Interaction Network (r/Austria)

Fazit

Fazit

  • Wir sehen aktuell Potenzial für die Englische Sprachwissenschaft & Didaktik.
  • Für die nachhaltige Entwicklung des Projekts werden langfristige Ressourcen für
    • Development & Maintenance,
    • Infrastruktur,
    • und Beratung bei Analysen und Verarbeitung neuer Daten notwendig sein.

Diskussion

  • Gibt es grundsätzlich Interesse oder Bedarfe?
  • Wenn ja, gibt es bestimme Datensätze oder Methoden, die von besonderem Interesse wären?
  • Ideen für die weitere Durchführung und institutionelle Organisation?

Referenzen

Blombach, Andreas, Natalie Dykes, Philipp Heinrich, Besim Kabashi, und Thomas Proisl. 2020. „A Corpus of German Reddit Exchanges (GeRedE)“. In Proceedings of the Twelfth Language Resources and Evaluation Conference, 6310–16. Marseille, France: European Language Resources Association. https://aclanthology.org/2020.lrec-1.774/.
Davies, Mark. 2010. „The Corpus of Contemporary American English as the first reliable monitor corpus of English“. Literary and Linguistic Computing 25 (4): 447–64. https://doi.org/10.1093/llc/fqq018.
———. 2012. „Expanding horizons in historical linguistics with the 400-million word Corpus of Historical American English“. Corpora 7: 121–57. https://doi.org/10.3366/cor.2012.0024.
Hackert, Stephanie. 2010. ICE Bahamas: Why and how?“ ICAME Journal 34: 41–53. https://www.ice-corpora.uzh.ch/en/joinice/Teams/iceba.html.
Kargaran, Amir Hossein, Ayyoob Imani, François Yvon, und Hinrich Schütze. 2023. GlotLID: Language Identification for Low-Resource Languages“. In Findings of the Association for Computational Linguistics: EMNLP 2023, 6155–6218. Singapore: Association for Computational Linguistics. https://doi.org/10.18653/v1/2023.findings-emnlp.410.