Munich Corpus Lab

Germanistische Linguistik, LMU München

Quirin Würschinger | 21. Januar 2026
q.wuerschinger@lmu.de

https://mclab.short.gy/germ

Projektkontext

Anlass und Bedarfe

Anlass: Lizenzgebühren für english-corpora.org und Sketch Engine

Weitere sprachwissenschaftliche Bedarfe:

Nutzen bestehender Korpora außerhalb von Plattformen/Tools
Erstellen von Korpora: z.B. moderne Datenquellen wie Reddit, YouTube und WhatsApp
Analyse von Korpora mit aktuellen Methoden aus NLP und LLMs (z.B. dependency parsing, topic modelling, sentiment analysis, embeddings, classification)
Forschungsdatenmanagement: Teilen, Publizieren und Archivieren von korpuslinguistischen Daten

Munich Corpus Lab

Ziel: effektive und nachhaltige korpuslinguistische Arbeit

App
Infrastruktur
Service

Erster Schritt: Entwicklung einer App, um Potenziale zu prüfen.

Die Munich Corpus Lab App

https://www.wuerschinger.org/mcl
Benutzername: lipp@lmu.de
Passwort: Sch3ll!ng1860

React interface

No Sketch Engine interface

Feature-Übersicht

Alle Funktionen von Sketch Engine:

Query Builder
Konkordanzen
linguistische Attribute
- Satzsegmentierung
- Lemmatisierung
- POS tagging
Frequenzanalysen

ausgenommen: Word Sketches, Ngrams und Thesaurus

Zusätzlich:

linguistische Attribute
- Dependency Parsing
- Morphological Parsing
- Named Entity Recognition
semantische Analysen auf Basis von Embeddings
Klassifikation von Korpusdaten mit LLMs
vollumfänglicher Export
API für Python und R
Dokumentation für Features und Korpora

Aktuelle Funktionen

Query Builder

Concordance View

Frequenzanalyse

Verb in [lemma="be"] [word="going"] [word="to"] [tag="VB.*"] im Stream-Korpus:

[lemma="virus"] im Russian Reddit - Korpus:

Named Entities

[ent_type="GPE" & deprel="dobj"] im UniPlans-Korpus:

Semantic analysis

[lemma="mouse"] im COCA:

LLM classification

Causative alternation für [lemma="break" & tag="vv.*"] im COCA:

[word="Putin"] im Russian Reddit-Korpus:

Aktuell verfügbare Korpora

COHA (Davies 2012): Corpus of Historical American English, 1820–2019, 475M Tokens. Genre-balanciert: Zeitungen, Zeitschriften, Belletristik, akademische Texte.
COCA (Davies 2010): Corpus of Contemporary American English, 1990–heute, 560M Tokens. Genre-balanciert: Zeitungen, Zeitschriften, Belletristik, akademische Texte, TV/Film.
Stream (Benker): Englische YouTube-Transkripte, drei Kanäle (Entertainment, Commentary), ~15M Tokens.
ICE-Bahamas (Hackert 2010): International Corpus of English – Bahamas-Komponente, 50K Tokens. Varietätenforschung im karibischen Englisch.
UniPlans (Kersten): Englische Strategiepläne von 50 Universitäten weltweit, 2020–2024, 383K Tokens. Institutioneller Diskurs und Hochschulpolitik.
enRed: Englische Reddit-Diskussionen aus regionalen Subreddits (r/Wales, r/Scotland, r/northernireland, r/AskUK, r/AskAnAmerican), 1,47B Tokens, 2010–2024. Varietätenforschung.
ruRed: Russische Reddit-Diskussionen (r/Pikabu, r/AskARussian), 215M Tokens. Informelle Online-Kommunikation.
fRed: Französische Reddit-Diskussionen aus Quebec, Frankreich und Belgien (r/Quebec, r/rance, r/Belgium2), 272M Tokens.
GeRedE (FAU): Deutsche Reddit-Diskussionen aus 11 Subreddits (Austria, ich_iel, Finanzen, etc.), 51M Tokens, 2010–2018. Informelle Online-Kommunikation.
deRed: Deutsche Reddit-Diskussionen mit Dialekterkennung (GlotLID), 14 Subreddits, 61M Tokens, 2018–2025. Bairisch, Alemannisch, Schweizerdeutsch.

Anwendung in der Germanistischen Linguistik

Aktuell verfügbare Korpora

GeRedE (Blombach u. a. 2020): Deutsche Reddit-Diskussionen aus 11 Subreddits, 51M Tokens, 2010–2018. Entwickelt an der FAU Erlangen-Nürnberg. Sprachfilterung über Thread-Level-Scores.
deRed: Deutsche Reddit-Diskussionen, 61M Tokens, 2018–2025. Erweiterte Annotation mit Dialekterkennung, Meme-Metadaten und Social Network Analysis. Details auf der nächsten Folie.

`deRed`: Deutsches Reddit — Korpusaufbau

Eckdaten

Metrik	Wert
Tokens	61M
Dokumente	1,9M
Subreddits	14
Zeitraum	2018–2025
spaCy-Modell	`de_core_news_lg`

Communities

🇦🇹 Austria, aeiou, wien, graz
🇩🇪 de, ich_iel, FragReddit, Finanzen
🔵⚪ bavaria, Munich, fcbayern, 1860Munich

Dialekterkennung (GlotLID)

Entwickelt am CIS der LMU (Kargaran u. a. 2023)
Varietät	Tokens	Anteil
Standarddeutsch	7,8M	77,50%
Englisch (Code-Switching)	1,5M	15,50%
Bairisch	345K	3,40%
Alemannisch	25K	0,25%
Niederdeutsch	2K	0,02%

Regionale Nutzer-Flairs:

Wien, Steiermark, OÖ, NÖ, Tirol, Kärnten, Salzburg, Vorarlberg, Burgenland

Linguistische Features

Lexikalische Variation

Frequenz von [word="eh"] im deRed-Korpus.

Lemmatisierung

Wort-Formen für [lemma="denken"] im GeRedE-Korpus:

Morphological Parsing

[morph=".Gender=Masc."] im GeRedE-Korpus:

Frequenzanalysen

Frequenz von [word="eh"] zwischen Communities im GeRedE-Korpus:

Dependenzen

[lemma="Mensch" & deprel="da"] [tag="VVFIN"] im GeRedE-Korpus:

Relativsätze: Bairisches wo

Beispiele:

Der oane der wo beim Starmania gsungen hat
die wo denken das es echt is
Der Sturm der wo des kloane Ding ausradiert
des wo ummalieng sig hau i des weg
wos wo i üban durchschnitt bin

Memes

ich_iel (Standarddeutsch)
Score 1029

Phrase	Treffer
Hurensohn	7.121
Sprich Deutsch	365
meine Kerle	165

aeiou (Österreichisch)
Score 353

Phrase	Treffer
ned	13.546
Oida	5.046
Piefke	714

Semantische Analysen

LLM-Klassifikation

Dialekte

Bairisch (345K Tokens, 3,4%)

Na, Junior, wü i ned
I sog das i sie ned mog
I loss mi ned va eich vaoaschn

[word="ned"] within <doc lang_group="de_bavarian"/>

Alemannisch/Schweizerdeutsch (25K Tokens, 0,25%)

Hüt hani en nöis Schimpfwort glernt: Pifke
züridütsch gsii wenni mi recht errinere
us am Ländle hot mi dia Nachricht verletzt

[word="hani" | word="gsii"] within <doc lang_group="de_alemannic"/>

Register: formell vs. informell

r/Finanzen (formal)

allerdings — 260 pmw
jedoch — 138 pmw

„Das wichtigste ist allerdings das ich einen sehr guten Schlaf habe.”

[word="allerdings"] within <doc subreddit="Finanzen"/>

r/ich_iel (informal)

allerdings — nur 76 pmw (3.4× weniger)
ne? — 13.3 pmw (3.8× mehr als Finanzen)

„Wirst schon wissen was du tust, ne?”

[word="ne"] [word="\?"] within <doc subreddit="ich_iel"/>

→ formelle Konnektoren vs. informelle Diskurspartikeln

Individuelle Variation: Intensifier

Intensifier bei gut (via [tag="ADV" & head="gut"])

Autor	sehr	ziemlich	n
YMK1234	22%	3%	93
LolaRuns	6%	12%	223

„…im Geschichtsunterricht sehr gut geschlafen” (YMK1234)
„…zeigt ziemlich gut dass das subreddit hier…” (LolaRuns)

[tag="ADV" & head="gut"] within <doc author="YMK1234"/>

Top 10 AutorInnen

#	Autor	Tokens
1	LolaRuns	418K
2	mitsuhiko	192K
3	Sukrim	135K
4	YMK1234	134K
5	Sordak	121K
6	rupaw67	96K
7	cwebb1977	85K
8	Alpha_LetItGo	80K
9	ManWithABeard	79K
10	iKnitYogurt	76K

Subreddit Network

User Interaction Network (r/Austria)

Fazit

Wir sehen aktuell Potenzial für die Englische Sprachwissenschaft & Didaktik.
Für die nachhaltige Entwicklung des Projekts werden langfristige Ressourcen für
- Development & Maintenance,
- Infrastruktur,
- und Beratung bei Analysen und Verarbeitung neuer Daten notwendig sein.

Diskussion

Gibt es grundsätzlich Interesse oder Bedarfe?
Wenn ja, gibt es bestimme Datensätze oder Methoden, die von besonderem Interesse wären?
Ideen für die weitere Durchführung und institutionelle Organisation?

Referenzen

Blombach, Andreas, Natalie Dykes, Philipp Heinrich, Besim Kabashi, und Thomas Proisl. 2020. „A Corpus of German Reddit Exchanges (GeRedE)“. In Proceedings of the Twelfth Language Resources and Evaluation Conference, 6310–16. Marseille, France: European Language Resources Association. https://aclanthology.org/2020.lrec-1.774/.

Davies, Mark. 2010. „The Corpus of Contemporary American English as the first reliable monitor corpus of English“. Literary and Linguistic Computing 25 (4): 447–64. https://doi.org/10.1093/llc/fqq018.

———. 2012. „Expanding horizons in historical linguistics with the 400-million word Corpus of Historical American English“. Corpora 7: 121–57. https://doi.org/10.3366/cor.2012.0024.

Hackert, Stephanie. 2010. „ICE Bahamas: Why and how?“ ICAME Journal 34: 41–53. https://www.ice-corpora.uzh.ch/en/joinice/Teams/iceba.html.

Kargaran, Amir Hossein, Ayyoob Imani, François Yvon, und Hinrich Schütze. 2023. „GlotLID: Language Identification for Low-Resource Languages“. In Findings of the Association for Computational Linguistics: EMNLP 2023, 6155–6218. Singapore: Association for Computational Linguistics. https://doi.org/10.18653/v1/2023.findings-emnlp.410.

Munich Corpus Lab

Projektkontext

Anlass und Bedarfe

Munich Corpus Lab

Die Munich Corpus Lab App

Feature-Übersicht

Aktuelle Funktionen

Query Builder

Concordance View

Frequenzanalyse

Named Entities

Semantic analysis

LLM classification

Aktuell verfügbare Korpora

Anwendung in der Germanistischen Linguistik

Aktuell verfügbare Korpora

deRed: Deutsches Reddit — Korpusaufbau

Linguistische Features

Lexikalische Variation

Lemmatisierung

Morphological Parsing

Frequenzanalysen

Dependenzen

Relativsätze: Bairisches wo

Memes

Semantische Analysen

LLM-Klassifikation

Dialekte

Register: formell vs. informell

Individuelle Variation: Intensifier

Social Network Analysis

Subreddit Network

User Interaction Network (r/Austria)

Fazit

Fazit

Diskussion

Referenzen

`deRed`: Deutsches Reddit — Korpusaufbau