Munich Corpus Lab

Slavische Sprachwissenschaft, LMU München

Quirin Würschinger | 27. Januar 2026
q.wuerschinger@lmu.de

https://mclab.short.gy/slav

Projektkontext

Anlass und Bedarfe

Anlass in der Anglistik: auslaufende Lizenzen für Korpusplattformenn

Weitergehende sprachwissenschaftliche Bedarfe:

Nutzen bestehender Korpora außerhalb von Plattformen/Tools
Erstellen von Korpora: z.B. moderne Datenquellen wie Reddit, YouTube und WhatsApp
Analyse von Korpora mit aktuellen Methoden aus NLP und LLMs (z.B. dependency parsing, topic modelling, sentiment analysis, embeddings, classification)
Forschungsdatenmanagement: Teilen, Publizieren und Archivieren von korpuslinguistischen Daten

Munich Corpus Lab

Bedarfe und Interesse auch an anderen Instituten der LMU:

Linguistiken: Anglistik, Germanistik, Slavistik, Romanistik
Didaktiken: korpusgestützte Sprachdidaktik, Lernenden-Korpora
Centrum für Informations- und Sprachverarbeitung (CIS): Computerlinguistik, NLP und LLMs
Institut für Phonetik und Sprachverarbeitung (IPS): Phonetik und Sprachverarbeitung

Ziel: kollaborative, moderne, nachhaltige korpuslinguistische Arbeit.

Bereitstellung und Integration von Korpora für Forschung und Lehre
“Application Interface” für Linguistiken verschiedener Philologien und methodische Disziplinen (Computerlinguistik, Phonetik)
Moderne Datenquellen: Reddit, YouTube, Web Korpora
Integration von Methoden aus AI und NLP: Dependency Parsing, semantische Analysen mit Embeddings, Topic Modelling, LLM-Klassifikationen

Erster Schritt: Entwicklung einer App, um Potenziale zu prüfen.

Korpora

Aktuell verfügbare Korpora

COHA (Davies 2012): Corpus of Historical American English, 1820–2019, 475M Tokens. Genre-balanciert: Zeitungen, Zeitschriften, Belletristik, akademische Texte.
COCA (Davies 2010): Corpus of Contemporary American English, 1990–heute, 560M Tokens. Genre-balanciert: Zeitungen, Zeitschriften, Belletristik, akademische Texte, TV/Film.
Stream (Benker): Englische YouTube-Transkripte, drei Kanäle (Entertainment, Commentary), ~15M Tokens.
ICE-Bahamas (Hackert 2010): International Corpus of English – Bahamas-Komponente, 50K Tokens. Varietätenforschung im karibischen Englisch.
UniPlans (Kersten): Englische Strategiepläne von 50 Universitäten weltweit, 2020–2024, 383K Tokens. Institutioneller Diskurs und Hochschulpolitik.
enRed: Englische Reddit-Diskussionen aus regionalen Subreddits (r/Wales, r/Scotland, r/northernireland, r/AskUK, r/AskAnAmerican), 1,47B Tokens, 2010–2024. Varietätenforschung.
ruRed: Russische Reddit-Diskussionen (r/Pikabu, r/AskARussian), 215M Tokens. Informelle Online-Kommunikation.
fRed: Französische Reddit-Diskussionen aus Quebec, Frankreich und Belgien (r/Quebec, r/rance, r/Belgium2), 272M Tokens.
GeRedE (FAU): Deutsche Reddit-Diskussionen aus 11 Subreddits (Austria, ich_iel, Finanzen, etc.), 51M Tokens, 2010–2018. Informelle Online-Kommunikation.

The Slovak Reddit Corpus (skRed)

Übersicht

Reddit: Social-Media-Plattform mit thematischen Communities (Subreddits). Öffentlich verfügbare Daten über Pushshift (Baumgartner u. a. 2020).

67M Tokens aus 5 Subreddits (2008–2024)

Subreddit	Tokens	Beschreibung
r/slovakia	~66M	Hauptforum: Politik, Kultur, Alltag
r/bratislava	~1M	Hauptstadt-Community
r/kosice	~40K	Zweitgrößte Stadt (Ostslowakei)
r/slovensko	~12K	Alternative slowakische Community
r/Slovak	~8K	Sprachlernen und -diskussion

Spracherkennung mit GlotLID (Kargaran u. a. 2023): 79% Westslawisch, 11% Germanisch, 10% Sonstige

Linguistische Features

NLP-Annotation mit UDPipe Slovak (Universal Dependencies):

Attribut	Query	Findet
`word`	[word="Slovensko"]	Slovensko (exakte Form)
`lemma`	[lemma="byť"]	je, sú, bol, bola, bude …
`tag`	[tag="VERB"]	alle Verben
`deprel`	[deprel="nsubj"]	Subjekte: ja, to, on, Slovensko …
`morph`	[morph=".Case=Loc."]	Lokativ: Slovensku, Bratislave …
`ent_type`	[ent_type="PER"]	Personen: Putin, Fico, Čaputová …

Metadaten

27 Dokument-Attribute für Social Network Analysis und Filterung; unter anderem:

Basis: subreddit, author, date, year
Sprache (GlotLID):
- lang: ISO-Code (sk, cs, en)
- lang_group: Sprachfamilie (west_slavic, germanic)
- lang_conf: Konfidenz (0–1)
Social Network Analysis:
- parent_id: Eltern-Kommentar → Reply-Netzwerke
- link_id: Thread-ID → Diskussionsstrukturen
- score: Upvotes → Einfluss-Gewichtung
Engagement: controversiality, gilded, num_comments
Kontext: title, post_flair (Politics, Meme, Question)

Die Munich Corpus Lab App

https://www.wuerschinger.org/mcl
Benutzername: lipp@lmu.de
Passwort: Sch3ll!ng1860

React interface

No Sketch Engine interface

Aktuelle Features

Übersicht

Alle Funktionen von Sketch Engine:

Query Builder
Konkordanzen
linguistische Attribute
- Satzsegmentierung
- Lemmatisierung
- POS tagging
Frequenzanalysen
Kollokationsanalysen

ausgenommen: Word Sketches, Ngrams und Thesaurus

Zusätzlich:

linguistische Attribute
- Dependency Parsing
- Morphological Parsing
- Named Entity Recognition
semantische Analysen auf Basis von Embeddings
Klassifikation von Korpusdaten mit LLMs
Social Network Analysis
vollumfänglicher Export
API für Python und R
Dokumentation für Features und Korpora

Query Builder

Concordance View

Slowakisch: Polysemie von strana

[lemma="strana"] im skRed-Korpus — 57.717 Treffer:

Frequenzanalyse

Verb in [lemma="be"] [word="going"] [word="to"] [tag="VB.*"] im Stream-Korpus:

Wort-Formen für [lemma="denken"] im GeRedE-Korpus:

Frequenz von [word="eh"] zwischen Communities im GeRedE-Korpus:

[lemma="virus"] im Russian Reddit - Korpus:

Slowakisch: Diachrone Entwicklung

[lemma="strana"] im skRed-Korpus — Frequenz nach Jahr:

Slowakisch: Sprachfamilienverteilung

[lemma="strana"] im skRed-Korpus — Frequenz nach Sprachfamilie:

Dependenzen

[lemma="Mensch" & deprel="da"] [tag="VVFIN"] im GeRedE-Korpus:

Slowakisch: Reflexivmarker “sa” — Grammatikalisierung

[lemma="sa"] — Dependency-Verteilung:

~90% nicht als inhärent reflexiv klassifiziert.

Tag	Bedeutung	Beispiel
`expl:pv`	Inhärent reflexiv	vyjadriť sa (sich äußern)
`expl:pass`	Reflexivpassiv	sa riešilo (wurde besprochen)
`obj`	Echtes Reflexiv	myjem sa (ich wasche mich)

Named Entities

[ent_type="GPE" & deprel="dobj"] im UniPlans-Korpus:

Semantic analysis

[lemma="mouse"] im COCA:

Slowakisch: Polysemie-Cluster

[lemma="strana"] — t-SNE Clustering (200 Samples, Silhouette: 0.409):

LLM classification

Causative alternation für [lemma="break" & tag="vv.*"] im COCA:

[word="Putin"] im Russian Reddit-Korpus:

Slowakisch: Word Sense Disambiguation

[lemma="strana"] — Polysemie-Klassifikation:

Slowakisch: Aspekt-Klassifikation

[lemma="robiť" | lemma="urobiť"] — perfektiv vs. imperfektiv:

Slowakisch: Sentiment-Analyse

[word="Fico" | word="Ficovi" | word="Fica"] — Einstellung zum slowakischen PM:

Slowakisch: Diminutiv-Funktion

[word=".*[íč]ko"] — Funktion der Diminutivformen:

Subreddit-Netzwerk

User Interaction Network (r/Austria)

Nächste Schritte

Integration weiterer Korpora

Deutsches Reddit-Korpus: Erweiterung zu umfassender Abdeckung (10M+ Dokumente) in Kooperation mit Prof. Bülow
ICE Bahamas: Erweiterung zu umfassender Abdeckung im Rahmen des DFG-Projekts von Prof. Hackert (Hackert 2010)
Bairisch-Korpus: Dialektkorpus in Kooperation mit Prof. Plank (MaiBaam: Blaschke u. a. (2024)) und Prof. Bülow
BNC 2014: British National Corpus, gesprochene Sprache (Love u. a. 2017)
TV/Movie Corpus (Davies 2021): Englische Film- und Fernseh-Untertitel, 325M Wörter, 1950–2018
TokPisin: Tok Pisin Korpus in Kooperation mit Prof. Hackert (Papua-Neuguinea Kreolsprache)
YouTube-Korpus: Automatische Transkription und IPA-Annotation in Kooperation mit dem IPS (WebMAUS: Kisler, Schiel, und Sloetjes (2012))
EEBO: Early English Books Online, 765M Wörter, 1470s–1690s (Text Creation Partnership 2015)
ARCHER: A Representative Corpus of Historical English Registers, 1600–1999 (Biber, Finegan, und Atkinson 1994)

Features in Entwicklung

Social Network Analysis UI: Visualisierung von Reply-Netzwerken, Autor-Interaktionen
Dependency Query Builder: Interaktives User Interface für syntaktische Abfragen
Semantische Tags: Kategorisierung nach semantischen Feldern (Wmatrix: Rayson (2008))
Topic Modelling: Topic Modelling von Korpusdaten mit LLMs
Transkription: Automatische Transkription für YouTube und Audio-Daten (WebMAUS: Kisler, Schiel, und Sloetjes (2012))
AI Analysis Mode: Automatisierte Korpusanalyse mit LLMs
Annotations-Modul: Annotation von Konkordanzen durch Menschen und Maschinen

Fazit

Wir sehen aktuell Potenzial für die Englische Sprachwissenschaft & Didaktik.
Es gibt großes Interesse an anderen Instituten (Linguistiken, Didaktiken, CIS, IPS).
Für die nachhaltige Entwicklung des Projekts werden langfristige Ressourcen notwendig sein für
- Development & Maintenance der App (Pre-processing, Features, Korpora, etc.),
- Infrastruktur (Server, Authentifizierungs-System, Datenbanken etc.),
- und Service für die Verarbeitung neuer Daten und Analysen.

Diskussion

Gibt es grundsätzlich Interesse in der Slavistik?
Wenn ja, gibt es bestimme Datensätze oder Methoden, die von besonderem Interesse wären?
Ideen für die weitere Durchführung und institutionelle Organisation?

Referenzen

Baumgartner, Jason, Savvas Zannettou, Brian Keegan, Megan Squire, und Jeremy Blackburn. 2020. „The Pushshift Reddit Dataset“. Proceedings of the International AAAI Conference on Web and Social Media 14 (1): 830–39. https://doi.org/10.1609/icwsm.v14i1.7347.

Biber, Douglas, Edward Finegan, und Dwight Atkinson. 1994. „ARCHER and Its Challenges: Compiling and Exploring A Representative Corpus of Historical English Registers“. In Creating and Using English Language Corpora: Papers from the 14th International Conference on English Language Research on Computerized Corpora. Amsterdam: Rodopi.

Blaschke, Verena, Barbara Kovačić, Siyao Peng, Hinrich Schütze, und Barbara Plank. 2024. „MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank“. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), 10921–38. Torino, Italia: ELRA; ICCL. https://aclanthology.org/2024.lrec-main.953/.

Davies, Mark. 2010. „The Corpus of Contemporary American English as the first reliable monitor corpus of English“. Literary and Linguistic Computing 25 (4): 447–64. https://doi.org/10.1093/llc/fqq018.

———. 2012. „Expanding horizons in historical linguistics with the 400-million word Corpus of Historical American English“. Corpora 7: 121–57. https://doi.org/10.3366/cor.2012.0024.

———. 2021. „The TV and Movies corpora: Design, construction, and use“. International Journal of Corpus Linguistics 26 (1): 10–37. https://doi.org/10.1075/ijcl.00035.dav.

Hackert, Stephanie. 2010. „ICE Bahamas: Why and how?“ ICAME Journal 34: 41–53. https://www.ice-corpora.uzh.ch/en/joinice/Teams/iceba.html.

Kargaran, Amir Hossein, Ayyoob Imani, François Yvon, und Hinrich Schütze. 2023. „GlotLID: Language Identification for Low-Resource Languages“. In Findings of the Association for Computational Linguistics: EMNLP 2023, 6155–6218. Singapore: Association for Computational Linguistics. https://doi.org/10.18653/v1/2023.findings-emnlp.410.

Kisler, Thomas, Florian Schiel, und Han Sloetjes. 2012. „Signal processing via web services: The use case WebMAUS“. In Proceedings Digital Humanities 2012, 30–34. Hamburg, Germany.

Love, Robbie, Claire Dembry, Andrew Hardie, Vaclav Brezina, und Tony McEnery. 2017. „The Spoken BNC2014: Designing and building a spoken corpus of everyday conversations“. International Journal of Corpus Linguistics 22 (3): 319–44. https://doi.org/10.1075/ijcl.22.3.02lov.

Rayson, Paul. 2008. „From key words to key semantic domains“. In International Journal of Corpus Linguistics, 13:519–49. 4. https://doi.org/10.1075/ijcl.13.4.06ray.

Text Creation Partnership. 2015. „Early English Books Online – Text Creation Partnership (EEBO-TCP)“. Oxford; Ann Arbor, Michigan. https://textcreationpartnership.org/tcp-texts/eebo-tcp-early-english-books-online/.