Munich Corpus Lab

Slavische Sprachwissenschaft, LMU München

Quirin Würschinger | 27. Januar 2026
q.wuerschinger@lmu.de

Projektkontext

Anlass und Bedarfe

Anlass in der Anglistik: auslaufende Lizenzen für Korpusplattformenn

Weitergehende sprachwissenschaftliche Bedarfe:

  • Nutzen bestehender Korpora außerhalb von Plattformen/Tools
  • Erstellen von Korpora: z.B. moderne Datenquellen wie Reddit, YouTube und WhatsApp
  • Analyse von Korpora mit aktuellen Methoden aus NLP und LLMs (z.B. dependency parsing, topic modelling, sentiment analysis, embeddings, classification)
  • Forschungsdatenmanagement: Teilen, Publizieren und Archivieren von korpuslinguistischen Daten

Munich Corpus Lab

Bedarfe und Interesse auch an anderen Instituten der LMU:

  • Linguistiken: Anglistik, Germanistik, Slavistik, Romanistik
  • Didaktiken: korpusgestützte Sprachdidaktik, Lernenden-Korpora
  • Centrum für Informations- und Sprachverarbeitung (CIS): Computerlinguistik, NLP und LLMs
  • Institut für Phonetik und Sprachverarbeitung (IPS): Phonetik und Sprachverarbeitung

Ziel: kollaborative, moderne, nachhaltige korpuslinguistische Arbeit.

  • Bereitstellung und Integration von Korpora für Forschung und Lehre
  • “Application Interface” für Linguistiken verschiedener Philologien und methodische Disziplinen (Computerlinguistik, Phonetik)
  • Moderne Datenquellen: Reddit, YouTube, Web Korpora
  • Integration von Methoden aus AI und NLP: Dependency Parsing, semantische Analysen mit Embeddings, Topic Modelling, LLM-Klassifikationen

Erster Schritt: Entwicklung einer App, um Potenziale zu prüfen.

Korpora

Aktuell verfügbare Korpora

  • COHA (Davies 2012): Corpus of Historical American English, 1820–2019, 475M Tokens. Genre-balanciert: Zeitungen, Zeitschriften, Belletristik, akademische Texte.
  • COCA (Davies 2010): Corpus of Contemporary American English, 1990–heute, 560M Tokens. Genre-balanciert: Zeitungen, Zeitschriften, Belletristik, akademische Texte, TV/Film.
  • Stream (Benker): Englische YouTube-Transkripte, drei Kanäle (Entertainment, Commentary), ~15M Tokens.
  • ICE-Bahamas (Hackert 2010): International Corpus of English – Bahamas-Komponente, 50K Tokens. Varietätenforschung im karibischen Englisch.
  • UniPlans (Kersten): Englische Strategiepläne von 50 Universitäten weltweit, 2020–2024, 383K Tokens. Institutioneller Diskurs und Hochschulpolitik.
  • enRed: Englische Reddit-Diskussionen aus regionalen Subreddits (r/Wales, r/Scotland, r/northernireland, r/AskUK, r/AskAnAmerican), 1,47B Tokens, 2010–2024. Varietätenforschung.
  • ruRed: Russische Reddit-Diskussionen (r/Pikabu, r/AskARussian), 215M Tokens. Informelle Online-Kommunikation.
  • fRed: Französische Reddit-Diskussionen aus Quebec, Frankreich und Belgien (r/Quebec, r/rance, r/Belgium2), 272M Tokens.
  • GeRedE (FAU): Deutsche Reddit-Diskussionen aus 11 Subreddits (Austria, ich_iel, Finanzen, etc.), 51M Tokens, 2010–2018. Informelle Online-Kommunikation.

The Slovak Reddit Corpus (skRed)

Übersicht

Reddit: Social-Media-Plattform mit thematischen Communities (Subreddits). Öffentlich verfügbare Daten über Pushshift (Baumgartner u. a. 2020).

67M Tokens aus 5 Subreddits (2008–2024)

Subreddit Tokens Beschreibung
r/slovakia ~66M Hauptforum: Politik, Kultur, Alltag
r/bratislava ~1M Hauptstadt-Community
r/kosice ~40K Zweitgrößte Stadt (Ostslowakei)
r/slovensko ~12K Alternative slowakische Community
r/Slovak ~8K Sprachlernen und -diskussion

Spracherkennung mit GlotLID (Kargaran u. a. 2023): 79% Westslawisch, 11% Germanisch, 10% Sonstige

Linguistische Features

NLP-Annotation mit UDPipe Slovak (Universal Dependencies):

Attribut Query Findet
word [word="Slovensko"] Slovensko (exakte Form)
lemma [lemma="byť"] je, sú, bol, bola, bude
tag [tag="VERB"] alle Verben
deprel [deprel="nsubj"] Subjekte: ja, to, on, Slovensko
morph [morph=".Case=Loc."] Lokativ: Slovensku, Bratislave
ent_type [ent_type="PER"] Personen: Putin, Fico, Čaputová

Metadaten

27 Dokument-Attribute für Social Network Analysis und Filterung; unter anderem:

  • Basis: subreddit, author, date, year
  • Sprache (GlotLID):
    • lang: ISO-Code (sk, cs, en)
    • lang_group: Sprachfamilie (west_slavic, germanic)
    • lang_conf: Konfidenz (0–1)
  • Social Network Analysis:
    • parent_id: Eltern-Kommentar → Reply-Netzwerke
    • link_id: Thread-ID → Diskussionsstrukturen
    • score: Upvotes → Einfluss-Gewichtung
  • Engagement: controversiality, gilded, num_comments
  • Kontext: title, post_flair (Politics, Meme, Question)

Die Munich Corpus Lab App

https://www.wuerschinger.org/mcl
Benutzername: lipp@lmu.de
Passwort: Sch3ll!ng1860

React interface

No Sketch Engine interface

Aktuelle Features

Übersicht

Alle Funktionen von Sketch Engine:

  • Query Builder
  • Konkordanzen
  • linguistische Attribute
    • Satzsegmentierung
    • Lemmatisierung
    • POS tagging
  • Frequenzanalysen
  • Kollokationsanalysen

ausgenommen: Word Sketches, Ngrams und Thesaurus

Zusätzlich:

  • linguistische Attribute
    • Dependency Parsing
    • Morphological Parsing
    • Named Entity Recognition
  • semantische Analysen auf Basis von Embeddings
  • Klassifikation von Korpusdaten mit LLMs
  • Social Network Analysis
  • vollumfänglicher Export
  • API für Python und R
  • Dokumentation für Features und Korpora

Query Builder

Concordance View

Slowakisch: Polysemie von strana

[lemma="strana"] im skRed-Korpus — 57.717 Treffer:

Frequenzanalyse

Verb in [lemma="be"] [word="going"] [word="to"] [tag="VB.*"] im Stream-Korpus:

Wort-Formen für [lemma="denken"] im GeRedE-Korpus:

Frequenz von [word="eh"] zwischen Communities im GeRedE-Korpus:

[lemma="virus"] im Russian Reddit - Korpus:

Slowakisch: Diachrone Entwicklung

[lemma="strana"] im skRed-Korpus — Frequenz nach Jahr:

Slowakisch: Sprachfamilienverteilung

[lemma="strana"] im skRed-Korpus — Frequenz nach Sprachfamilie:

Dependenzen

Slowakisch: Reflexivmarker “sa” — Grammatikalisierung

[lemma="sa"] — Dependency-Verteilung:

~90% nicht als inhärent reflexiv klassifiziert.

Tag Bedeutung Beispiel
expl:pv Inhärent reflexiv vyjadriť sa (sich äußern)
expl:pass Reflexivpassiv sa riešilo (wurde besprochen)
obj Echtes Reflexiv myjem sa (ich wasche mich)

Named Entities

[ent_type="GPE" & deprel="dobj"] im UniPlans-Korpus:

Semantic analysis

[lemma="mouse"] im COCA:

Slowakisch: Polysemie-Cluster

[lemma="strana"] — t-SNE Clustering (200 Samples, Silhouette: 0.409):

LLM classification

Causative alternation für [lemma="break" & tag="vv.*"] im COCA:

[word="Putin"] im Russian Reddit-Korpus:

Slowakisch: Word Sense Disambiguation

[lemma="strana"] — Polysemie-Klassifikation:

Slowakisch: Aspekt-Klassifikation

[lemma="robiť" | lemma="urobiť"] — perfektiv vs. imperfektiv:

Slowakisch: Sentiment-Analyse

[word="Fico" | word="Ficovi" | word="Fica"] — Einstellung zum slowakischen PM:

Slowakisch: Diminutiv-Funktion

[word=".*[íč]ko"] — Funktion der Diminutivformen:

Social Network Analysis

Subreddit-Netzwerk

Im deRed-Korpus.

User Interaction Network (r/Austria)

Im deRed-Korpus.

Nächste Schritte

Integration weiterer Korpora

  • Deutsches Reddit-Korpus: Erweiterung zu umfassender Abdeckung (10M+ Dokumente) in Kooperation mit Prof. Bülow
  • ICE Bahamas: Erweiterung zu umfassender Abdeckung im Rahmen des DFG-Projekts von Prof. Hackert (Hackert 2010)
  • Bairisch-Korpus: Dialektkorpus in Kooperation mit Prof. Plank (MaiBaam: Blaschke u. a. (2024)) und Prof. Bülow
  • BNC 2014: British National Corpus, gesprochene Sprache (Love u. a. 2017)
  • TV/Movie Corpus (Davies 2021): Englische Film- und Fernseh-Untertitel, 325M Wörter, 1950–2018
  • TokPisin: Tok Pisin Korpus in Kooperation mit Prof. Hackert (Papua-Neuguinea Kreolsprache)
  • YouTube-Korpus: Automatische Transkription und IPA-Annotation in Kooperation mit dem IPS (WebMAUS: Kisler, Schiel, und Sloetjes (2012))
  • EEBO: Early English Books Online, 765M Wörter, 1470s–1690s (Text Creation Partnership 2015)
  • ARCHER: A Representative Corpus of Historical English Registers, 1600–1999 (Biber, Finegan, und Atkinson 1994)

Features in Entwicklung

  • Social Network Analysis UI: Visualisierung von Reply-Netzwerken, Autor-Interaktionen
  • Dependency Query Builder: Interaktives User Interface für syntaktische Abfragen
  • Semantische Tags: Kategorisierung nach semantischen Feldern (Wmatrix: Rayson (2008))
  • Topic Modelling: Topic Modelling von Korpusdaten mit LLMs
  • Transkription: Automatische Transkription für YouTube und Audio-Daten (WebMAUS: Kisler, Schiel, und Sloetjes (2012))
  • AI Analysis Mode: Automatisierte Korpusanalyse mit LLMs
  • Annotations-Modul: Annotation von Konkordanzen durch Menschen und Maschinen

Fazit

Fazit

  • Wir sehen aktuell Potenzial für die Englische Sprachwissenschaft & Didaktik.
  • Es gibt großes Interesse an anderen Instituten (Linguistiken, Didaktiken, CIS, IPS).
  • Für die nachhaltige Entwicklung des Projekts werden langfristige Ressourcen notwendig sein für
    • Development & Maintenance der App (Pre-processing, Features, Korpora, etc.),
    • Infrastruktur (Server, Authentifizierungs-System, Datenbanken etc.),
    • und Service für die Verarbeitung neuer Daten und Analysen.

Diskussion

  • Gibt es grundsätzlich Interesse in der Slavistik?
  • Wenn ja, gibt es bestimme Datensätze oder Methoden, die von besonderem Interesse wären?
  • Ideen für die weitere Durchführung und institutionelle Organisation?

Referenzen

Baumgartner, Jason, Savvas Zannettou, Brian Keegan, Megan Squire, und Jeremy Blackburn. 2020. „The Pushshift Reddit Dataset“. Proceedings of the International AAAI Conference on Web and Social Media 14 (1): 830–39. https://doi.org/10.1609/icwsm.v14i1.7347.
Biber, Douglas, Edward Finegan, und Dwight Atkinson. 1994. ARCHER and Its Challenges: Compiling and Exploring A Representative Corpus of Historical English Registers“. In Creating and Using English Language Corpora: Papers from the 14th International Conference on English Language Research on Computerized Corpora. Amsterdam: Rodopi.
Blaschke, Verena, Barbara Kovačić, Siyao Peng, Hinrich Schütze, und Barbara Plank. 2024. MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank“. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), 10921–38. Torino, Italia: ELRA; ICCL. https://aclanthology.org/2024.lrec-main.953/.
Davies, Mark. 2010. „The Corpus of Contemporary American English as the first reliable monitor corpus of English“. Literary and Linguistic Computing 25 (4): 447–64. https://doi.org/10.1093/llc/fqq018.
———. 2012. „Expanding horizons in historical linguistics with the 400-million word Corpus of Historical American English“. Corpora 7: 121–57. https://doi.org/10.3366/cor.2012.0024.
———. 2021. „The TV and Movies corpora: Design, construction, and use“. International Journal of Corpus Linguistics 26 (1): 10–37. https://doi.org/10.1075/ijcl.00035.dav.
Hackert, Stephanie. 2010. ICE Bahamas: Why and how?“ ICAME Journal 34: 41–53. https://www.ice-corpora.uzh.ch/en/joinice/Teams/iceba.html.
Kargaran, Amir Hossein, Ayyoob Imani, François Yvon, und Hinrich Schütze. 2023. GlotLID: Language Identification for Low-Resource Languages“. In Findings of the Association for Computational Linguistics: EMNLP 2023, 6155–6218. Singapore: Association for Computational Linguistics. https://doi.org/10.18653/v1/2023.findings-emnlp.410.
Kisler, Thomas, Florian Schiel, und Han Sloetjes. 2012. „Signal processing via web services: The use case WebMAUS. In Proceedings Digital Humanities 2012, 30–34. Hamburg, Germany.
Love, Robbie, Claire Dembry, Andrew Hardie, Vaclav Brezina, und Tony McEnery. 2017. „The Spoken BNC2014: Designing and building a spoken corpus of everyday conversations“. International Journal of Corpus Linguistics 22 (3): 319–44. https://doi.org/10.1075/ijcl.22.3.02lov.
Rayson, Paul. 2008. „From key words to key semantic domains“. In International Journal of Corpus Linguistics, 13:519–49. 4. https://doi.org/10.1075/ijcl.13.4.06ray.
Text Creation Partnership. 2015. „Early English Books Online – Text Creation Partnership (EEBO-TCP)“. Oxford; Ann Arbor, Michigan. https://textcreationpartnership.org/tcp-texts/eebo-tcp-early-english-books-online/.