Germanistische Linguistik, LMU München
Anlass: Lizenzgebühren für english-corpora.org und Sketch Engine
Weitere sprachwissenschaftliche Bedarfe:
Ziel: effektive und nachhaltige korpuslinguistische Arbeit
Erster Schritt: Entwicklung einer App, um Potenziale zu prüfen.
https://www.wuerschinger.org/mcl
Benutzername: lipp@lmu.de
Passwort: Sch3ll!ng1860
React interface

No Sketch Engine interface

Alle Funktionen von Sketch Engine:
ausgenommen: Word Sketches, Ngrams und Thesaurus
Zusätzlich:




Verb in [lemma="be"] [word="going"] [word="to"] [tag="VB.*"] im Stream-Korpus:

[lemma="virus"] im Russian Reddit - Korpus:

[ent_type="GPE" & deprel="dobj"] im UniPlans-Korpus:

[lemma="mouse"] im COCA:



Causative alternation für [lemma="break" & tag="vv.*"] im COCA:

[word="Putin"] im Russian Reddit-Korpus:

GeRedE (Blombach u. a. 2020): Deutsche Reddit-Diskussionen aus 11 Subreddits, 51M Tokens, 2010–2018. Entwickelt an der FAU Erlangen-Nürnberg. Sprachfilterung über Thread-Level-Scores.
deRed: Deutsche Reddit-Diskussionen, 61M Tokens, 2018–2025. Erweiterte Annotation mit Dialekterkennung, Meme-Metadaten und Social Network Analysis. Details auf der nächsten Folie.
deRed: Deutsches Reddit — KorpusaufbauEckdaten
| Metrik | Wert |
|---|---|
| Tokens | 61M |
| Dokumente | 1,9M |
| Subreddits | 14 |
| Zeitraum | 2018–2025 |
| spaCy-Modell | de_core_news_lg |
Communities
Dialekterkennung (GlotLID)
| Varietät | Tokens | Anteil |
|---|---|---|
| Standarddeutsch | 7,8M | 77,50% |
| Englisch (Code-Switching) | 1,5M | 15,50% |
| Bairisch | 345K | 3,40% |
| Alemannisch | 25K | 0,25% |
| Niederdeutsch | 2K | 0,02% |
Regionale Nutzer-Flairs:
Wien, Steiermark, OÖ, NÖ, Tirol, Kärnten, Salzburg, Vorarlberg, Burgenland
Frequenz von [word="eh"] im deRed-Korpus.

Wort-Formen für [lemma="denken"] im GeRedE-Korpus:

[morph=".Gender=Masc."] im GeRedE-Korpus:

Frequenz von [word="eh"] zwischen Communities im GeRedE-Korpus:

[lemma="Mensch" & deprel="da"] [tag="VVFIN"] im GeRedE-Korpus:



Beispiele:
ich_iel (Standarddeutsch)

| Phrase | Treffer |
|---|---|
| Hurensohn | 7.121 |
| Sprich Deutsch | 365 |
| meine Kerle | 165 |
aeiou (Österreichisch)

| Phrase | Treffer |
|---|---|
| ned | 13.546 |
| Oida | 5.046 |
| Piefke | 714 |


Bairisch (345K Tokens, 3,4%)
Alemannisch/Schweizerdeutsch (25K Tokens, 0,25%)
[word="hani" | word="gsii"] within <doc lang_group="de_alemannic"/>
r/Finanzen (formal)
„Das wichtigste ist allerdings das ich einen sehr guten Schlaf habe.”
r/ich_iel (informal)
„Wirst schon wissen was du tust, ne?”
→ formelle Konnektoren vs. informelle Diskurspartikeln
Intensifier bei gut (via [tag="ADV" & head="gut"])
| Autor | sehr | ziemlich | n |
|---|---|---|---|
| YMK1234 | 22% | 3% | 93 |
| LolaRuns | 6% | 12% | 223 |
Top 10 AutorInnen
| # | Autor | Tokens |
|---|---|---|
| 1 | LolaRuns | 418K |
| 2 | mitsuhiko | 192K |
| 3 | Sukrim | 135K |
| 4 | YMK1234 | 134K |
| 5 | Sordak | 121K |
| 6 | rupaw67 | 96K |
| 7 | cwebb1977 | 85K |
| 8 | Alpha_LetItGo | 80K |
| 9 | ManWithABeard | 79K |
| 10 | iKnitYogurt | 76K |


Social Network Analysis