Slavische Sprachwissenschaft, LMU München
Anlass in der Anglistik: auslaufende Lizenzen für Korpusplattformenn
Weitergehende sprachwissenschaftliche Bedarfe:
Bedarfe und Interesse auch an anderen Instituten der LMU:
Ziel: kollaborative, moderne, nachhaltige korpuslinguistische Arbeit.
Erster Schritt: Entwicklung einer App, um Potenziale zu prüfen.
Reddit: Social-Media-Plattform mit thematischen Communities (Subreddits). Öffentlich verfügbare Daten über Pushshift (Baumgartner u. a. 2020).
67M Tokens aus 5 Subreddits (2008–2024)
| Subreddit | Tokens | Beschreibung |
|---|---|---|
| r/slovakia | ~66M | Hauptforum: Politik, Kultur, Alltag |
| r/bratislava | ~1M | Hauptstadt-Community |
| r/kosice | ~40K | Zweitgrößte Stadt (Ostslowakei) |
| r/slovensko | ~12K | Alternative slowakische Community |
| r/Slovak | ~8K | Sprachlernen und -diskussion |
Spracherkennung mit GlotLID (Kargaran u. a. 2023): 79% Westslawisch, 11% Germanisch, 10% Sonstige
NLP-Annotation mit UDPipe Slovak (Universal Dependencies):
| Attribut | Query | Findet |
|---|---|---|
word |
[word="Slovensko"] | Slovensko (exakte Form) |
lemma |
[lemma="byť"] | je, sú, bol, bola, bude … |
tag |
[tag="VERB"] | alle Verben |
deprel |
[deprel="nsubj"] | Subjekte: ja, to, on, Slovensko … |
morph |
[morph=".Case=Loc."] | Lokativ: Slovensku, Bratislave … |
ent_type |
[ent_type="PER"] | Personen: Putin, Fico, Čaputová … |
27 Dokument-Attribute für Social Network Analysis und Filterung; unter anderem:
subreddit, author, date, yearlang: ISO-Code (sk, cs, en)lang_group: Sprachfamilie (west_slavic, germanic)lang_conf: Konfidenz (0–1)parent_id: Eltern-Kommentar → Reply-Netzwerkelink_id: Thread-ID → Diskussionsstrukturenscore: Upvotes → Einfluss-Gewichtungcontroversiality, gilded, num_commentstitle, post_flair (Politics, Meme, Question)https://www.wuerschinger.org/mcl
Benutzername: lipp@lmu.de
Passwort: Sch3ll!ng1860
React interface

No Sketch Engine interface

Alle Funktionen von Sketch Engine:
ausgenommen: Word Sketches, Ngrams und Thesaurus
Zusätzlich:




[lemma="strana"] im skRed-Korpus — 57.717 Treffer:

Verb in [lemma="be"] [word="going"] [word="to"] [tag="VB.*"] im Stream-Korpus:

Wort-Formen für [lemma="denken"] im GeRedE-Korpus:

Frequenz von [word="eh"] zwischen Communities im GeRedE-Korpus:

[lemma="virus"] im Russian Reddit - Korpus:

[lemma="strana"] im skRed-Korpus — Frequenz nach Jahr:

[lemma="strana"] im skRed-Korpus — Frequenz nach Sprachfamilie:

[lemma="Mensch" & deprel="da"] [tag="VVFIN"] im GeRedE-Korpus:


[lemma="sa"] — Dependency-Verteilung:

~90% nicht als inhärent reflexiv klassifiziert.
| Tag | Bedeutung | Beispiel |
|---|---|---|
expl:pv |
Inhärent reflexiv | vyjadriť sa (sich äußern) |
expl:pass |
Reflexivpassiv | sa riešilo (wurde besprochen) |
obj |
Echtes Reflexiv | myjem sa (ich wasche mich) |
[ent_type="GPE" & deprel="dobj"] im UniPlans-Korpus:

[lemma="mouse"] im COCA:


[lemma="strana"] — t-SNE Clustering (200 Samples, Silhouette: 0.409):


Causative alternation für [lemma="break" & tag="vv.*"] im COCA:

[word="Putin"] im Russian Reddit-Korpus:

[lemma="strana"] — Polysemie-Klassifikation:

[lemma="robiť" | lemma="urobiť"] — perfektiv vs. imperfektiv:

[word="Fico" | word="Ficovi" | word="Fica"] — Einstellung zum slowakischen PM:

[word=".*[íč]ko"] — Funktion der Diminutivformen:



Social Network Analysis