Eine Häufigkeitsklasse ist in der Linguistik ein statistisches Maß für die Gebrauchshäufigkeit eines Wortes in einer nat
Häufigkeitsklasse

Eine Häufigkeitsklasse ist in der Linguistik ein statistisches Maß für die Gebrauchshäufigkeit eines Wortes in einer natürlichen Sprache oder in einem Sprachausschnitt. Zur Berechnung der Häufigkeitsklasse wird das Zipfsche Gesetz verwendet, das als Sprachgesetz eine besondere Bedeutung in der Quantitativen Linguistik hat. Auch in der Korpuslinguistik haben sich Häufigkeitsklassen als empirisches Häufigkeitsmaß etabliert.
Berechnung
Als Grundlage für die Berechnung wird eine repräsentative und hinreichend große Menge an verfügbaren schriftlichen Quellen aus einer Sprache verwendet, die Korpus genannt wird. Das am häufigsten auftretende Wort in diesem Korpus wird als Vergleichsgrundlage verwendet. In der deutschen Schriftsprache ist dies das Wort der, in der englischen the („der/die/das“), in der schwedischen och („und“).
Das Zipfsche Gesetz dient dabei als Berechnungsgrundlage. Der Wert der Häufigkeitsklasse berechnet sich dabei mit dem Logarithmus zur Basis 2 des Quotienten aus dem zu untersuchenden Wort und dem am häufigsten auftretenden Wort.
Die Gaußklammer rundet das Zwischenergebnis auf eine ganze Zahl ab. Zusammen mit dem addierten Wert 0,5 führt die Gaußklammer hier dazu, dass der Wert des Logarithmus auf die nächste ganze Zahl auf- oder abgerundet wird (dabei wird 0,5 aufgerundet zu 1).
Die so berechnete Häufigkeitsklasse ist eine ganze Zahl, die ausdrückt, um wie viel Mal häufiger das häufigste Wort als das untersuchte Wort im ausgewerteten Datenbestand auftritt. Das am häufigsten vorkommende Wort selbst gehört der Häufigkeitsklasse 0 an, und i. A. ist es der einzige Vertreter dieser Klasse. Wörter, die etwa Mal so häufig wie dieses auftreten, werden in die Häufigkeitsklasse eingeordnet. Daraus ergibt sich, dass ein Wort umso häufiger vorkommt, je kleiner seine Häufigkeitsklasse ist.
Größe der Häufigkeitsklassen, Rang
Nach dem Zipfschen Gesetz erwartet man, dass die Klasse etwa Wörter (Types) enthält und dass die Summe ihrer Vorkommen (Tokens) in jeder Klasse ungefähr gleich ist, wobei diese Näherung für die obersten und untersten Klassen am wenigsten genau ist. Insbesondere erwartet man nach dem Zipfschen Gesetz für jedes Korpus, dass ungefähr die Hälfte aller auftretenden Wörter (Types) jeweils nur einmal vorkommt.
Aus dem Zipfschen Gesetz ergibt sich als erste Abschätzung, dass die Klasse 0 etwa = 1 Wort enthält, die Klasse 1 etwa = 2 Wörter, die Klasse 9 etwa = 512 Wörter usw. In allen Klassen bis einschließlich zur Klasse 9 sind etwa 1000 Wörter enthalten. Die folgende Häufigkeitsklasse 10 umfasst damit diejenigen etwa 1000 Wörter, die in der Häufigkeit etwa auf Rang 1000 bis 2000 liegen; dies sind allerdings nur recht grobe Anhaltswerte.
Wortformen und Lexeme
Häufigkeitsklassen können auf zwei linguistischen Ebenen betrachtet werden: Für eine einzelne Wortform (wie oben dargestellt) oder für ein gesamtes Lexem mit seinen verschiedenen Wortformen. Das am häufigsten vorkommende Wort, dessen Häufigkeit bei der Berechnung der Häufigkeitsklasse als Vergleichsgröße verwendet wird, sollte auf derselben linguistischen Ebene bestimmt sein: In der deutschen Schriftsprache ist die häufigste Wortform das Wort der und das häufigste Lexem der bestimmte Artikel (mit den flektierten Formen der, die, das, des, dem, den).
Siehe auch
- Frequenzwörterbuch
- Liste der häufigsten Wörter der deutschen Sprache
Literatur
- Helmut Meier: Deutsche Sprachstatistik. 2. Auflage. Olms, Hildesheim 1978, ISBN 978-3-487-00735-9.
Weblinks
- https://wortschatz.uni-leipzig.de – Wortschatzlexikon der Universität Leipzig auf Basis deutscher Quellen mit Angabe der Häufigkeitsklasse
- DeReWo – Korpusbasierte Grund-/Wortformenlisten des Instituts für Deutsche Sprache mit Angabe der Häufigkeitsklasse
- Online-Rechner für Häufigkeitsklassen
Einzelnachweise
- Dies stimmt einigermaßen mit der Praxis überein: Laut den Untersuchungen der Uni Leipzig ist der Klasse 9 ein log(Anzahl der Wörter in HKL 9) von etwa 6,5 zugeordnet, es dürften sich somit etwa 700 Wörter in dieser Klasse befinden, siehe Grafik 'Anzahl der Wörter in den Häufigkeitsklassen' ( des vom 5. März 2016 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis. auf FAQ zum Wortschatz, Uni Leipzig ( des vom 12. November 2015 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis. .
- Verwendbar z. B. um die Angaben aus den Häufigkeitsabfragen besser deuten zu können.
Autor: www.NiNa.Az
Veröffentlichungsdatum:
wikipedia, wiki, deutsches, deutschland, buch, bücher, bibliothek artikel lesen, herunterladen kostenlos kostenloser herunterladen, MP3, Video, MP4, 3GP, JPG, JPEG, GIF, PNG, Bild, Musik, Lied, Film, Buch, Spiel, Spiele, Mobiltelefon, Mobil, Telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, komputer, Informationen zu Häufigkeitsklasse, Was ist Häufigkeitsklasse? Was bedeutet Häufigkeitsklasse?
Eine Haufigkeitsklasse ist in der Linguistik ein statistisches Mass fur die Gebrauchshaufigkeit eines Wortes in einer naturlichen Sprache oder in einem Sprachausschnitt Zur Berechnung der Haufigkeitsklasse wird das Zipfsche Gesetz verwendet das als Sprachgesetz eine besondere Bedeutung in der Quantitativen Linguistik hat Auch in der Korpuslinguistik haben sich Haufigkeitsklassen als empirisches Haufigkeitsmass etabliert Vorkommenshaufigkeit von Personalpronomina in einem Korpus der serbokroatischen SpracheBerechnungAls Grundlage fur die Berechnung wird eine reprasentative und hinreichend grosse Menge an verfugbaren schriftlichen Quellen aus einer Sprache verwendet die Korpus genannt wird Das am haufigsten auftretende Wort in diesem Korpus wird als Vergleichsgrundlage verwendet In der deutschen Schriftsprache ist dies das Wort der in der englischen the der die das in der schwedischen och und Das Zipfsche Gesetz dient dabei als Berechnungsgrundlage Der Wert der Haufigkeitsklasse N displaystyle N berechnet sich dabei mit dem Logarithmus zur Basis 2 des Quotienten aus dem zu untersuchenden Wort und dem am haufigsten auftretenden Wort N 0 5 log2 Haeufigkeit des untersuchten WortesHaeufigkeit des haeufigsten Wortes displaystyle N left lfloor 0 5 log 2 left frac text Haeufigkeit des untersuchten Wortes text Haeufigkeit des haeufigsten Wortes right right rfloor Die Gaussklammer displaystyle lfloor dotso rfloor rundet das Zwischenergebnis auf eine ganze Zahl ab Zusammen mit dem addierten Wert 0 5 fuhrt die Gaussklammer hier dazu dass der Wert des Logarithmus auf die nachste ganze Zahl auf oder abgerundet wird dabei wird 0 5 aufgerundet zu 1 Die so berechnete Haufigkeitsklasse N displaystyle N ist eine ganze Zahl die ausdruckt um wie viel Mal haufiger das haufigste Wort als das untersuchte Wort im ausgewerteten Datenbestand auftritt Das am haufigsten vorkommende Wort selbst gehort der Haufigkeitsklasse 0 an und i A ist es der einzige Vertreter dieser Klasse Worter die etwa 12N displaystyle tfrac 1 2 N Mal so haufig wie dieses auftreten werden in die Haufigkeitsklasse N displaystyle N eingeordnet Daraus ergibt sich dass ein Wort umso haufiger vorkommt je kleiner seine Haufigkeitsklasse ist Grosse der Haufigkeitsklassen Rang Nach dem Zipfschen Gesetz erwartet man dass die Klasse N displaystyle N etwa 2N displaystyle 2 N Worter Types enthalt und dass die Summe ihrer Vorkommen Tokens in jeder Klasse ungefahr gleich ist wobei diese Naherung fur die obersten und untersten Klassen am wenigsten genau ist Insbesondere erwartet man nach dem Zipfschen Gesetz fur jedes Korpus dass ungefahr die Halfte aller auftretenden Worter Types jeweils nur einmal vorkommt Aus dem Zipfschen Gesetz ergibt sich als erste Abschatzung dass die Klasse 0 etwa 20 displaystyle 2 0 1 Wort enthalt die Klasse 1 etwa 21 displaystyle 2 1 2 Worter die Klasse 9 etwa 29 displaystyle 2 9 512 Worter usw In allen Klassen bis einschliesslich zur Klasse 9 sind etwa 1000 Worter enthalten Die folgende Haufigkeitsklasse 10 umfasst damit diejenigen etwa 1000 Worter die in der Haufigkeit etwa auf Rang 1000 bis 2000 liegen dies sind allerdings nur recht grobe Anhaltswerte Wortformen und LexemeHaufigkeitsklassen konnen auf zwei linguistischen Ebenen betrachtet werden Fur eine einzelne Wortform wie oben dargestellt oder fur ein gesamtes Lexem mit seinen verschiedenen Wortformen Das am haufigsten vorkommende Wort dessen Haufigkeit bei der Berechnung der Haufigkeitsklasse als Vergleichsgrosse verwendet wird sollte auf derselben linguistischen Ebene bestimmt sein In der deutschen Schriftsprache ist die haufigste Wortform das Wort der und das haufigste Lexem der bestimmte Artikel mit den flektierten Formen der die das des dem den Siehe auchFrequenzworterbuch Liste der haufigsten Worter der deutschen SpracheLiteraturHelmut Meier Deutsche Sprachstatistik 2 Auflage Olms Hildesheim 1978 ISBN 978 3 487 00735 9 Weblinkshttps wortschatz uni leipzig de Wortschatzlexikon der Universitat Leipzig auf Basis deutscher Quellen mit Angabe der Haufigkeitsklasse DeReWo Korpusbasierte Grund Wortformenlisten des Instituts fur Deutsche Sprache mit Angabe der Haufigkeitsklasse Online Rechner fur HaufigkeitsklassenEinzelnachweiseDies stimmt einigermassen mit der Praxis uberein Laut den Untersuchungen der Uni Leipzig ist der Klasse 9 ein log Anzahl der Worter in HKL 9 von etwa 6 5 zugeordnet es durften sich somit etwa 700 Worter in dieser Klasse befinden siehe Grafik Anzahl der Worter in den Haufigkeitsklassen Memento des Originals vom 5 Marz 2016 im Internet Archive Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 auf FAQ zum Wortschatz Uni Leipzig Memento des Originals vom 12 November 2015 im Internet Archive Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Verwendbar z B um die Angaben aus den Haufigkeitsabfragen besser deuten zu konnen