Term frequency

TF (ang. term frequency) – częstość słów (ważenie częstością słów) — podstawowe pojęcie w analizie tekstu^[1]^[2], które określa ilościowo, ile razy określony termin pojawia się w dokumencie^[1]^[2]; funkcja oceny relatywności dokumentu na podstawie wagi ilościowej (częstości wystąpień) słów w obrębie dokumentu^[2]. Ważenie termów jest procesem obliczania wag, czyli stopnia przynależności termu do dokumentu z uwzględnieniem częstotliwości występowania termu w tekście^[3].

Metoda obliczania

Podstawowa formuła TF oblicza się jako stosunek liczby wystąpień termu w dokumencie do całkowitej liczby termów w tym dokumencie^[4]:

TF(t,d)={\frac {f_{t,d}}{\sum _{t'\in d}f_{t',d}}}

gdzie $f_{t,d}$ jest surową liczbą wystąpień terminu w dokumencie, tj. liczbą razy, gdy termin $t$ pojawia się w dokumencie $d$ . Mianownik jest łączną liczbą terminów w dokumencie $d$ (licząc każde wystąpienie, także powtórzenia tego samego terminu). W literaturze spotyka się także inne definicje częstości terminu^[5].

Warianty obliczania

Istnieje wiele wariantów obliczania częstości termów, opracowanych w celu rozwiązania różnych problemów związanych z ważeniem termów^[5]^[6]^[7]:


schemat ważenia	definicja wagi tf ( $f_{t,d}$ – surowa liczba wystąpień)
liczba wystąpień	$\mathrm {tf} (t,d)=f_{t,d}$
binarna (Boolean)	$\mathrm {tf} (t,d)=1$ , gdy $f_{t,d}>0$ , w przeciwnym razie $0$
względna (znormalizowana)	$\mathrm {tf} (t,d)={\frac {f_{t,d}}{\sum _{t'\in d}f_{t',d}}}$
logarytmicznie skalowana	$\mathrm {tf} (t,d)=\log(1+f_{t,d})$ ^[8]
augmentowana	$\mathrm {tf} (t,d)=0.5+0.5\cdot {\frac {f_{t,d}}{\max\{f_{t',d}:t'\in d\}}}$

Częstość (ang. raw count) – prosta liczba wystąpień termu w dokumencie
Logarytmiczne skalowanie – zmniejsza wagę dla termów pojawiających się wielokrotnie: $1+\log(f_{t,d})$ , co zapobiega nadmiernemu wpływowi bardzo częstych termów
Normalizacja – dzieli surową częstość przez częstość najczęściej występującego termu w dokumencie, aby zapobiec faworyzowaniu dłuższych dokumentów^[9]
Częstość boolowska – 1 jeśli term występuje w dokumencie, 0 w przeciwnym razie
Normalizacja według długości dokumentu – uwzględnia różnice w długości dokumentów, stosując odpowiednie współczynniki normalizacyjne

Zastosowania

TF znajduje zastosowanie w obszarach przetwarzania języka naturalnego i wyszukiwania informacji^[10]^[11]:

Wyszukiwarki internetowe – ranking wyników wyszukiwania według trafności
Klasyfikacja tekstu – kategoryzacja dokumentów na podstawie zawartości
Ekstrakcja słów kluczowych – identyfikacja najważniejszych terminów w dokumencie
Systemy rekomendacji – porównywanie opisów tekstowych produktów lub treści
Podsumowywanie tekstu – określanie najistotniejszych fragmentów dokumentu

Badania przeprowadzone przez Beela i in. w 2016 roku wykazały, że TF-IDF (najczęściej stosowany schemat oparty na TF) był wykorzystywany w ponad połowie systemów rekomendacji artykułów naukowych^[12].

Częstość słów (ang. word frequency, będąca synonimem pojęcia term frequency) była jedną z podstawowych reguł, na których pierwsze wyszukiwarki internetowe pozycjonowały strony w wynikach. Dotyczyło to szczególnie wczesnych wyszukiwarek takich jak AltaVista, WebCrawler i Infoseek, które przywiązywały bardzo dużą wagę do częstości występowania słów kluczowych na stronach internetowych^[13]^[14]. We wczesnych fazach rozwoju wyszukiwarek internetowych, proste algorytmy oparte na częstości termów były wykorzystywane przez Google i inne wyszukiwarki do sortowania wyników wyszukiwania^[15]^[14].

Powszechny jest pogląd, że TF przywiązuje zbyt dużą wagę do powtarzających się wystąpień terminu/słowa^[1]. W wyszukiwarkach opartych na klasyfikacji opartej na częstości termów (TF) lub wariantach ważenia typu TF-IDF stosowane były techniki typu Keyword stuffing (upychane słowa kluczowe) polegająca na sztucznym zwiększaniu liczby wystąpień wybranych słów kluczowych (terminów) w treści lub innych polach tekstowych strony w celu podniesienia oceny trafności w wyszukiwarce opartej na dopasowaniu tekstowym, w tym na^[16]^[17]. W literaturze dotyczącej spamu w wyszukiwarkach praktyka ta jest opisywana jako przykład term spammingu (spamowania terminami): w modelach, w których istotnym składnikiem wyniku jest podobieństwo tekstowe (a więc m.in. częstość termów), podstawowym sposobem sztucznego „podbicia” oceny jest powtarzanie „celowanych” terminów w określonych polach tekstowych strony, co bezpośrednio zwiększa ich częstość.^[16]

Dodatkowymi ograniczeniami są: problemy z dokumentami o różnej długości – dłuższe dokumenty mają tendencję do wyższych wartości TF, brak uwzględnienia znaczenia semantycznego termów, wrażliwość na częste, ale mało znaczące słowa (tzw. stop words) a także problem nadmiernej penalizacji długich dokumentów w niektórych wariantach normalizacji^[18]^[19]. Z tych powodów opracowano różne techniki rozwinięcia metody TF w różnych dziedzinach takie jak: TF-IDFC-RF, TF-G (wykorzystujące technikę Gaussa do klasyfikacji tekstu), TF-ICF, TF-IDF (Term Frequency - Inverse Document Frequency)^[1]^[20]. Karen Spärck Jones w swojej pracy z 1972 roku zatytułowanej A Statistical Interpretation of Term Specificity and Its Application in Retrieval opublikowanej w Journal of Documentation(inne języki) zaproponowała statystyczną interpretację specyficzności termów^[21]. Jej koncepcja inverse document frequency (IDF) w połączeniu z term frequency stała się kamieniem milowym w dziedzinie information retrieval. Dalszy rozwój tej teorii przez Stephena Robertsona(inne języki), Karen Spärck Jones i innych badaczy w latach 70. i 80. XX wieku doprowadził do stworzenia probabilistycznego modelu wyszukiwania informacji^[22]. Efektem tych prac był algorytm Okapi BM25, który stał się jednym z najbardziej udanych algorytmów wyszukiwania tekstowego i jest wykorzystywany w wielu współczesnych wyszukiwarkach^[23]. TF jest wykorzystywane jako podstawa do tworzenia reprezentacji numerycznych tekstów w algorytmach uczenia maszynowego, umożliwiając przekształcenie danych tekstowych w wektory liczbowe^[24]^[25] – stanowi podstawowy komponent schematów ważenia termów używanych w zadaniach przetwarzania języka naturalnego i eksploracji danych^[25]. TF może być stosowane samodzielnie jako metoda reprezentacji tekstów lub jako składnik bardziej zaawansowanych metod takich jak TF-IDF^[24].

Przypisy

↑ ^a ^b ^c ^d FlavioF. Carvalho FlavioF., Gustavo PaivaG.P. Guedes Gustavo PaivaG.P., TF-IDFC-RF: A Novel Supervised Term Weighting Scheme, 12 marca 2020, DOI: 10.48550/ARXIV.2003.07193 [dostęp 2024-07-25] (ang.).
↑ ^a ^b ^c R.N.R.N. Rathi R.N.R.N., A.A. Mustafi A.A., The importance of Term Weighting in semantic understanding of text: A review of techniques, „Multimedia Tools and Applications”, 82 (7), 2023, s. 9761–9783, DOI: 10.1007/s11042-022-12538-3, ISSN 1380-7501, PMID: 35437420, PMCID: PMC9007265 [dostęp 2024-09-10] (ang.).
↑ JunzhengJ. Wu JunzhengJ., Information Retrieval 1: TF-IDF based search engine with python code [online], Medium, 11 sierpnia 2023 [dostęp 2024-08-29] (ang.).
↑ TF-IDF — Term Frequency-Inverse Document Frequency [online], LearnDataSci [dostęp 2024-12-13] (ang.).
↑ ^a ^b Scoring, term weighting, and the vector space model, [w:] C.D.C.D. Manning C.D.C.D., P.P. Raghavan P.P., H.H. Schütze H.H., Introduction to Information Retrieval, Cambridge University Press, 2008, s. 128, DOI: 10.1017/CBO9780511809071.007, ISBN 978-0-511-80907-1 (ang.).
↑ Scoring, term weighting and the vector space model [online], Stanford NLP Group [dostęp 2024-12-13] (ang.).
↑ Dogan, T., Uysal, A.K., A novel term weighting scheme for text classification: TF-MONO, „Journal of Informetrics”, 14 (4), 2020 (ang.).
↑ Scoring, term weighting, and the vector space model, [w:] C.D.C.D. Manning C.D.C.D., P.P. Raghavan P.P., H.H. Schütze H.H., Introduction to Information Retrieval, Cambridge University Press, 2008, s. 128, DOI: 10.1017/CBO9780511809071.007, ISBN 978-0-511-80907-1 (ang.).
↑ Maximum tf normalization [online], Stanford NLP [dostęp 2024-12-13] (ang.).
↑ Understanding TF-IDF for Machine Learning [online], Capital One [dostęp 2024-12-13] (ang.).
↑ Analyzing Documents with TF-IDF [online], Programming Historian, 13 maja 2019 [dostęp 2024-12-13] (ang.).
↑ JoeranJ. Beel JoeranJ., BelaB. Gipp BelaB., StefanS. Langer StefanS., CorinnaC. Breitinger CorinnaC., Research-paper recommender systems: a literature survey, „International Journal on Digital Libraries”, 17 (4), 2016, s. 305–338, DOI: 10.1007/s00799-015-0156-0 (ang.).
↑ DÉFINITION TERM FREQUENCY*INVERSE DOCUMENT FREQUENCY (TF*IDF) [online], Twaino, 4 sierpnia 2022 [dostęp 2024-12-13] (ang.).
↑ ^a ^b CarolynC. Watters CarolynC., GhadaG. Amoudi GhadaG., GeoSearcher: Location‐based ranking of search engine results, „Journal of the American Society for Information Science and Technology”, 54 (2), 2003, s. 140–151, DOI: 10.1002/asi.10191, ISSN 1532-2882 [dostęp 2024-07-25] (ang.).
↑ What is Term Frequency? – Definition [online], Seobility Wiki [dostęp 2024-12-13] (ang.).
↑ ^a ^b ZoltánZ. Gyöngyi ZoltánZ., HectorH. Garcia-Molina HectorH., Web Spam Taxonomy [online], AIRWeb (International Workshop on Adversarial Information Retrieval on the Web), 2005, s. 2–3 [dostęp 2025-12-14] (ang.).
↑ Spam policies for Google web search [online], Google Search Central (Google for Developers) [dostęp 2025-12-14] (ang.).
↑ YuanhuaY. Lv YuanhuaY., ChengXiangCh. Zhai ChengXiangCh., Lower-Bounding Term Frequency Normalization, „CIKM '11: Proceedings of the 20th ACM international conference on Information and knowledge management”, 2011, s. 7–16, DOI: 10.1145/2063576.2063584 (ang.).
↑ TF-IDF - Understanding Term Frequency-Inverse Document Frequency in NLP [online], Zilliz Learn [dostęp 2024-12-13] (ang.).
↑ VuttichaiV. Vichianchai VuttichaiV., SumontaS. Kasemvilas SumontaS., A New Term Frequency with Gaussian Technique for Text Classification and Sentiment Analysis, „Journal of ICT Research and Applications”, 15 (2), 2021, s. 152–168, DOI: 10.5614/itbj.ict.res.appl.2021.15.2.4, ISSN 2338-5499 [dostęp 2024-07-25] (ang.).
↑ Karen SpärckK.S. Jones Karen SpärckK.S., A statistical interpretation of term specificity and its application in retrieval, „Journal of Documentation”, 28 (1), 1972, s. 11–21, DOI: 10.1108/eb026526 (ang.).
↑ Stephen E.S.E. Robertson Stephen E.S.E., HugoH. Zaragoza HugoH., The Probabilistic Relevance Framework: BM25 and Beyond, „Foundations and Trends in Information Retrieval”, 3 (4), 2009, s. 333–389, DOI: 10.1561/1500000019 (ang.).
↑ Karen SpärckK.S. Jones Karen SpärckK.S., StephenS. Walker StephenS., Stephen E.S.E. Robertson Stephen E.S.E., A probabilistic model of information retrieval: Development and comparative experiments, „Information Processing & Management”, 36 (6), 2000, s. 779–808, DOI: 10.1016/S0306-4573(00)00015-7 (ang.).
↑ ^a ^b Understanding TF-IDF for Machine Learning [online], Capital One [dostęp 2024-12-13] (ang.).
↑ ^a ^b Tf-idf - Knowledge and References [online], Taylor & Francis [dostęp 2024-12-13] (ang.).

Bibliografia

Term Frequency and Inverted Document Frequency
Introduction to Information Retrieval – Stanford NLP Group
Robertson, S.E., Zaragoza, H. (2009). The Probabilistic Relevance Framework: BM25 and Beyond

Zobacz też

[:1-1] FlavioF. Carvalho FlavioF., Gustavo PaivaG.P. Guedes Gustavo PaivaG.P., TF-IDFC-RF: A Novel Supervised Term Weighting Scheme, 12 marca 2020, DOI: 10.48550/ARXIV.2003.07193 [dostęp 2024-07-25] (ang.).

[:0-2] R.N.R.N. Rathi R.N.R.N., A.A. Mustafi A.A., The importance of Term Weighting in semantic understanding of text: A review of techniques, „Multimedia Tools and Applications”, 82 (7), 2023, s. 9761–9783, DOI: 10.1007/s11042-022-12538-3, ISSN 1380-7501, PMID: 35437420, PMCID: PMC9007265 [dostęp 2024-09-10] (ang.).

[3] JunzhengJ. Wu JunzhengJ., Information Retrieval 1: TF-IDF based search engine with python code [online], Medium, 11 sierpnia 2023 [dostęp 2024-08-29] (ang.).

[4] TF-IDF — Term Frequency-Inverse Document Frequency [online], LearnDataSci [dostęp 2024-12-13] (ang.).

[:3-5] Scoring, term weighting, and the vector space model, [w:] C.D.C.D. Manning C.D.C.D., P.P. Raghavan P.P., H.H. Schütze H.H., Introduction to Information Retrieval, Cambridge University Press, 2008, s. 128, DOI: 10.1017/CBO9780511809071.007, ISBN 978-0-511-80907-1 (ang.).

[6] Scoring, term weighting and the vector space model [online], Stanford NLP Group [dostęp 2024-12-13] (ang.).

[7] Dogan, T., Uysal, A.K., A novel term weighting scheme for text classification: TF-MONO, „Journal of Informetrics”, 14 (4), 2020 (ang.).

[8] Scoring, term weighting, and the vector space model, [w:] C.D.C.D. Manning C.D.C.D., P.P. Raghavan P.P., H.H. Schütze H.H., Introduction to Information Retrieval, Cambridge University Press, 2008, s. 128, DOI: 10.1017/CBO9780511809071.007, ISBN 978-0-511-80907-1 (ang.).

[9] Maximum tf normalization [online], Stanford NLP [dostęp 2024-12-13] (ang.).

[10] Understanding TF-IDF for Machine Learning [online], Capital One [dostęp 2024-12-13] (ang.).

[11] Analyzing Documents with TF-IDF [online], Programming Historian, 13 maja 2019 [dostęp 2024-12-13] (ang.).

[beel2016-12] JoeranJ. Beel JoeranJ., BelaB. Gipp BelaB., StefanS. Langer StefanS., CorinnaC. Breitinger CorinnaC., Research-paper recommender systems: a literature survey, „International Journal on Digital Libraries”, 17 (4), 2016, s. 305–338, DOI: 10.1007/s00799-015-0156-0 (ang.).

[13] DÉFINITION TERM FREQUENCY*INVERSE DOCUMENT FREQUENCY (TF*IDF) [online], Twaino, 4 sierpnia 2022 [dostęp 2024-12-13] (ang.).

[:2-14] CarolynC. Watters CarolynC., GhadaG. Amoudi GhadaG., GeoSearcher: Location‐based ranking of search engine results, „Journal of the American Society for Information Science and Technology”, 54 (2), 2003, s. 140–151, DOI: 10.1002/asi.10191, ISSN 1532-2882 [dostęp 2024-07-25] (ang.).

[seobility-tf-15] What is Term Frequency? – Definition [online], Seobility Wiki [dostęp 2024-12-13] (ang.).

[gyongyi2005-16] ZoltánZ. Gyöngyi ZoltánZ., HectorH. Garcia-Molina HectorH., Web Spam Taxonomy [online], AIRWeb (International Workshop on Adversarial Information Retrieval on the Web), 2005, s. 2–3 [dostęp 2025-12-14] (ang.).

[google-spam-policies-17] Spam policies for Google web search [online], Google Search Central (Google for Developers) [dostęp 2025-12-14] (ang.).

[18] YuanhuaY. Lv YuanhuaY., ChengXiangCh. Zhai ChengXiangCh., Lower-Bounding Term Frequency Normalization, „CIKM '11: Proceedings of the 20th ACM international conference on Information and knowledge management”, 2011, s. 7–16, DOI: 10.1145/2063576.2063584 (ang.).

[19] TF-IDF - Understanding Term Frequency-Inverse Document Frequency in NLP [online], Zilliz Learn [dostęp 2024-12-13] (ang.).

[20] VuttichaiV. Vichianchai VuttichaiV., SumontaS. Kasemvilas SumontaS., A New Term Frequency with Gaussian Technique for Text Classification and Sentiment Analysis, „Journal of ICT Research and Applications”, 15 (2), 2021, s. 152–168, DOI: 10.5614/itbj.ict.res.appl.2021.15.2.4, ISSN 2338-5499 [dostęp 2024-07-25] (ang.).

[sparck1972-21] Karen SpärckK.S. Jones Karen SpärckK.S., A statistical interpretation of term specificity and its application in retrieval, „Journal of Documentation”, 28 (1), 1972, s. 11–21, DOI: 10.1108/eb026526 (ang.).

[robertson2009-22] Stephen E.S.E. Robertson Stephen E.S.E., HugoH. Zaragoza HugoH., The Probabilistic Relevance Framework: BM25 and Beyond, „Foundations and Trends in Information Retrieval”, 3 (4), 2009, s. 333–389, DOI: 10.1561/1500000019 (ang.).

[sparck2000-23] Karen SpärckK.S. Jones Karen SpärckK.S., StephenS. Walker StephenS., Stephen E.S.E. Robertson Stephen E.S.E., A probabilistic model of information retrieval: Development and comparative experiments, „Information Processing & Management”, 36 (6), 2000, s. 779–808, DOI: 10.1016/S0306-4573(00)00015-7 (ang.).

[capitalone-ml2-24] Understanding TF-IDF for Machine Learning [online], Capital One [dostęp 2024-12-13] (ang.).

[taylorfrancis-tf-25] Tf-idf - Knowledge and References [online], Taylor & Francis [dostęp 2024-12-13] (ang.).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]