Spis treści
Term frequency
TF (ang. term frequency) – częstość słów (ważenie częstością słów) — podstawowe pojęcie w analizie tekstu[1][2], które określa ilościowo, ile razy określony termin pojawia się w dokumencie[1][2]; funkcja oceny relatywności dokumentu na podstawie wagi ilościowej (częstości wystąpień) słów w obrębie dokumentu[2]. Ważenie termów jest procesem obliczania wag, czyli stopnia przynależności termu do dokumentu z uwzględnieniem częstotliwości występowania termu w tekście[3].
Metoda obliczania
[edytuj | edytuj kod]Podstawowa formuła TF oblicza się jako stosunek liczby wystąpień termu w dokumencie do całkowitej liczby termów w tym dokumencie[4]:
gdzie jest surową liczbą wystąpień terminu w dokumencie, tj. liczbą razy, gdy termin pojawia się w dokumencie . Mianownik jest łączną liczbą terminów w dokumencie (licząc każde wystąpienie, także powtórzenia tego samego terminu). W literaturze spotyka się także inne definicje częstości terminu[5].
Warianty obliczania
[edytuj | edytuj kod]Istnieje wiele wariantów obliczania częstości termów, opracowanych w celu rozwiązania różnych problemów związanych z ważeniem termów[5][6][7]:
| schemat ważenia | definicja wagi tf ( – surowa liczba wystąpień) |
|---|---|
| liczba wystąpień | |
| binarna (Boolean) | , gdy , w przeciwnym razie |
| względna (znormalizowana) | |
| logarytmicznie skalowana | [8] |
| augmentowana |
- Częstość (ang. raw count) – prosta liczba wystąpień termu w dokumencie
- Logarytmiczne skalowanie – zmniejsza wagę dla termów pojawiających się wielokrotnie: , co zapobiega nadmiernemu wpływowi bardzo częstych termów
- Normalizacja – dzieli surową częstość przez częstość najczęściej występującego termu w dokumencie, aby zapobiec faworyzowaniu dłuższych dokumentów[9]
- Częstość boolowska – 1 jeśli term występuje w dokumencie, 0 w przeciwnym razie
- Normalizacja według długości dokumentu – uwzględnia różnice w długości dokumentów, stosując odpowiednie współczynniki normalizacyjne
Zastosowania
[edytuj | edytuj kod]TF znajduje zastosowanie w obszarach przetwarzania języka naturalnego i wyszukiwania informacji[10][11]:
- Wyszukiwarki internetowe – ranking wyników wyszukiwania według trafności
- Klasyfikacja tekstu – kategoryzacja dokumentów na podstawie zawartości
- Ekstrakcja słów kluczowych – identyfikacja najważniejszych terminów w dokumencie
- Systemy rekomendacji – porównywanie opisów tekstowych produktów lub treści
- Podsumowywanie tekstu – określanie najistotniejszych fragmentów dokumentu
Badania przeprowadzone przez Beela i in. w 2016 roku wykazały, że TF-IDF (najczęściej stosowany schemat oparty na TF) był wykorzystywany w ponad połowie systemów rekomendacji artykułów naukowych[12].
Częstość słów (ang. word frequency, będąca synonimem pojęcia term frequency) była jedną z podstawowych reguł, na których pierwsze wyszukiwarki internetowe pozycjonowały strony w wynikach. Dotyczyło to szczególnie wczesnych wyszukiwarek takich jak AltaVista, WebCrawler i Infoseek, które przywiązywały bardzo dużą wagę do częstości występowania słów kluczowych na stronach internetowych[13][14]. We wczesnych fazach rozwoju wyszukiwarek internetowych, proste algorytmy oparte na częstości termów były wykorzystywane przez Google i inne wyszukiwarki do sortowania wyników wyszukiwania[15][14].
Powszechny jest pogląd, że TF przywiązuje zbyt dużą wagę do powtarzających się wystąpień terminu/słowa[1]. W wyszukiwarkach opartych na klasyfikacji opartej na częstości termów (TF) lub wariantach ważenia typu TF-IDF stosowane były techniki typu Keyword stuffing (upychane słowa kluczowe) polegająca na sztucznym zwiększaniu liczby wystąpień wybranych słów kluczowych (terminów) w treści lub innych polach tekstowych strony w celu podniesienia oceny trafności w wyszukiwarce opartej na dopasowaniu tekstowym, w tym na[16][17]. W literaturze dotyczącej spamu w wyszukiwarkach praktyka ta jest opisywana jako przykład term spammingu (spamowania terminami): w modelach, w których istotnym składnikiem wyniku jest podobieństwo tekstowe (a więc m.in. częstość termów), podstawowym sposobem sztucznego „podbicia” oceny jest powtarzanie „celowanych” terminów w określonych polach tekstowych strony, co bezpośrednio zwiększa ich częstość.[16]
Dodatkowymi ograniczeniami są: problemy z dokumentami o różnej długości – dłuższe dokumenty mają tendencję do wyższych wartości TF, brak uwzględnienia znaczenia semantycznego termów, wrażliwość na częste, ale mało znaczące słowa (tzw. stop words) a także problem nadmiernej penalizacji długich dokumentów w niektórych wariantach normalizacji[18][19]. Z tych powodów opracowano różne techniki rozwinięcia metody TF w różnych dziedzinach takie jak: TF-IDFC-RF, TF-G (wykorzystujące technikę Gaussa do klasyfikacji tekstu), TF-ICF, TF-IDF (Term Frequency - Inverse Document Frequency)[1][20]. Karen Spärck Jones w swojej pracy z 1972 roku zatytułowanej A Statistical Interpretation of Term Specificity and Its Application in Retrieval opublikowanej w Journal of Documentation zaproponowała statystyczną interpretację specyficzności termów[21]. Jej koncepcja inverse document frequency (IDF) w połączeniu z term frequency stała się kamieniem milowym w dziedzinie information retrieval. Dalszy rozwój tej teorii przez Stephena Robertsona, Karen Spärck Jones i innych badaczy w latach 70. i 80. XX wieku doprowadził do stworzenia probabilistycznego modelu wyszukiwania informacji[22]. Efektem tych prac był algorytm Okapi BM25, który stał się jednym z najbardziej udanych algorytmów wyszukiwania tekstowego i jest wykorzystywany w wielu współczesnych wyszukiwarkach[23]. TF jest wykorzystywane jako podstawa do tworzenia reprezentacji numerycznych tekstów w algorytmach uczenia maszynowego, umożliwiając przekształcenie danych tekstowych w wektory liczbowe[24][25] – stanowi podstawowy komponent schematów ważenia termów używanych w zadaniach przetwarzania języka naturalnego i eksploracji danych[25]. TF może być stosowane samodzielnie jako metoda reprezentacji tekstów lub jako składnik bardziej zaawansowanych metod takich jak TF-IDF[24].
Przypisy
[edytuj | edytuj kod]- ↑ a b c d Flavio Carvalho, Gustavo Paiva Guedes, TF-IDFC-RF: A Novel Supervised Term Weighting Scheme, 12 marca 2020, DOI: 10.48550/ARXIV.2003.07193 [dostęp 2024-07-25] (ang.).
- ↑ a b c R.N. Rathi, A. Mustafi, The importance of Term Weighting in semantic understanding of text: A review of techniques, „Multimedia Tools and Applications”, 82 (7), 2023, s. 9761–9783, DOI: 10.1007/s11042-022-12538-3, ISSN 1380-7501, PMID: 35437420, PMCID: PMC9007265 [dostęp 2024-09-10] (ang.).
- ↑ Junzheng Wu, Information Retrieval 1: TF-IDF based search engine with python code [online], Medium, 11 sierpnia 2023 [dostęp 2024-08-29] (ang.).
- ↑ TF-IDF — Term Frequency-Inverse Document Frequency [online], LearnDataSci [dostęp 2024-12-13] (ang.).
- ↑ a b Scoring, term weighting, and the vector space model, [w:] C.D. Manning, P. Raghavan, H. Schütze, Introduction to Information Retrieval, Cambridge University Press, 2008, s. 128, DOI: 10.1017/CBO9780511809071.007, ISBN 978-0-511-80907-1 (ang.).
- ↑ Scoring, term weighting and the vector space model [online], Stanford NLP Group [dostęp 2024-12-13] (ang.).
- ↑ Dogan, T., Uysal, A.K., A novel term weighting scheme for text classification: TF-MONO, „Journal of Informetrics”, 14 (4), 2020 (ang.).
- ↑ Scoring, term weighting, and the vector space model, [w:] C.D. Manning, P. Raghavan, H. Schütze, Introduction to Information Retrieval, Cambridge University Press, 2008, s. 128, DOI: 10.1017/CBO9780511809071.007, ISBN 978-0-511-80907-1 (ang.).
- ↑ Maximum tf normalization [online], Stanford NLP [dostęp 2024-12-13] (ang.).
- ↑ Understanding TF-IDF for Machine Learning [online], Capital One [dostęp 2024-12-13] (ang.).
- ↑ Analyzing Documents with TF-IDF [online], Programming Historian, 13 maja 2019 [dostęp 2024-12-13] (ang.).
- ↑ Joeran Beel, Bela Gipp, Stefan Langer, Corinna Breitinger, Research-paper recommender systems: a literature survey, „International Journal on Digital Libraries”, 17 (4), 2016, s. 305–338, DOI: 10.1007/s00799-015-0156-0 (ang.).
- ↑ DÉFINITION TERM FREQUENCY*INVERSE DOCUMENT FREQUENCY (TF*IDF) [online], Twaino, 4 sierpnia 2022 [dostęp 2024-12-13] (ang.).
- ↑ a b Carolyn Watters, Ghada Amoudi, GeoSearcher: Location‐based ranking of search engine results, „Journal of the American Society for Information Science and Technology”, 54 (2), 2003, s. 140–151, DOI: 10.1002/asi.10191, ISSN 1532-2882 [dostęp 2024-07-25] (ang.).
- ↑ What is Term Frequency? – Definition [online], Seobility Wiki [dostęp 2024-12-13] (ang.).
- ↑ a b Zoltán Gyöngyi, Hector Garcia-Molina, Web Spam Taxonomy [online], AIRWeb (International Workshop on Adversarial Information Retrieval on the Web), 2005, s. 2–3 [dostęp 2025-12-14] (ang.).
- ↑ Spam policies for Google web search [online], Google Search Central (Google for Developers) [dostęp 2025-12-14] (ang.).
- ↑ Yuanhua Lv, ChengXiang Zhai, Lower-Bounding Term Frequency Normalization, „CIKM '11: Proceedings of the 20th ACM international conference on Information and knowledge management”, 2011, s. 7–16, DOI: 10.1145/2063576.2063584 (ang.).
- ↑ TF-IDF - Understanding Term Frequency-Inverse Document Frequency in NLP [online], Zilliz Learn [dostęp 2024-12-13] (ang.).
- ↑ Vuttichai Vichianchai, Sumonta Kasemvilas, A New Term Frequency with Gaussian Technique for Text Classification and Sentiment Analysis, „Journal of ICT Research and Applications”, 15 (2), 2021, s. 152–168, DOI: 10.5614/itbj.ict.res.appl.2021.15.2.4, ISSN 2338-5499 [dostęp 2024-07-25] (ang.).
- ↑ Karen Spärck Jones, A statistical interpretation of term specificity and its application in retrieval, „Journal of Documentation”, 28 (1), 1972, s. 11–21, DOI: 10.1108/eb026526 (ang.).
- ↑ Stephen E. Robertson, Hugo Zaragoza, The Probabilistic Relevance Framework: BM25 and Beyond, „Foundations and Trends in Information Retrieval”, 3 (4), 2009, s. 333–389, DOI: 10.1561/1500000019 (ang.).
- ↑ Karen Spärck Jones, Stephen Walker, Stephen E. Robertson, A probabilistic model of information retrieval: Development and comparative experiments, „Information Processing & Management”, 36 (6), 2000, s. 779–808, DOI: 10.1016/S0306-4573(00)00015-7 (ang.).
- ↑ a b Understanding TF-IDF for Machine Learning [online], Capital One [dostęp 2024-12-13] (ang.).
- ↑ a b Tf-idf - Knowledge and References [online], Taylor & Francis [dostęp 2024-12-13] (ang.).
Bibliografia
[edytuj | edytuj kod]- Term Frequency and Inverted Document Frequency
- Introduction to Information Retrieval – Stanford NLP Group
- Robertson, S.E., Zaragoza, H. (2009). The Probabilistic Relevance Framework: BM25 and Beyond









