Spis treści
Okapi BM25
W wyszukiwaniu informacji Okapi BM25 (BM to skrót od ang. best matching) jest funkcją rankingową używaną przez wyszukiwarki do szacowania trafności dokumentów względem zadanego zapytania. Opiera się na probabilistycznym podejściu do wyszukiwania informacji rozwijanym w latach 70. i 80. XX wieku m.in. przez Stephena E. Robertsona, Karen Spärck Jones.
Właściwa nazwa funkcji rankingowej to BM25. Pełniejsza nazwa Okapi BM25 obejmuje nazwę pierwszego systemu, który ją wykorzystywał – systemu wyszukiwania informacji Okapi, zaimplementowanego w latach 80. i 90. XX wieku w Londynie na City University (obecnie w strukturach University of London).[1] BM25 oraz jego nowsze warianty, np. BM25F (odmiana BM25 uwzględniająca strukturę dokumentu i m.in. tekst zakotwiczeń), należą do rodziny funkcji wyszukiwania podobnych do TF-IDF, stosowanych w wyszukiwaniu dokumentów.[2]
Funkcja rankingowa
[edytuj | edytuj kod]BM25 jest funkcją wyszukiwania opartą na modelu „worka słów” (bag-of-words), która porządkuje zbiór dokumentów według dopasowania do zapytania na podstawie występowania terminów zapytania w dokumencie, niezależnie od ich bliskości w tekście. Jest to rodzina funkcji punktujących o nieznacznie różniących się składowych i parametrach. Jedna z najczęściej przytaczanych postaci ma następującą formę.
Dla zapytania , zawierającego słowa kluczowe , wynik BM25 dla dokumentu wyraża się wzorem:
gdzie oznacza liczbę wystąpień słowa kluczowego w dokumencie , jest długością dokumentu (liczbą słów), a jest średnią długością dokumentu w kolekcji, z której pochodzą dokumenty. Parametry oraz są parametrami swobodnymi; w praktyce (bez zaawansowanej optymalizacji) często przyjmuje się i .[3] Składowa jest wagą IDF (inverse document frequency) dla terminu , zwykle obliczaną jako:
gdzie jest liczbą dokumentów w kolekcji, a jest liczbą dokumentów zawierających termin .
Istnieje kilka interpretacji IDF oraz drobne warianty tego wzoru. W oryginalnym wyprowadzeniu BM25 składnik IDF wynika z binarnego modelu niezależności.
Interpretacja informacyjno-teoretyczna IDF
[edytuj | edytuj kod]Jedną z interpretacji można sformułować na gruncie teorii informacji. Załóżmy, że termin zapytania występuje w dokumentach. Wówczas losowo wybrany dokument zawiera ten termin z prawdopodobieństwem , gdzie jest liczbą dokumentów w kolekcji. Zawartość informacyjna komunikatu „ zawiera ” wynosi więc:
Jeśli mamy dwa terminy zapytania i , a ich występowanie w dokumentach jest całkowicie niezależne, to prawdopodobieństwo, że oba wystąpią w losowo wybranym dokumencie , wynosi:
a zawartość informacyjna takiego zdarzenia jest równa:
Z niewielką modyfikacją jest to dokładnie to, co wyraża składnik IDF w BM25.
Modyfikacje
[edytuj | edytuj kod]- Dla skrajnych wartości współczynnika BM25 przechodzi w funkcje rankingowe znane jako BM11 (dla ) oraz BM15 (dla ).[4]
- BM25F jest modyfikacją BM25, w której dokument traktuje się jako złożony z wielu pól (np. nagłówków, tekstu głównego, tekstu zakotwiczeń) o potencjalnie różnej ważności, innym nasyceniu trafności oraz odmiennym sposobie normalizacji długości. BM25F definiuje każdy typ pola jako strumień i stosuje wagę per strumień, aby przeskalować wkład danego pola w końcowy wynik.[5][2] Jest ona też opisywana jako „BM25 z rozszerzeniem na wiele ważonych pól”.[6]
- BM25+ jest rozszerzeniem BM25 opracowanym w celu rozwiązania jednej z jego słabości: składnik normalizacji częstości terminu przez długość dokumentu nie ma właściwego dolnego ograniczenia, przez co długie dokumenty dopasowane do terminu potrafią otrzymywać wynik zbliżony do krótszych dokumentów, które w ogóle nie zawierają terminu. BM25+ wprowadza dodatkowy parametr (często domyślnie , gdy brak danych uczących), a wzór na wynik ma postać:[7]
Przypisy
[edytuj | edytuj kod]- ↑ OKAPI [online], smcse.city.ac.uk [dostęp 2023-10-16] [zarchiwizowane z adresu 2023-12-07] (ang.).
- ↑ a b Stephen Robertson, Hugo Zaragoza, The Probabilistic Relevance Framework: BM25 and Beyond, „Foundations and Trends in Information Retrieval”, 3 (4), 2009, s. 333–389, DOI: 10.1561/1500000019 (ang.).
- ↑ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009, s. 233 (ang.).
- ↑ The BM25 Weighting Scheme [online], xapian.org [dostęp 2025-12-14] (ang.).
- ↑ Hugo Zaragoza, Nick Craswell, Michael Taylor, Suchi Saria, Stephen Robertson, Microsoft Cambridge at TREC-13: Web and HARD tracks, [w:] Proceedings of TREC-2004 [online], 2004 (ang.).
- ↑ Stephen Robertson, Hugo Zaragoza, Michael Taylor, Simple BM25 extension to multiple weighted fields, [w:] Proceedings of the thirteenth ACM international conference on Information and knowledge management, 2004, s. 42–49, DOI: 10.1145/1031171.1031181 (ang.).
- ↑ Yuanhua Lv, ChengXiang Zhai, Lower-bounding term frequency normalization, [w:] Proceedings of CIKM'2011 [online], 2011, s. 7–16 (ang.).
Bibliografia
[edytuj | edytuj kod]- Stephen E. Robertson, Steve Walker, Susan Jones, Micheline Hancock-Beaulieu, Mike Gatford, Okapi at TREC-3, [w:] Proceedings of the Third Text REtrieval Conference (TREC 1994), Gaithersburg 1994 (ang.).
- Stephen E. Robertson, Steve Walker, Micheline Hancock-Beaulieu, Okapi at TREC-7, [w:] Proceedings of the Seventh Text REtrieval Conference, Gaithersburg 1998 (ang.).
- K. Spärck Jones, S. Walker, S.E. Robertson, A probabilistic model of information retrieval: Development and comparative experiments: Part 1, „Information Processing & Management”, 36 (6), 2000, s. 779–808, DOI: 10.1016/S0306-4573(00)00015-7 (ang.).
- K. Spärck Jones, S. Walker, S.E. Robertson, A probabilistic model of information retrieval: Development and comparative experiments: Part 2, „Information Processing & Management”, 36 (6), 2000, s. 809–840, DOI: 10.1016/S0306-4573(00)00016-9 (ang.).
- Stephen Robertson, Hugo Zaragoza, The Probabilistic Relevance Framework: BM25 and Beyond, „Foundations and Trends in Information Retrieval”, 3 (4), 2009, s. 333–389, DOI: 10.1561/1500000019 (ang.).









