Okapi BM25

W wyszukiwaniu informacji Okapi BM25 (BM to skrót od ang. best matching) jest funkcją rankingową używaną przez wyszukiwarki do szacowania trafności dokumentów względem zadanego zapytania. Opiera się na probabilistycznym podejściu do wyszukiwania informacji rozwijanym w latach 70. i 80. XX wieku m.in. przez Stephena E. Robertsona(inne języki), Karen Spärck Jones.

Właściwa nazwa funkcji rankingowej to BM25. Pełniejsza nazwa Okapi BM25 obejmuje nazwę pierwszego systemu, który ją wykorzystywał – systemu wyszukiwania informacji Okapi, zaimplementowanego w latach 80. i 90. XX wieku w Londynie na City University (obecnie w strukturach University of London).^[1] BM25 oraz jego nowsze warianty, np. BM25F (odmiana BM25 uwzględniająca strukturę dokumentu i m.in. tekst zakotwiczeń), należą do rodziny funkcji wyszukiwania podobnych do TF-IDF, stosowanych w wyszukiwaniu dokumentów.^[2]

Funkcja rankingowa

BM25 jest funkcją wyszukiwania opartą na modelu „worka słów” (bag-of-words), która porządkuje zbiór dokumentów według dopasowania do zapytania na podstawie występowania terminów zapytania w dokumencie, niezależnie od ich bliskości w tekście. Jest to rodzina funkcji punktujących o nieznacznie różniących się składowych i parametrach. Jedna z najczęściej przytaczanych postaci ma następującą formę.

Dla zapytania $Q$ , zawierającego słowa kluczowe $q_{1},\ldots ,q_{n}$ , wynik BM25 dla dokumentu $D$ wyraża się wzorem:

\mathrm {score} (D,Q)=\sum _{i=1}^{n}\mathrm {IDF} (q_{i})\cdot {\frac {f(q_{i},D)\cdot (k_{1}+1)}{f(q_{i},D)+k_{1}\cdot \left(1-b+b\cdot {\frac {|D|}{\mathrm {avgdl} }}\right)}}

gdzie $f(q_{i},D)$ oznacza liczbę wystąpień słowa kluczowego $q_{i}$ w dokumencie $D$ , $|D|$ jest długością dokumentu (liczbą słów), a $\mathrm {avgdl}$ jest średnią długością dokumentu w kolekcji, z której pochodzą dokumenty. Parametry $k_{1}$ oraz $b$ są parametrami swobodnymi; w praktyce (bez zaawansowanej optymalizacji) często przyjmuje się $k_{1}\in [1{,}2,2{,}0]$ i $b=0{,}75$ .^[3] Składowa $\mathrm {IDF} (q_{i})$ jest wagą IDF (inverse document frequency) dla terminu $q_{i}$ , zwykle obliczaną jako:

\mathrm {IDF} (q_{i})=\ln \left({\frac {N-n(q_{i})+0.5}{n(q_{i})+0.5}}+1\right)

gdzie $N$ jest liczbą dokumentów w kolekcji, a $n(q_{i})$ jest liczbą dokumentów zawierających termin $q_{i}$ .

Istnieje kilka interpretacji IDF oraz drobne warianty tego wzoru. W oryginalnym wyprowadzeniu BM25 składnik IDF wynika z binarnego modelu niezależności.

Interpretacja informacyjno-teoretyczna IDF

Jedną z interpretacji można sformułować na gruncie teorii informacji. Załóżmy, że termin zapytania $q$ występuje w $n(q)$ dokumentach. Wówczas losowo wybrany dokument $D$ zawiera ten termin z prawdopodobieństwem ${\frac {n(q)}{N}}$ , gdzie $N$ jest liczbą dokumentów w kolekcji. Zawartość informacyjna komunikatu „ $D$ zawiera $q$ ” wynosi więc:

-\log {\frac {n(q)}{N}}=\log {\frac {N}{n(q)}}.

Jeśli mamy dwa terminy zapytania $q_{1}$ i $q_{2}$ , a ich występowanie w dokumentach jest całkowicie niezależne, to prawdopodobieństwo, że oba wystąpią w losowo wybranym dokumencie $D$ , wynosi:

{\frac {n(q_{1})}{N}}\cdot {\frac {n(q_{2})}{N}},

a zawartość informacyjna takiego zdarzenia jest równa:

\sum _{i=1}^{2}\log {\frac {N}{n(q_{i})}}.

Z niewielką modyfikacją jest to dokładnie to, co wyraża składnik IDF w BM25.

Modyfikacje

Dla skrajnych wartości współczynnika $b$ BM25 przechodzi w funkcje rankingowe znane jako BM11 (dla $b=1$ ) oraz BM15 (dla $b=0$ ).^[4]
BM25F jest modyfikacją BM25, w której dokument traktuje się jako złożony z wielu pól (np. nagłówków, tekstu głównego, tekstu zakotwiczeń) o potencjalnie różnej ważności, innym nasyceniu trafności oraz odmiennym sposobie normalizacji długości. BM25F definiuje każdy typ pola jako strumień i stosuje wagę per strumień, aby przeskalować wkład danego pola w końcowy wynik.^[5]^[2] Jest ona też opisywana jako „BM25 z rozszerzeniem na wiele ważonych pól”.^[6]
BM25+ jest rozszerzeniem BM25 opracowanym w celu rozwiązania jednej z jego słabości: składnik normalizacji częstości terminu przez długość dokumentu nie ma właściwego dolnego ograniczenia, przez co długie dokumenty dopasowane do terminu potrafią otrzymywać wynik zbliżony do krótszych dokumentów, które w ogóle nie zawierają terminu. BM25+ wprowadza dodatkowy parametr $\delta$ (często domyślnie $1{,}0$ , gdy brak danych uczących), a wzór na wynik ma postać:^[7]

\mathrm {score} (D,Q)=\sum _{i=1}^{n}\mathrm {IDF} (q_{i})\cdot \left[{\frac {f(q_{i},D)\cdot (k_{1}+1)}{f(q_{i},D)+k_{1}\cdot \left(1-b+b\cdot {\frac {|D|}{\mathrm {avgdl} }}\right)}}+\delta \right]

Przypisy

↑ OKAPI [online], smcse.city.ac.uk [dostęp 2023-10-16] [zarchiwizowane z adresu 2023-12-07] (ang.).
↑ ^a ^b StephenS. Robertson StephenS., HugoH. Zaragoza HugoH., The Probabilistic Relevance Framework: BM25 and Beyond, „Foundations and Trends in Information Retrieval”, 3 (4), 2009, s. 333–389, DOI: 10.1561/1500000019 (ang.).
↑ Christopher D.Ch.D. Manning Christopher D.Ch.D., PrabhakarP. Raghavan PrabhakarP., HinrichH. Schütze HinrichH., An Introduction to Information Retrieval, Cambridge University Press, 2009, s. 233 (ang.).
↑ The BM25 Weighting Scheme [online], xapian.org [dostęp 2025-12-14] (ang.).
↑ HugoH. Zaragoza HugoH., NickN. Craswell NickN., MichaelM. Taylor MichaelM., SuchiS. Saria SuchiS., StephenS. Robertson StephenS., Microsoft Cambridge at TREC-13: Web and HARD tracks, [w:] Proceedings of TREC-2004 [online], 2004 (ang.).
↑ StephenS. Robertson StephenS., HugoH. Zaragoza HugoH., MichaelM. Taylor MichaelM., Simple BM25 extension to multiple weighted fields, [w:] Proceedings of the thirteenth ACM international conference on Information and knowledge management, 2004, s. 42–49, DOI: 10.1145/1031171.1031181 (ang.).
↑ YuanhuaY. Lv YuanhuaY., ChengXiangCh. Zhai ChengXiangCh., Lower-bounding term frequency normalization, [w:] Proceedings of CIKM'2011 [online], 2011, s. 7–16 (ang.).

Bibliografia

Stephen E.S.E. Robertson Stephen E.S.E., SteveS. Walker SteveS., SusanS. Jones SusanS., MichelineM. Hancock-Beaulieu MichelineM., MikeM. Gatford MikeM., Okapi at TREC-3, [w:] Proceedings of the Third Text REtrieval Conference (TREC 1994), Gaithersburg 1994 (ang.).
Stephen E.S.E. Robertson Stephen E.S.E., SteveS. Walker SteveS., MichelineM. Hancock-Beaulieu MichelineM., Okapi at TREC-7, [w:] Proceedings of the Seventh Text REtrieval Conference, Gaithersburg 1998 (ang.).
K. SpärckK.S. Jones K. SpärckK.S., S.S. Walker S.S., S.E.S.E. Robertson S.E.S.E., A probabilistic model of information retrieval: Development and comparative experiments: Part 1, „Information Processing & Management”, 36 (6), 2000, s. 779–808, DOI: 10.1016/S0306-4573(00)00015-7 (ang.).
K. SpärckK.S. Jones K. SpärckK.S., S.S. Walker S.S., S.E.S.E. Robertson S.E.S.E., A probabilistic model of information retrieval: Development and comparative experiments: Part 2, „Information Processing & Management”, 36 (6), 2000, s. 809–840, DOI: 10.1016/S0306-4573(00)00016-9 (ang.).
StephenS. Robertson StephenS., HugoH. Zaragoza HugoH., The Probabilistic Relevance Framework: BM25 and Beyond, „Foundations and Trends in Information Retrieval”, 3 (4), 2009, s. 333–389, DOI: 10.1561/1500000019 (ang.).

Linki zewnętrzne

Stephen Robertson, Hugo Zaragoza: The Probabilistic Relevance Framework: BM25 and Beyond (2009) – pełny tekst (PDF)

[1] OKAPI [online], smcse.city.ac.uk [dostęp 2023-10-16] [zarchiwizowane z adresu 2023-12-07] (ang.).

[robertson2009-2] StephenS. Robertson StephenS., HugoH. Zaragoza HugoH., The Probabilistic Relevance Framework: BM25 and Beyond, „Foundations and Trends in Information Retrieval”, 3 (4), 2009, s. 333–389, DOI: 10.1561/1500000019 (ang.).

[3] Christopher D.Ch.D. Manning Christopher D.Ch.D., PrabhakarP. Raghavan PrabhakarP., HinrichH. Schütze HinrichH., An Introduction to Information Retrieval, Cambridge University Press, 2009, s. 233 (ang.).

[4] The BM25 Weighting Scheme [online], xapian.org [dostęp 2025-12-14] (ang.).

[5] HugoH. Zaragoza HugoH., NickN. Craswell NickN., MichaelM. Taylor MichaelM., SuchiS. Saria SuchiS., StephenS. Robertson StephenS., Microsoft Cambridge at TREC-13: Web and HARD tracks, [w:] Proceedings of TREC-2004 [online], 2004 (ang.).

[6] StephenS. Robertson StephenS., HugoH. Zaragoza HugoH., MichaelM. Taylor MichaelM., Simple BM25 extension to multiple weighted fields, [w:] Proceedings of the thirteenth ACM international conference on Information and knowledge management, 2004, s. 42–49, DOI: 10.1145/1031171.1031181 (ang.).

[7] YuanhuaY. Lv YuanhuaY., ChengXiangCh. Zhai ChengXiangCh., Lower-bounding term frequency normalization, [w:] Proceedings of CIKM'2011 [online], 2011, s. 7–16 (ang.).

[1]

[2]

[3]

[4]

[5]

[6]

[7]