Benchmark modelu językowego – benchmark testujący możliwości modeli językowych takich jak duże modele językowe[1]. Testy te mają na celu porównanie możliwości różnych modeli w takich obszarach jak rozumienie języka, generowanie i wnioskowanie.
Testy porównawcze zazwyczaj składają się ze zbioru danych i metryk ewaluacyjnych. Zbiór danych zawiera próbki tekstu i adnotacje, natomiast metryki mierzą wydajność modelu w zakresie takich zadań jak odpowiadanie na pytania, klasyfikacja tekstu i tłumaczenie maszynowe.
Charakterystyka
[edytuj | edytuj kod]
Kategorie
[edytuj | edytuj kod]Benchmarki mogą zostać skategoryzowane względem różnych metryk do jednych z poniższych kategorii:
- Klasyczny – skupiają się na analizie statystycznej i często powstawały przed spopularyzowaniem mechanizmów uczenia głębokiego. Do przykładów zalicza się bank drzew i BLEU
- Odpowiadania na pytania – ta kategoria testów posiada pary pytań i odpowiedzi, często wielokrotnego wyboru[2][3]
- Rozumowania – sprawdzająca kwestie rozumowania i wiedzy[4]
- Agencji – sprawdzająca możliwości działania agenta, który może wykonywać takie operacje jak uruchamianie kodu[5]
Ocena
[edytuj | edytuj kod]Można wyróżnić trzy typy oceny wyników benchamarka[6]:
- Automatyczna ocena np F1, dokładne dopasowanie, perpleksja[7]
- Ocena przez człowieka, pozwalający na jakościową ocenę odpowiedzi[8]
- LLM jako osoba oceniająca będący alternatywą do oceny przez człowieka[9]
Krytyka
[edytuj | edytuj kod]Jedna z najczęściej pojawiających krytyk odnośnie benchmarków jest dopasowanie modeli do danych testowych[10][11]. Aplikowane jest również w tym kontekście prawo Goodharta[12]. Oprócz tego zbiór pytań i odpowiedzi może posiadać błędy[13] lub posiadać ambiwalentne odpowiedzi, gdzie ludzie nie byliby w stanie dać 100% odpowiedzi[14][15][16][17].
Podkreślany jest również fakt wyrywkowego podejścia do wybieranych benchmarków przez twórców modeli[18].
Przykłady
[edytuj | edytuj kod]SQuAD
[edytuj | edytuj kod]Benchmark SQuAD w wersji 1.1 składa się z 100 tys. pytań stworzonych na bazie ponad 500 artykułów z Wikipedii. Każde zadanie składa się z podania artykułu i pytania, a odpowiedzią jest konkretne zdanie z odpowiedzią[19]. Wersja 2.0 zawiera 50 tys. pytań bez odpowiedzi, gdzie na każde pytanie należy odpowiedzieć spacją[20].
GPQA
[edytuj | edytuj kod]GPQA (ang. Google-Proof Q&A) składa się 448 pytań na poziomie doktoratu wielokrotnego wyboru napisanych przez ekspertów w dziedzinie biologii, fizyki i chemii. Podzbiór "Diamond" zawiera 198 najtrudniejszych pytań[21]. OpenAI ustaliło, że eksperci osiągają średni wynik 69,7% w tym podzbiorze[22].
Humanity's Last Exam
[edytuj | edytuj kod]Jako przykład benchmarku w kategorii rozumowania można wyróżnić Humanity's Last Exam. Posiada on 3000 multimodalnych pytań z ponad stu przedmiotów akademickich, z nieudostępnionym zbiorem odpowiedzi, aby zapobiec zanieczyszczeniu. 10% pytań wymaga zrozumienia zarówno tekstu, jak i obrazu, reszta opiera się wyłącznie na tekście. 80% pytań jest punktowanych poprzez dokładne dopasowanie ciągu znaków, reszta to pytania wielokrotnego wyboru[23].
Przypisy
[edytuj | edytuj kod]- ↑ David Owen , How predictable is language model benchmark performance?, arXiv, 9 stycznia 2024, DOI: 10.48550/arXiv.2401.04757 [dostęp 2025-05-11] .
- ↑ Danqi Chen , Wen-tau Yih , Open-Domain Question Answering, Agata Savary, Yue Zhang (red.), Online: Association for Computational Linguistics, lipiec 2020, s. 34–37, DOI: 10.18653/v1/2020.acl-tutorials.8 [dostęp 2025-05-11] .
- ↑ Lilian Weng , How to Build an Open-Domain Question Answering System? [online], lilianweng.github.io, 29 października 2020 [dostęp 2025-05-11] (ang.).
- ↑ Tomohiro Sawada i inni, ARB: Advanced Reasoning Benchmark for Large Language Models, arXiv, 28 lipca 2023, DOI: 10.48550/arXiv.2307.13692 [dostęp 2025-05-11] .
- ↑ Qian Huang i inni, Benchmarking Large Language Models as AI Research Agents [online], 8 listopada 2023 [dostęp 2025-05-11] (ang.).
- ↑ Md Tahmid Rahman Laskar i inni, A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations, arXiv, 3 października 2024, DOI: 10.48550/arXiv.2407.04069 [dostęp 2025-05-11] .
- ↑ Taojun Hu , Xiao-Hua Zhou , Unveiling LLM Evaluation Focused on Metrics: Challenges and Solutions, arXiv, 14 kwietnia 2024, DOI: 10.48550/arXiv.2404.09135 [dostęp 2025-05-11] .
- ↑ Chris van der Lee i inni, Human evaluation of automatically generated text: Current trends and best practice guidelines, „Computer Speech & Language”, 67, 2021, s. 101151, DOI: 10.1016/j.csl.2020.101151, ISSN 0885-2308 [dostęp 2025-05-11] .
- ↑ Cheng-Han Chiang , Hung-yi Lee , Can Large Language Models Be an Alternative to Human Evaluations?, arXiv, 3 maja 2023, DOI: 10.48550/arXiv.2305.01937 [dostęp 2025-05-11] .
- ↑ Chunyuan Deng i inni, Investigating Data Contamination in Modern Benchmarks for Large Language Models, arXiv, 3 kwietnia 2024, DOI: 10.48550/arXiv.2311.09783 [dostęp 2025-05-11] .
- ↑ Yanyang LI , lyy1994/awesome-data-contamination [online], 9 maja 2025 [dostęp 2025-05-11] .
- ↑ Mostafa Dehghani i inni, The Benchmark Lottery, arXiv, 14 lipca 2021, DOI: 10.48550/arXiv.2107.07002 [dostęp 2025-05-11] .
- ↑ Curtis G. Northcutt , Anish Athalye , Jonas Mueller , Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks, arXiv, 7 listopada 2021, DOI: 10.48550/arXiv.2103.14749 [dostęp 2025-05-11] .
- ↑ Russell Richie , Sachin Grover , Fuchiang (Rich) Tsui , Inter-annotator agreement is not the ceiling of machine learning performance: Evidence from a comprehensive set of simulations, Dina Demner-Fushman i inni red., Dublin, Ireland: Association for Computational Linguistics, maj 2022, s. 275–284, DOI: 10.18653/v1/2022.bionlp-1.26 [dostęp 2025-05-11] .
- ↑ Ron Artstein , Inter-annotator Agreement, Nancy Ide, James Pustejovsky (red.), Dordrecht: Springer Netherlands, 2017, s. 297–313, DOI: 10.1007/978-94-024-0881-2_11, ISBN 978-94-024-0881-2 [dostęp 2025-05-11] (ang.).
- ↑ Yixin Nie , Xiang Zhou , Mohit Bansal , What Can We Learn from Collective Human Opinions on Natural Language Inference Data? Bonnie Webber i inni red., Online: Association for Computational Linguistics, listopad 2020, s. 9131–9143, DOI: 10.18653/v1/2020.emnlp-main.734 [dostęp 2025-05-11] .
- ↑ Ellie Pavlick , Tom Kwiatkowski , Inherent Disagreements in Human Textual Inferences, „Transactions of the Association for Computational Linguistics”, 7, 2019, s. 677–694, DOI: 10.1162/tacl_a_00293, ISSN 2307-387X [dostęp 2025-05-11] .
- ↑ Maria Eriksson i inni, Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation, arXiv, 10 lutego 2025, DOI: 10.48550/arXiv.2502.06559 [dostęp 2025-05-11] .
- ↑ Pranav Rajpurkar i inni, SQuAD: 100,000+ Questions for Machine Comprehension of Text, arXiv, 11 października 2016, DOI: 10.48550/arXiv.1606.05250 [dostęp 2025-05-11] .
- ↑ Pranav Rajpurkar , Robin Jia , Percy Liang , Know What You Don't Know: Unanswerable Questions for SQuAD, arXiv, 11 czerwca 2018, DOI: 10.48550/arXiv.1806.03822 [dostęp 2025-05-11] .
- ↑ David Rein i inni, GPQA: A Graduate-Level Google-Proof Q&A Benchmark, arXiv, 20 listopada 2023, DOI: 10.48550/arXiv.2311.12022 [dostęp 2025-05-11] .
- ↑ Learning to reason with LLMs [online], openai.com [dostęp 2025-05-11] (ang.).
- ↑ Humanity's Last Exam. lastexam.ai. [dostęp 2025-02-02].