Benchmark modelu językowego – benchmark testujący możliwości modeli językowych takich jak duże modele językowe[1]. Testy te mają na celu porównanie możliwości różnych modeli w takich obszarach jak rozumienie języka, generowanie i wnioskowanie.
Testy porównawcze zazwyczaj składają się ze zbioru danych i metryk ewaluacyjnych. Zbiór danych zawiera próbki tekstu i adnotacje, natomiast metryki mierzą wydajność modelu w zakresie takich zadań jak odpowiadanie na pytania, klasyfikacja tekstu i tłumaczenie maszynowe.
Charakterystyka
[edytuj | edytuj kod]
Kategorie
[edytuj | edytuj kod]Benchmarki mogą zostać skategoryzowane względem różnych metryk do jednych z poniższych kategorii:
- Klasyczny – skupiają się na analizie statystycznej i często powstawały przed spopularyzowaniem mechanizmów uczenia głębokiego. Do przykładów zalicza się bank drzew i BLEU
- Odpowiadania na pytania – ta kategoria testów posiada pary pytań i odpowiedzi, często wielokrotnego wyboru[2][3]
- Rozumowania – sprawdzająca kwestie rozumowania i wiedzy[4]
- Agencji – sprawdzająca możliwości działania agenta, który może wykonywać takie operacje jak uruchamianie kodu[5]
Ocena
[edytuj | edytuj kod]Można wyróżnić trzy typy oceny wyników benchmarka[6]:
- Automatyczna ocena, np. F1, dokładne dopasowanie, perpleksja[7]
- Ocena przez człowieka, pozwalająca na jakościową ewaluację odpowiedzi[8]
- Model jako osoba oceniająca będący opcją alternatywną wobec oceny przez człowieka[9]
Krytyka
[edytuj | edytuj kod]Jedna z najczęściej pojawiających krytyk odnośnie benchmarków jest dopasowanie modeli do danych testowych[10][11]. Aplikowane jest również w tym kontekście prawo Goodharta[12]. Oprócz tego zbiór pytań i odpowiedzi może posiadać błędy[13] lub posiadać ambiwalentne odpowiedzi, gdzie ludzie nie byliby w stanie dać 100% odpowiedzi[14][15][16][17].
Podkreślany jest również fakt wyrywkowego podejścia do wybieranych benchmarków przez twórców modeli[18].
Przykłady
[edytuj | edytuj kod]SQuAD
[edytuj | edytuj kod]Benchmark SQuAD w wersji 1.1 składa się z 100 tys. pytań stworzonych na bazie ponad 500 artykułów z Wikipedii. Każde zadanie składa się z podania artykułu i pytania, a odpowiedzią jest konkretne zdanie z odpowiedzią[19]. Wersja 2.0 zawiera 50 tys. pytań bez odpowiedzi, gdzie na każde pytanie należy odpowiedzieć spacją[20].
GPQA
[edytuj | edytuj kod]GPQA (ang. Google-Proof Q&A) składa się 448 pytań na poziomie doktoratu wielokrotnego wyboru napisanych przez ekspertów w dziedzinie biologii, fizyki i chemii. Podzbiór „Diamond” zawiera 198 najtrudniejszych pytań[21]. OpenAI ustaliło, że eksperci osiągają średni wynik 69,7% w tym podzbiorze[22].
Humanity's Last Exam
[edytuj | edytuj kod]Jako przykład benchmarku w kategorii rozumowania można wyróżnić Humanity's Last Exam. Posiada on 3000 multimodalnych pytań z ponad stu przedmiotów akademickich, z nieudostępnionym zbiorem odpowiedzi, aby zapobiec zanieczyszczeniu. 10% pytań wymaga zrozumienia zarówno tekstu, jak i obrazu, reszta opiera się wyłącznie na tekście. 80% pytań jest punktowanych poprzez dokładne dopasowanie ciągu znaków, reszta to pytania wielokrotnego wyboru[23].
Przypisy
[edytuj | edytuj kod]- ↑ David Owen, How predictable is language model benchmark performance?, „arXiv”, 2024, DOI: 10.48550/arXiv.2401.04757, arXiv:2401.04757 [dostęp 2025-05-11].
- ↑ Danqi Chen, Wen-tau Yih, Open-Domain Question Answering, Agata Savary, Yue Zhang (red.), „Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: Tutorial Abstracts”, Online: Association for Computational Linguistics, 2020, s. 34–37, DOI: 10.18653/v1/2020.acl-tutorials.8 [dostęp 2025-05-11].
- ↑ Lilian Weng, How to Build an Open-Domain Question Answering System? [online], lilianweng.github.io, 29 października 2020 [dostęp 2025-05-11] (ang.).
- ↑ Tomohiro Sawada i inni, ARB: Advanced Reasoning Benchmark for Large Language Models, „arXiv”, 2023, DOI: 10.48550/arXiv.2307.13692, arXiv:2307.13692 [dostęp 2025-05-11].
- ↑ Qian Huang, Jian Vora, Percy Liang, Jure Leskovec, Benchmarking Large Language Models as AI Research Agents [online], 8 listopada 2023 [dostęp 2025-05-11] (ang.).
- ↑ Md Tahmid Rahman Laskar i inni, A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations, „arXiv”, 2024, DOI: 10.48550/arXiv.2407.04069, arXiv:2407.04069v2 [dostęp 2025-05-11].
- ↑ Taojun Hu, Xiao-Hua Zhou, Unveiling LLM Evaluation Focused on Metrics: Challenges and Solutions, „arXiv”, 2024, DOI: 10.48550/arXiv.2404.09135, arXiv:2404.09135v1 [dostęp 2025-05-11].
- ↑ Chris van der Lee, Albert Gatt, Emiel van Miltenburg, Emiel Krahmer, Human evaluation of automatically generated text: Current trends and best practice guidelines, „Computer Speech & Language”, 67, 2021, s. 101151, DOI: 10.1016/j.csl.2020.101151, ISSN 0885-2308 [dostęp 2025-05-11].
- ↑ Cheng-Han Chiang, Hung-yi Lee, Can Large Language Models Be an Alternative to Human Evaluations?, „arXiv”, 2023, DOI: 10.48550/arXiv.2305.01937, arXiv:2305.01937 [dostęp 2025-05-11].
- ↑ Chunyuan Deng, Yilun Zhao, Xiangru Tang, Mark Gerstein, Arman Cohan, Investigating Data Contamination in Modern Benchmarks for Large Language Models, „arXiv”, 2024, DOI: 10.48550/arXiv.2311.09783, arXiv:2311.09783 [dostęp 2025-05-11].
- ↑ Yanyang LI, lyy1994/awesome-data-contamination [online], 9 maja 2025 [dostęp 2025-05-11].
- ↑ Mostafa Dehghani i inni, The Benchmark Lottery, „arXiv”, 2021, DOI: 10.48550/arXiv.2107.07002, arXiv:2107.07002 [dostęp 2025-05-11].
- ↑ Curtis G. Northcutt, Anish Athalye, Jonas Mueller, Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks, „arXiv”, 2021, DOI: 10.48550/arXiv.2103.14749, arXiv:2103.14749 [dostęp 2025-05-11].
- ↑ Russell Richie, Sachin Grover, Fuchiang (Rich) Tsui, Inter-annotator agreement is not the ceiling of machine learning performance: Evidence from a comprehensive set of simulations, Dina Demner-Fushman i inni red., „Proceedings of the 21st Workshop on Biomedical Language Processing”, Dublin, Ireland: Association for Computational Linguistics, 2022, s. 275–284, DOI: 10.18653/v1/2022.bionlp-1.26 [dostęp 2025-05-11].
- ↑ Ron Artstein, Inter-annotator Agreement, Nancy Ide, James Pustejovsky (red.), Dordrecht: Springer Netherlands, 2017, s. 297–313, DOI: 10.1007/978-94-024-0881-2_11, ISBN 978-94-024-0881-2 [dostęp 2025-05-11] (ang.).
- ↑ Yixin Nie, Xiang Zhou, Mohit Bansal, What Can We Learn from Collective Human Opinions on Natural Language Inference Data? Bonnie Webber i inni red., „Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)”, Online: Association for Computational Linguistics, 2020, s. 9131–9143, DOI: 10.18653/v1/2020.emnlp-main.734 [dostęp 2025-05-11].
- ↑ Ellie Pavlick, Tom Kwiatkowski, Inherent Disagreements in Human Textual Inferences, „Transactions of the Association for Computational Linguistics”, 7, 2019, s. 677–694, DOI: 10.1162/tacl_a_00293, ISSN 2307-387X [dostęp 2025-05-11].
- ↑ Maria Eriksson i inni, Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation, „arXiv”, 2025, DOI: 10.48550/arXiv.2502.06559, arXiv:2502.06559v1 [dostęp 2025-05-11].
- ↑ Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, Percy Liang, SQuAD: 100,000+ Questions for Machine Comprehension of Text, „arXiv”, 2016, DOI: 10.48550/arXiv.1606.05250, arXiv:1606.05250 [dostęp 2025-05-11].
- ↑ Pranav Rajpurkar, Robin Jia, Percy Liang, Know What You Don't Know: Unanswerable Questions for SQuAD, „arXiv”, 2018, DOI: 10.48550/arXiv.1806.03822, arXiv:1806.03822 [dostęp 2025-05-11].
- ↑ David Rein i inni, GPQA: A Graduate-Level Google-Proof Q&A Benchmark, „arXiv”, 2023, DOI: 10.48550/arXiv.2311.12022, arXiv:2311.12022 [dostęp 2025-05-11].
- ↑ Learning to reason with LLMs [online], openai.com [dostęp 2025-05-11] (ang.).
- ↑ Humanity's Last Exam [online], lastexam.ai [dostęp 2025-02-02].









