Spis treści
Tablica pomyłek
Tablica pomyłek (nazywana również macierzą pomyłek[1] lub macierzą błędów) – tabela przedstawiająca skuteczność działania algorytmu klasyfikacyjnego, najczęściej binarnego (czyli przewidującego przynależność do jednej z dwóch klas). Każda kolumna tablicy przedstawia możliwe rzeczywiste etykiety badanych jednostek, a każdy wiersz przedstawia etykiety przewidywane przez algorytm[2]. Spotyka się również transponowaną wersję macierzy, gdzie klasy rzeczywiste są w wierszach, a przewidywane w kolumnach[1].
W przypadku klasyfikatora binarnego tablica pomyłek ma wymiary 2×2. Badane jednostki są w takiej sytuacji oznaczone dwoma etykietami: pozytywną i negatywną. Algorytm klasyfikacyjny przypisuje im predykowaną (tzn. przewidywaną) klasę pozytywną albo negatywną. Możliwa jest sytuacja, że jednostka w rzeczywistości pozytywna zostanie omyłkowo zaklasyfikowana jako negatywna, a jednostka w rzeczywistości negatywna jako pozytywna – stąd nazwa macierzy.
|
Na podstawie częstości występowania rzeczywistego stanu pozytywnego w populacji oraz wzajemnych relacji prawidłowych i nieprawidłowych klasyfikacji można wyróżnić szereg wskaźników oceniających siłę predykcyjną klasyfikatora (np. testu diagnostycznego). Poniższy wykres podsumowuje ich powiązania, przy czym – odwrotnie niż w tablicy powyżej – klasa rzeczywista jest w wierszach, a klasa przewidywana w kolumnach:
Klasa predykowana – wynik testu | |||||
Populacja | Klasyfikacja pozytywna | Klasyfikacja negatywna | Częstość występowania, chorobowość
|
||
Klasa rzeczywista |
Stan pozytywny |
prawdziwie dodatnia, TP | fałszywie ujemna (błąd drugiego rodzaju, FN) |
czułość, TPR
|
FNR
|
Stan negatywny |
fałszywie dodatnia (błąd pierwszego rodzaju, FP) |
prawdziwie ujemna, TN | FPR
|
swoistość, SPC, TNR
| |
dokładność, ACC
|
precyzja, PPV
|
FOR
|
LR+
|
DOR
| |
FDR
|
NPV
|
LR-
|
Oznaczenia jednostek w zależności od ich klasy rzeczywistej i przewidywanej:
- prawdziwie pozytywna (ang. true positive, TP)
- prawdziwie negatywna (ang. true negative, TN)
- fałszywie pozytywna (ang. false positive, FP), błąd pierwszego rodzaju
- fałszywie negatywna (ang. false negative, FN), błąd drugiego rodzaju
- pozytywna P = (TP + FN)
- negatywna N = (TN + FP)
Miary:
- czułość (ang. sensitivity), pełność[3] (ang. recall) lub odsetek prawdziwie pozytywnych (ang. true positive rate, TPR)
- swoistość (ang. specificity, SPC) lub odsetek prawdziwie negatywnych (ang. true negative rate, TNR)
- dokładność (ang. accuracy, ACC)
- precyzja (ang. precision) lub dodatnia wartość predykcyjna[2] (ang. positive predictive value, PPV)
- ujemna wartość predykcyjna (ang. negative predictive value, NPV)
- odsetek fałszywie pozytywnych (ang. false positive rate, FPR)
- odsetek fałszywie negatywnych (ang. false negative rate, FNR)
- wskaźnik (iloraz) wiarygodności wyniku dodatniego[4] (ang. positive likelihood ratio, LR+)
- wskaźnik (iloraz) wiarygodności wyniku ujemnego (ang. negative likelihood ratio, LR-)
- diagnostyczny iloraz szans (ang. diagnostic Odds ratio, DOR)
Przykład
[edytuj | edytuj kod]
|
Przypisy
[edytuj | edytuj kod]- ↑ a b Aurélien Géron , Uczenie maszynowe z użyciem Scikit-Learn i TensorFlow, Wydanie II, aktualizacja do modułu TensorFlow 2, Gliwice: Helion, 2020, s. 110, ISBN 978-83-283-6002-0 [dostęp 2024-05-18] .
- ↑ a b Andrzej Stanisz , Modele regresji logistycznej: zastosowanie w medycynie, naukach przyrodniczych i społecznych, Kraków: Wydawnictwo StatSoft Polska, 2016, ISBN 978-83-88724-73-2 [dostęp 2024-05-18] .
- ↑ Nina Zumel , John Mount , Język R i analiza danych w praktyce, 2021, s. 214 (pol.).
- ↑ Agata Smoleń , Zastosowanie narzędzi klasyfikacyjnych opartych na technikach statystycznych i metodach sztucznej inteligencji w ocenie prawdopodobieństwa istnienia raka jajnika [online], Statsoft Polska, 2011 (pol.).