Błąd w przykładach kodowania
[edytuj kod]Aktualnie, specyfikacja ogranicza ilość bajtów od 1 do 4, a w sekcji "Sposób kodowania" ostatni przykład podaje 6 bajtów.
To przez analogię. Kodowanie UTF-8 można stosować również do danych innych niż Unicode, kiedy wiemy, że większość danych będzie w przedziale 0-127, a poza tym przedziałem rzadko. Ale do kodowania Unicode stosuje się maksymalnie 4 bajty, ponieważ unicode ma codepointy tylko do 1,114,112.
Endian
[edytuj kod]Czy można by w haśle krótko wyjaśnić, o jaki "problem" little endian vs big endian chodzi? Chodzi o jednoznaczność odczytu, czy o co?...
Endiannes oznacza jak są zapisane bajty w liczbach wielobajtowych w pamięci i pakietach. W przypadku UTF-8 nie jest to takie ważne, natomiast jest ważne w UTF-16 i 32.
Przydało by się też opisać BOM.
"Wada"
[edytuj kod]"Obecnie (2007 rok) większość zastosowań w Internecie (poczta elektroniczna, usenet, HTML) wymaga deklarowania UTF-8 zgodnie ze standardem MIME." To nie jest wada UTF, że różne zastosowania nie używają go jako domyślnego, lol!
To samo można powiedzieć o "Jest domyślnym kodowaniem w XML (również w jego aplikacjach: XHTML, SVG, XSL, CML, MathML)". Jest to zaleta wtórna. To z powodu innych zalet, stał się domyślnym kodowniem XML (tak orzekło W3C), ale nie jest to jakaś zaleta "techniczna".
Sposób kodowania
[edytuj kod]W sekcji "Sposób kodowania" autor pisze, że niebezpieczeństwem stosowania UTF-8 jest to, że znaki można zapisać na wiele różnych sposobów (podany przykład znaku '/') oraz że dałoby się tego uniknąć stosując minimalne sekwencje.
Nie jestem ekspertem w tej dziedzinie, dlatego nie poczuwam się do zmiany samego artykułu, ale wnioskuję o przepisanie go na nowo.
Wniosek swój uzasadniam tym, że w angielskiej wersji tego artykułu (która jest również pełniejsza) pisze wyraźnie, że standard UTF-8 wymusza stosowanie minimalnych sekwencji, a zapisywanie znaków na kilka różnych sposobów jest w standardzie UTF-8 "nielegalne" (czyli nie ma żadnego niebezpieczeństwa w używaniu normalnego kodowania UTF-8).