Ten artykuł jest pod opieką Wikiprojektu Informatyka, którego celem jest rozwijanie artykułów z dziedziny informatyki. Jeśli chcesz współuczestniczyć w projekcie, odwiedź jego stronę, gdzie można przyłączyć się do dyskusji i zobaczyć listę otwartych zadań.

Ten artykuł został oceniony jako zalążkowy na skali jakości.

Temu artykułowi przypisano niskie znaczenie na skali ważności.

Zalążek

Niskie

Błąd w przykładach kodowania

Aktualnie, specyfikacja ogranicza ilość bajtów od 1 do 4, a w sekcji "Sposób kodowania" ostatni przykład podaje 6 bajtów.

To przez analogię. Kodowanie UTF-8 można stosować również do danych innych niż Unicode, kiedy wiemy, że większość danych będzie w przedziale 0-127, a poza tym przedziałem rzadko. Ale do kodowania Unicode stosuje się maksymalnie 4 bajty, ponieważ unicode ma codepointy tylko do 1,114,112.

Endian

Czy można by w haśle krótko wyjaśnić, o jaki "problem" little endian vs big endian chodzi? Chodzi o jednoznaczność odczytu, czy o co?...

Endiannes oznacza jak są zapisane bajty w liczbach wielobajtowych w pamięci i pakietach. W przypadku UTF-8 nie jest to takie ważne, natomiast jest ważne w UTF-16 i 32.

Przydało by się też opisać BOM.

"Wada"

"Obecnie (2007 rok) większość zastosowań w Internecie (poczta elektroniczna, usenet, HTML) wymaga deklarowania UTF-8 zgodnie ze standardem MIME." To nie jest wada UTF, że różne zastosowania nie używają go jako domyślnego, lol!

To samo można powiedzieć o "Jest domyślnym kodowaniem w XML (również w jego aplikacjach: XHTML, SVG, XSL, CML, MathML)". Jest to zaleta wtórna. To z powodu innych zalet, stał się domyślnym kodowniem XML (tak orzekło W3C), ale nie jest to jakaś zaleta "techniczna".

Sposób kodowania

W sekcji "Sposób kodowania" autor pisze, że niebezpieczeństwem stosowania UTF-8 jest to, że znaki można zapisać na wiele różnych sposobów (podany przykład znaku '/') oraz że dałoby się tego uniknąć stosując minimalne sekwencje.

Nie jestem ekspertem w tej dziedzinie, dlatego nie poczuwam się do zmiany samego artykułu, ale wnioskuję o przepisanie go na nowo.

Wniosek swój uzasadniam tym, że w angielskiej wersji tego artykułu (która jest również pełniejsza) pisze wyraźnie, że standard UTF-8 wymusza stosowanie minimalnych sekwencji, a zapisywanie znaków na kilka różnych sposobów jest w standardzie UTF-8 "nielegalne" (czyli nie ma żadnego niebezpieczeństwa w używaniu normalnego kodowania UTF-8).