Les types de caractères de C

Le standard carboniser variable dans C ++ est un peu large et 1 octet ne peut traiter que 255 caractères différents. Ceci est bien assez pour les langues européennes, mais pas assez grand pour manipuler les langages basés symboles tels que kanji.

Plusieurs normes ont surgi pour étendre le jeu de caractères pour gérer les demandes de ces langues. UTF-8 utilise un mélange de 8, 16 et 32 ​​bits des caractères à mettre en œuvre presque tous les kanji ou hiéroglyphe que vous pouvez penser, mais restent toujours compatible avec une simple ASCII 8 bits. UTF-16 utilise un mélange de 16 et 32 ​​bits des caractères de réaliser un ensemble de caractère élargi, et UTF-32 utilise 32 bits pour tous les personnages.




UTF signifie Format de transformation Unicode, à partir de laquelle il obtient le surnom commun de Unicode.

Le tableau décrit les différents types de caractères supportés par C ++. Dans un premier temps, C ++ a essayé d'obtenir par avec un type de caractère large vaguement défini, wchar_t. Ce type a été conçu pour être le type de caractère large originaire de l'environnement du programme d'application. C ++ '11 introduit des types spécifiques pour UTF-16 et UTF-32.

Types de caractères de la C
VariableExempleCe que c'est
carboniser'c'ASCII ou les caractères UTF-8wchar_tL'c 'Personnage en grand formatchar_16tu'c 'Caractère UTF-16char_32tU'c 'UTF-32 personnages

UTF-16 est le codage standard pour les applications Windows. La wchar_t Type se réfère à UTF-16 dans le / compilateur gcc Code :: Blocks.

Tous les types de caractères dans le tableau peuvent être combinés en chaînes ainsi:

wchar_t * WideString = L "ceci est une grande chaîne" -

» » » » Les types de caractères de C