Unicode es un sistema de codificación universal para proporcionar un juego de caracteres completo y fue creado por Unicode Consortium (un grupo de fabricantes de software multilingüe). Unicode simplifica la localización de software y mejora el procesamiento de texto multilingüe. Supera la dificultad inherente a ASCII y ASCII extendido.
Unicode ha estandarizado el comportamiento del script que permite que cualquier combinación de caracteres, extraídos de cualquier combinación de scripts e idiomas, coexista en un solo documento. Unicode define múltiples codificaciones de su conjunto de caracteres único: UTF-7, UTF-8, UTF-16 y UTF-32. La conversión de datos entre estas codificaciones no tiene pérdidas .
Unicode era originalmente un conjunto de caracteres de 2 bytes. Sin embargo, la versión 3 de Unicode es un código de 4 bytes y es totalmente compatible con ASCII y ASCII extendido.
Todos estos admiten la codificación del mismo conjunto de caracteres.
- UTF-8 usa de 1 a 4 bytes por carácter dependiendo del carácter, pero ASCII toma solo 1 byte y 4 bytes para los inusuales.
- UTF-16 usa 2 bytes para la mayoría de los caracteres, mientras que los caracteres muy inusuales toman 4.
- UTF-32 usa 4 bytes por carácter. Podemos calcular la cantidad de caracteres en una string UTF-32 con solo contar los bytes.
La notación utiliza dígitos hexadecimales en el siguiente formato.
U-XXXXXXXX –
La numeración va de U-00000000 a U-FFFFFFFF . Unicode divide los códigos de espacio disponibles en planos. Un plano es un grupo continuo de 65.536 puntos de código. Los 16 bits más significativos definen el plano (es decir, número de planos = 65 535) y cada plano puede definir hasta 65 536 caracteres o símbolos.
Tipos de Avión –
- Plano multilingüe básico (BMP): plano 0000, el plano multilingüe básico está diseñado para ser compatible con el Unicode de 16 bits anterior. Los 16 bits más significativos en este plano son todos ceros. En su mayoría define juegos de caracteres en diferentes idiomas con la excepción de algunos caracteres de control y especiales. Se representa como U+XXXX donde XXXX son los 16 bits menos significativos, por ejemplo: U+0900 a U+09FF reservado para Devanagari, bengalí U+2200 a U+22FF reservado para una operación matemática, etc.
- Plano multilingüe complementario (SMP): el plano 0001, el plano multilingüe complementario, está diseñado para proporcionar más códigos para aquellos caracteres multilingües que están excluidos en el BMP. Ejemplo: 10140-1018F están reservados para números griegos antiguos.
- Plano de ideografía suplementario (SIP): el plano 0002, el plano de ideografía suplementario, está diseñado para proporcionar códigos para símbolos ideográficos, símbolos que proporcionan una idea en contraste con un sonido, por ejemplo, 20000-2A6DF están reservados para CJK Unified Extension B
- Plano especial complementario (SSP): 000E, el plano especial complementario, se utiliza para caracteres especiales, por ejemplo, E0000-E007F están reservados para etiquetas.
- Aviones de uso privado (PUP) – Aviones 000F y 0010, los aviones de uso privado son para uso privado. Las fuentes las utilizan internamente para referirse a glifos auxiliares.
Referencia –
Unicode – msdn.microsoft
Comunicación de datos y redes – Forounzan
Este artículo es una contribución de Himanshi . Si te gusta GeeksforGeeks y te gustaría contribuir, también puedes escribir un artículo usando write.geeksforgeeks.org o enviar tu artículo por correo a review-team@geeksforgeeks.org. Vea su artículo que aparece en la página principal de GeeksforGeeks y ayude a otros Geeks.
Escriba comentarios si encuentra algo incorrecto o si desea compartir más información sobre el tema tratado anteriormente.
Publicación traducida automáticamente
Artículo escrito por GeeksforGeeks-1 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA