La computadora almacena cualquier dato basado en texto en forma de bits (una serie de 1 y 0) y sigue el esquema de codificación especificado. El esquema de codificación es un estándar que le dice a la máquina del usuario qué carácter representa qué conjunto de bytes. Especificar el esquema de codificación utilizado es muy importante ya que sin él, la máquina podría interpretar los bytes dados como un carácter diferente al previsto.
Por ejemplo: 0x6B puede interpretarse como el carácter ‘k’ en ASCII, pero como el carácter ‘,’ en el esquema de codificación EBCDIC menos utilizado.
- ASCII (Código estándar estadounidense para el intercambio de información): ASCII puede considerarse el esquema de codificación más extendido utilizado. Desarrollado por la American Standards Association, ASCII se introdujo en 1963 como ASA X3.4-1963. Tiene definiciones para 128 caracteres, 0x00 a 0x7f, que están representados por 7 bits.
En formato ASCII-
Caracteres Decimal hexadecimal 0-9 48-57 30-39 Arizona 65-90 41-5A Arizona 97-122 61-7A El resto del Hexadecimal está lleno de otros caracteres especiales y puntuación.
- UTF-32 (formato de transformación Unicode de 32 bits): UTF-32 es un esquema de codificación que utiliza 4 bytes para representar un carácter. Es un esquema de longitud fija, es decir, cada carácter siempre está representado por 4 bytes. Se utilizó para representar todos los puntos de código 1, 112, 064 de Unicode.
Debido a los grandes requisitos de espacio de este esquema, quedó obsoleto por los esquemas más eficientes desarrollados posteriormente. - UTF-16 (formato de transformación Unicode de 16 bits): UTF-32 es un esquema de codificación que utiliza 2 o 4 bytes para representar un carácter. Puede representar todos los puntos de código 1, 112, 064 de Unicode.
-
UTF-8 (formato de transformación Unicode de 8 bits): introducido en 1993, UTF-8 es un esquema de codificación que requiere que cada carácter esté representado por al menos 1 byte. Puede representar todos los puntos de código de Unicode.
UTF-8 es un superconjunto de ASCII, ya que los primeros 128 caracteres, de 0x00 a 0x7f, son los mismos que ASCII. Por lo tanto, este esquema UTF es inversamente compatible con ASCII.
Es una codificación de longitud variable, con 1, 2, 3 o 4 bytes utilizados para representar un carácter.
Para indicar que dos (o más) bytes consecutivos son parte del mismo carácter o representan dos caracteres diferentes, los primeros bits de cada byte se utilizan como indicadores. - ISCII (Código de escritura india para el intercambio de información): es un esquema de codificación que puede acomodar los caracteres utilizados por varias escrituras indias. Es un esquema de 8 bits.
Los primeros 128 caracteres son los mismos que ASCII, y solo se utiliza el siguiente espacio de 128 bits para representar caracteres específicos de ISCII.
Publicación traducida automáticamente
Artículo escrito por joshi_arihant y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA