Como todos sabemos, las computadoras no entienden el alfabeto inglés, los números excepto el 0 y el 1, ni los símbolos de texto. Usamos codificación para convertirlos. Entonces, la codificación es el método o proceso de convertir una serie de caracteres, es decir, letras, números, puntuación y símbolos en un formato especial o único para su transmisión o almacenamiento en computadoras. Los datos se representan en computadoras usando esquemas de codificación ASCII, UTF8, UTF32, ISCII y Unicode. Las computadoras pueden manejar todo tipo de datos, incluidos números, texto, fotos, archivos de audio y video. Por ejemplo, 65 se representa como A porque los esquemas de codificación estándar asignan un código único a todos los caracteres, símbolos y números. Algunos de los esquemas de codificación comúnmente utilizados se describen a continuación:
1. ASCII: ASCII se conoce como Código estándar estadounidense para el intercambio de información. El grupo X3, parte de la ASA, produjo y publicó ASCII por primera vez en 1963. (Asociación Estadounidense de Estándares). El estándar ASCII se publicó por primera vez en 1963 como ASA X3.4-1963 y se revisó diez veces entre 1967 y 1986. ASCII es un estándar de código de 8 bits que divide las 256 ranuras en letras, números y otros caracteres. El número decimal ASCII (Dec) se construye usando binario, que es el lenguaje informático universal. El valor decimal del carácter «h» minúscula (char) es 104, que es «01101000» en binario.
La tabla ASCII se divide en tres secciones.
- Códigos de sistema no imprimibles entre 0 y 31.
- ASCII inferior, entre 32 y 127.
- ASCII superior, entre 128 y 255.
Tabla ASCII para caracteres:
Carta | Código ASCII | Carta | Código ASCII |
---|---|---|---|
a | 97 | A | sesenta y cinco |
b | 98 | B | 66 |
C | 99 | C | 67 |
d | 100 | D | 68 |
mi | 101 | mi | 69 |
F | 102 | F | 70 |
gramo | 103 | GRAMO | 71 |
h | 104 | H | 72 |
i | 105 | yo | 73 |
j | 106 | j | 74 |
k | 107 | k | 75 |
yo | 108 | L | 76 |
metro | 109 | METRO | 77 |
norte | 110 | norte | 78 |
o | 111 | O | 79 |
pags | 112 | PAGS | 80 |
q | 113 | q | 81 |
r | 114 | R | 82 |
s | 115 | S | 83 |
t | 116 | T | 84 |
tu | 117 | tu | 85 |
v | 118 | V | 86 |
w | 119 | W | 87 |
X | 120 | X | 88 |
y | 121 | Y | 89 |
z | 122 | Z | 90 |
2. ISCII: ISCII (Código de escritura india para el intercambio de información) es la abreviatura de Código de escritura india para el intercambio de información. ISCII es un método de codificación que se puede utilizar para codificar una amplia gama de idiomas indios, tanto escritos como hablados. Para facilitar la transliteración entre múltiples sistemas de escritura, ISCII adopta un único mecanismo de codificación.
ISCII fue establecido en 1991 por la Oficina de Normas Indias (BIS). Tiene un recuento de caracteres de aproximadamente 256 y emplea una técnica de codificación de 8 bits. Del 0 al 127, los primeros 128 caracteres son los mismos que en ASCII. Los siguientes caracteres, que van del 128 al 255, representan caracteres de la escritura india.
Las ventajas incluyen:
- La gran mayoría de los idiomas indios están representados en esto.
- El conjunto de caracteres es simple y directo.
- Es posible transliterar fácilmente entre idiomas.
Las desventajas incluyen:
- Se requiere un teclado especial con teclas de caracteres ISCII.
- Debido a que Unicode se creó más tarde y Unicode incluía caracteres ISCII, ISCII quedó obsoleto. ISCII (Código de escritura india para el intercambio de información) es el Código de escritura india para el intercambio de información.
- ISCII es un método de codificación que puede codificar una amplia gama de idiomas indios, tanto escritos como hablados. Para facilitar la transliteración entre múltiples sistemas de escritura, ISCII adopta un único mecanismo de codificación.
3. Unicode: los caracteres Unicode se traducen y almacenan en los sistemas informáticos como números (secuencias de bits) que el procesador puede manejar. En Unicode, una página de códigos es un sistema de codificación que convierte un conjunto de bits en una representación de caracteres. Cientos de técnicas de codificación diferentes asignaban un número a cada letra o carácter en el mundo antes de Unicode. Muchos de estos métodos usaban páginas de códigos con solo 256 caracteres y cada uno de los cuales requería 8 bits de almacenamiento.
- Unicode permite la creación de un solo producto de software o sitio web para múltiples plataformas, idiomas y países (sin reingeniería), lo que genera ahorros de costos significativos en comparación con los conjuntos de caracteres más antiguos.
- Los datos Unicode se pueden usar sin generar corrupción de datos en una variedad de sistemas.
- Unicode es una técnica de codificación universal que se puede utilizar para codificar cualquier idioma o letra, independientemente de los dispositivos, sistemas operativos o software.
- Unicode es un estándar de codificación de caracteres que le permite convertir entre múltiples sistemas de codificación de caracteres. Debido a que Unicode es un superconjunto de todos los demás sistemas de codificación de caracteres principales, puede convertir un esquema de codificación a Unicode y luego de Unicode a un esquema de codificación diferente.
- La codificación más utilizada es Unicode.
- Las versiones aplicables de ISO/IEC 10646, que define la codificación de caracteres del juego de caracteres universal, son totalmente compatibles y están sincronizadas con las versiones estándar de Unicode. O podemos decir que incluye 96.447 códigos de caracteres lo suficientemente lejos como para decodificar cualquier símbolo de carácter presente en el mundo.
4. UTF-8: Es una codificación de caracteres con anchos variables que se utilizan en la comunicación electrónica. Con una a cuatro unidades de código de un byte (8 bits), puede codificar los 1 112 064 [nb 1] puntos de código de caracteres Unicode válidos. Los puntos de código con valores numéricos más bajos se codifican con menos bytes, ya que ocurren con más frecuencia. Cuando se creó, los creadores se aseguraron de que este esquema de codificación sea compatible con ASCII y los primeros 128 caracteres Unicode que son uno a uno para ASCII se codifican usando un solo byte con el mismo valor binario que ASCII y se aseguran de que el texto ASCII también sea Unicode válido con codificación UTF-8.
Conversión de símbolos a binario:
Personaje | ASCII | Byte |
---|---|---|
A | sesenta y cinco | 1000001 |
a | 97 | 1100001 |
B | 66 | 1000010 |
b | 98 | 1100010 |
Z | 90 | 1011010 |
0 | 48 | 110000 |
9 | 57 | 111001 |
! | 33 | 100001 |
? | 63 | 111111 |
5.UTF-32:UTF-32 se conoce como formato de transformación Unicode de 32 bits. Es una codificación de longitud fija que codifica puntos de código Unicode utilizando 32 bits por código. Utiliza 4 bytes por carácter y podemos contar la cantidad de caracteres en la string UTF-32 simplemente contando los bytes. La principal ventaja de usar UTF-32 es que los puntos de código Unicode se pueden indexar directamente (aunque las letras en general, como «grupos de grafemas» o algunos emojis, no se pueden indexar directamente, por lo que determinar el ancho mostrado de una string es más complejo) . Una operación de tiempo constante es encontrar el punto de código N en una secuencia de puntos de código. Por otro lado, un código de longitud variable requiere acceso secuencial para ubicar el punto de código N en una fila. Como resultado, UTF-32 es un sustituto directo del código ASCII que examina cada problema en una string usando números incrementados en uno.
Publicación traducida automáticamente
Artículo escrito por muskankhoiya y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA