Introducción a la compresión de datos

En este artículo, discutiremos la descripción general de la compresión de datos y discutiremos la ilustración de su método, y también cubriremos la entropía de la parte general. Discutámoslo uno por uno.

Resumen:
Un área importante de investigación es la compresión de datos . Se trata del arte y la ciencia de almacenar información en forma compacta. Uno habría notado que muchos paquetes de compresión se utilizan para comprimir archivos. La compresión reduce el costo de almacenamiento, aumenta la velocidad de los algoritmos y reduce el costo de transmisión. La compresión se logra eliminando la redundancia, es decir, la repetición de datos innecesarios. La redundancia de codificación se refiere a los datos redundantes causados por técnicas de codificación subóptimas.

Ilustración del método:

Para ilustrar este método, supongamos que hay seis símbolos y se usa código binario para asignar una dirección única a cada uno de estos símbolos, como se muestra en la siguiente tabla.
El código binario requiere al menos tres bits para codificar seis símbolos. También se puede observar que los códigos binarios 110 y 111 no se utilizan en absoluto. Esto muestra claramente que el código binario no es eficiente y, por lo tanto, se requiere un código eficiente para asignar una dirección única.

simbolos	W1	W2	W3	W4	W5	W6
Probabilidad	0.3	0.3	0.1	0.1	0.08	0.02
Código binario	000	001	010	011	100	101

Un código eficiente es aquel que utiliza un número mínimo de bits para representar cualquier información. La desventaja del código binario es que es un código fijo; un código Huffman es mejor, ya que es un código variable.
Las técnicas de codificación están relacionadas con los conceptos de entropía y contenido de la información, que se estudian como una materia denominada teoría de la información. La teoría de la información también se ocupa de la incertidumbre presente en un mensaje que se denomina contenido de la información. El contenido de la información se da como

                       log_{2 (1/pi) or -log2 pi .}

Entropía:

La entropía se define como una medida del orden que está presente en la información. Se da de la siguiente manera:

                                    H= - ∑ p_{i log2 pi}

La entropía es una cantidad positiva y especifica el número mínimo de bits necesarios para codificar información. Por tanto, la redundancia de codificación se expresa como la diferencia entre el número medio de bits utilizados para la codificación y la entropía.

coding redundancy = Average number of bits - Entropy

Al eliminar la redundancia, cualquier información se puede almacenar de manera compacta. Esta es la base de la compresión de datos.

Publicación traducida automáticamente

Artículo escrito por soubhikmitra98 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta Cancelar la respuesta