¿Qué es un formato de
archivo? Los formatos de archivo están diseñados para almacenar tipos específicos de información, como CSV, XLSX, etc. El formato de archivo también le dice a la computadora cómo mostrar o procesar su contenido. Formatos de archivo comunes, como CSV, XLSX, ZIP, TXT, etc.
Si ve su futuro como científico de datos, debe comprender los diferentes tipos de formato de archivo. Debido a que la ciencia de datos tiene que ver con los datos y su procesamiento, y si no comprende el formato del archivo, puede ser bastante complicado para usted. Por lo tanto, es obligatorio que conozca los diferentes formatos de archivo.
Diferentes tipos de formatos de archivo:
CSV:el CSV es el soporte para valores separados por comas. así como este nombre de archivo CSV se usa una coma para separar los valores. En el archivo CSV, cada línea es un registro de datos y cada registro consta de uno o más campos de datos, el campo está separado por comas.
Código: código de Python para leer el archivo csv en pandas
python3
import pandas as pd df = pd.read_csv("file_path / file_name.csv") print(df)
XLSX: el archivo XLSX es un archivo de hoja de cálculo de formato XML abierto de Microsoft Excel. Esto se usa para almacenar cualquier tipo de datos, pero se usa principalmente para almacenar datos financieros y crear modelos matemáticos, etc.
Código: código de Python para leer archivos xlsx en pandas
python3
import pandas as pd df = pd.read_excel (r'file_path\\name.xlsx') print (df)
Nota:
instale xlrd antes de leer el archivo de Excel en python para evitar el error. Puede instalar xlrd usando el siguiente comando.
pip instalar xlrd
ZIP: Los archivos ZIP se utilizan como contenedores de datos, almacenan uno o más archivos en forma comprimida. es ampliamente utilizado en Internet Después de descargar el archivo ZIP, debe descomprimir su contenido para poder usarlo.
Código: código de Python para leer el archivo zip en pandas
python3
import pandas as pd df = pd.read_csv(' File_Path \\ File_Name .zip') print(df)
TXT: los archivos TXT son útiles para almacenar información en texto sin formato sin formato especial más allá de las fuentes y estilos de fuente básicos. Es reconocido por cualquier edición de texto y otros programas de software.
Código: código Python para leer archivos txt en pandas
python3
import pandas as pd df = pd.read_csv('File_Path \\ File_Name .txt') print(df)
JSON: JSON es el soporte para la notación de objetos de JavaScript. JSON es un formato estándar basado en texto para representar datos estructurados basados en la sintaxis de objetos de JavaScript
Código: código de Python para leer archivos json en pandas
python3
import pandas as pd df = pd.read_json('File_path \\ File_Name .json') print(df)
HTML: HTML es sinónimo de lenguaje de marcado de hipertexto y se utiliza para crear páginas web. podemos leer la tabla html en python pandas usando la función read_html().
Código: código de Python para leer archivos html en pandas
python3
import pandas as pd df = pd.read_html('File_Path \\File_Name.html') print(df)
Nota:
Debe instalar un paquete llamado «lxml & html5lib» que puede manejar el archivo con la extensión ‘.html’.
pip instalar html5lib
pip instalar lxml
PDF: pdf significa formato de documento portátil (PDF), este formato de archivo se usa cuando necesitamos guardar archivos que no se pueden modificar pero que aún deben estar fácilmente disponibles.
Código: código Python para leer pdf en pandas
python3
pip install tabula-py pip install pandas df = tabula.read_pdf(file_path \\ file_name .pdf) print(df)
Nota:
Debe instalar un paquete llamado «tabula-py» que puede manejar el archivo con la extensión ‘.pdf’.
pip instalar tabula-py
Publicación traducida automáticamente
Artículo escrito por mukulsomukesh y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA