Formatos de archivo comúnmente utilizados en Data Science

¿Qué es un formato de 
archivo? Los formatos de archivo están diseñados para almacenar tipos específicos de información, como CSV, XLSX, etc. El formato de archivo también le dice a la computadora cómo mostrar o procesar su contenido. Formatos de archivo comunes, como CSV, XLSX, ZIP, TXT, etc.
Si ve su futuro como científico de datos, debe comprender los diferentes tipos de formato de archivo. Debido a que la ciencia de datos tiene que ver con los datos y su procesamiento, y si no comprende el formato del archivo, puede ser bastante complicado para usted. Por lo tanto, es obligatorio que conozca los diferentes formatos de archivo.
Diferentes tipos de formatos de archivo: 
CSV:el CSV es el soporte para valores separados por comas. así como este nombre de archivo CSV se usa una coma para separar los valores. En el archivo CSV, cada línea es un registro de datos y cada registro consta de uno o más campos de datos, el campo está separado por comas.
Código: código de Python para leer el archivo csv en pandas 
 

python3

import pandas as pd
df = pd.read_csv("file_path / file_name.csv")
print(df)

XLSX: el archivo XLSX es un archivo de hoja de cálculo de formato XML abierto de Microsoft Excel. Esto se usa para almacenar cualquier tipo de datos, pero se usa principalmente para almacenar datos financieros y crear modelos matemáticos, etc. 
Código: código de Python para leer archivos xlsx en pandas
 

python3

import pandas as pd
df = pd.read_excel (r'file_path\\name.xlsx')
print (df)

Nota: 
 

instale xlrd antes de leer el archivo de Excel en python para evitar el error. Puede instalar xlrd usando el siguiente comando.
pip instalar xlrd 
 

ZIP: Los archivos ZIP se utilizan como contenedores de datos, almacenan uno o más archivos en forma comprimida. es ampliamente utilizado en Internet Después de descargar el archivo ZIP, debe descomprimir su contenido para poder usarlo.
Código: código de Python para leer el archivo zip en pandas
 

python3

import pandas as pd
df = pd.read_csv(' File_Path \\ File_Name .zip')
print(df)

TXT: los archivos TXT son útiles para almacenar información en texto sin formato sin formato especial más allá de las fuentes y estilos de fuente básicos. Es reconocido por cualquier edición de texto y otros programas de software.
Código: código Python para leer archivos txt en pandas
 

python3

import pandas as pd
df = pd.read_csv('File_Path \\ File_Name .txt')
print(df)

JSON: JSON es el soporte para la notación de objetos de JavaScript. JSON es un formato estándar basado en texto para representar datos estructurados basados ​​en la sintaxis de objetos de JavaScript
Código: código de Python para leer archivos json en pandas
 

python3

import pandas as pd
df = pd.read_json('File_path \\ File_Name .json')
print(df)

HTML: HTML es sinónimo de lenguaje de marcado de hipertexto y se utiliza para crear páginas web. podemos leer la tabla html en python pandas usando la función read_html().
Código: código de Python para leer archivos html en pandas
 

python3

import pandas as pd
df = pd.read_html('File_Path \\File_Name.html')
print(df)

Nota: 
 

Debe instalar un paquete llamado «lxml & html5lib» que puede manejar el archivo con la extensión ‘.html’.
pip instalar html5lib 
pip instalar lxml 
 

PDF: pdf significa formato de documento portátil (PDF), este formato de archivo se usa cuando necesitamos guardar archivos que no se pueden modificar pero que aún deben estar fácilmente disponibles.
Código: código Python para leer pdf en pandas
 

python3

pip install tabula-py
pip install pandas
df = tabula.read_pdf(file_path \\ file_name .pdf)
print(df)

Nota: 
 

Debe instalar un paquete llamado «tabula-py» que puede manejar el archivo con la extensión ‘.pdf’. 
pip instalar tabula-py 
 

Publicación traducida automáticamente

Artículo escrito por mukulsomukesh y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *