Pandas es una biblioteca de código abierto que está hecha principalmente para trabajar con datos relacionales o etiquetados de manera fácil e intuitiva. Proporciona varias estructuras de datos y operaciones para manipular datos numéricos y series de tiempo. Esta biblioteca está construida sobre la biblioteca NumPy. Pandas es rápido y tiene un alto rendimiento y productividad para los usuarios.
Tabla de contenido :
Historia: Pandas fue desarrollado inicialmente por Wes McKinney en 2008 mientras trabajaba en AQR Capital Management. Convenció a AQR para que le permitiera abrir el código fuente de Pandas. Otro empleado de AQR, Chang She, se unió como el segundo mayor colaborador de la biblioteca en 2012. Con el tiempo, se han lanzado muchas versiones de pandas. La última versión de los pandas es 1.4.1
ventajas
- Rápido y eficiente para manipular y analizar datos.
- Se pueden cargar datos de diferentes objetos de archivo.
- Fácil manejo de datos faltantes (representados como NaN) en punto flotante y datos de punto no flotante
- Mutabilidad de tamaño: las columnas se pueden insertar y eliminar de DataFrame y objetos de mayor dimensión
- Fusión y unión de conjuntos de datos.
- Transformación y rotación flexibles de conjuntos de datos
- Proporciona funcionalidad de serie temporal.
- Potente funcionalidad de agrupación para realizar operaciones de división, aplicación y combinación en conjuntos de datos.
Empezando
El primer paso para trabajar en pandas es asegurarse de que esté instalado en la carpeta de Python o no. De lo contrario, debemos instalarlo en nuestro sistema usando el comando pip . Escriba el comando cmd en el cuadro de búsqueda y busque la carpeta con el comando cd donde se instaló el archivo python-pip . Después de localizarlo, escriba el comando:
pip install pandas
Una vez que los pandas se hayan instalado en el sistema, debe importar la biblioteca. Este módulo generalmente se importa como:
import pandas as pd
Aquí, pd se conoce como un alias de los Pandas. Sin embargo, no es necesario importar la biblioteca usando el alias, solo ayuda a escribir menos cantidad de código cada vez que se llama a un método o propiedad.
Los pandas generalmente proporcionan dos estructuras de datos para manipular datos, son:
- Serie
- Marco de datos
Series: Pandas Series es una array etiquetada unidimensional capaz de contener datos de cualquier tipo (enteros, strings, flotantes, objetos python, etc.). Las etiquetas de los ejes se denominan colectivamente índices. Pandas Series no es más que una columna en una hoja de Excel. Las etiquetas no necesitan ser únicas, pero deben ser de tipo hashable. El objeto es compatible con la indexación basada en números enteros y etiquetas y proporciona una gran cantidad de métodos para realizar operaciones relacionadas con el índice.
Nota: Para obtener más información, consulte Python | serie pandas
Crear una serie
En el mundo real, se creará una serie Pandas cargando los conjuntos de datos del almacenamiento existente, el almacenamiento puede ser una base de datos SQL, un archivo CSV o un archivo de Excel. La serie Pandas se puede crear a partir de las listas, el diccionario y desde un valor escalar, etc.
Ejemplo:
Python3
import pandas as pd import numpy as np # Creating empty series ser = pd.Series() print(ser) # simple array data = np.array(['g', 'e', 'e', 'k', 's']) ser = pd.Series(data) print(ser)
Producción:
Series([], dtype: float64) 0 g 1 e 2 e 3 k 4 s dtype: object
Nota: Para obtener más información, consulte Creación de una serie Pandas
Marco de datos
Pandas DataFrame es una estructura de datos tabulares potencialmente heterogénea, de tamaño mutable, bidimensional con ejes etiquetados (filas y columnas). Un marco de datos es una estructura de datos bidimensional, es decir, los datos se alinean de forma tabular en filas y columnas. Pandas DataFrame consta de tres componentes principales, los datos, las filas y las columnas.
Nota: Para obtener más información, consulte Python | Marco de datos de pandas
Creación de un marco de datos:
En el mundo real, se creará un marco de datos de Pandas cargando los conjuntos de datos del almacenamiento existente, el almacenamiento puede ser una base de datos SQL, un archivo CSV o un archivo de Excel. Pandas DataFrame se puede crear desde las listas, el diccionario y desde una lista de diccionarios, etc.
Ejemplo:
Python3
import pandas as pd # Calling DataFrame constructor df = pd.DataFrame() print(df) # list of strings lst = ['Geeks', 'For', 'Geeks', 'is', 'portal', 'for', 'Geeks'] # Calling DataFrame constructor on list df = pd.DataFrame(lst) print(df)
Producción:
Empty DataFrame Columns: [] Index: [] 0 0 Geeks 1 For 2 Geeks 3 is 4 portal 5 for 6 Geeks
Nota: Para obtener más información, consulte Creación de un marco de datos de Pandas
Por qué Pandas se utiliza para la ciencia de datos
Los pandas generalmente se usan para la ciencia de datos, pero ¿se ha preguntado por qué? Esto se debe a que los pandas se usan junto con otras bibliotecas que se usan para la ciencia de datos. Está construido en la parte superior de la biblioteca NumPy , lo que significa que muchas estructuras de NumPy se usan o replican en Pandas. Los datos producidos por Pandas a menudo se usan como entrada para funciones de trazado de Matplotlib , análisis estadístico en SciPy y algoritmos de aprendizaje automático en Scikit-learn .
El programa Pandas se puede ejecutar desde cualquier editor de texto, pero se recomienda usar Jupyter Notebook para esto, ya que Jupyter tiene la capacidad de ejecutar código en una celda en particular en lugar de ejecutar todo el archivo. Jupyter también proporciona una manera fácil de visualizar tramas y tramas de datos de pandas.
Nota: Para obtener más información sobre Jupyter Notebook, consulte Cómo usar Jupyter Notebook: una guía definitiva
Publicación traducida automáticamente
Artículo escrito por nikhilaggarwal3 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA