¿Cómo usar datasets.fetch_mldata() en sklearn – Python?

mldata.org no tiene una convención obligatoria para almacenar datos o nombrar las columnas en un conjunto de datos. El comportamiento predeterminado de esta función funciona bien con la mayoría de los casos comunes que se mencionan a continuación:

  1. Los valores de datos almacenados en la columna son ‘Datos’ y los valores objetivo almacenados en la columna son ‘etiqueta’.
  2. La tabla de la primera columna almacena el objetivo y la segunda almacena los datos.
  3. La array de datos se almacena como características y muestras y debe transponerse para que coincida con el estándar sklearn.

Obtenga un conjunto de datos de aprendizaje automático; si el archivo no existe, se descarga automáticamente de mldata.org.

El paquete sklearn.datasets carga directamente los conjuntos de datos usando la función: sklearn.datasets.fetch_mldata( ) 

Sintaxis: sklearn.datasets.fetch_mldata(dataname, target_name=’label’, data_name=’data’, transpose_data=True, data_home=Ninguno)

Parámetros:

  • dataname: (< str> ) Es el nombre del conjunto de datos en mldata.org , por ejemplo : «Iris», «mnist», «leucemia», etc.
  • target_name: ( opcional, predeterminado: ‘label’ ) Acepta el nombre o índice de la columna que contiene los valores objetivo y necesita pasar los valores predeterminados de la etiqueta.
  • data_name: ( opcional, predeterminado: ‘datos’ ) Acepta el nombre o índice de la columna que contiene los datos y necesarios para pasar los valores predeterminados de los datos.
  • transpose_data: ( opcional, predeterminado: True ) El valor predeterminado pasado es true , y si es True, transpone los datos cargados.
  • data_home: ( opcional, predeterminado: Ninguno ) Carga la carpeta de caché para los conjuntos de datos. De forma predeterminada, todos los datos de sklearn se almacenan en las subcarpetas ‘ ~/scikit_learn_data ‘.

Devuelve: datos, ( Bunch ) Los atributos interesantes son: ‘datos’, datos para aprender, ‘objetivo’, etiquetas de clasificación, ‘DESCR’, descripción del conjunto de datos y ‘COL_NAMES’, los nombres originales de las columnas del conjunto de datos.

Veamos los ejemplos:

Ejemplo 1: cargue el conjunto de datos ‘iris’ de mldata, que debe transponerse.

Python3

# import fetch_mldata function
from sklearn.datasets.mldata import fetch_mldata
 
# load data and transpose data
iris = fetch_mldata('iris',
                    transpose_data = False)
 
# iris data is very large
# so print the dataset shape
# print(iris)
print(iris.data.shape)

Producción: 

(4,150)

Ejemplo 2: Cargue el conjunto de datos de reconocimiento de dígitos MNIST desde mldata. 

Python3

# import fetch_mldata function
from sklearn.datasets.mldata import fetch_mldata
 
# load data 
mnist = fetch_mldata('MNIST original')
 
# mnist data is very large
# so  print the shape of data
print(mnist.data.shape)

Producción:

 (70000, 784)

Nota: Esta publicación está de acuerdo con Scikit-learn (versión 0.19).

Publicación traducida automáticamente

Artículo escrito por adityakumar27200 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *