mldata.org no tiene una convención obligatoria para almacenar datos o nombrar las columnas en un conjunto de datos. El comportamiento predeterminado de esta función funciona bien con la mayoría de los casos comunes que se mencionan a continuación:
- Los valores de datos almacenados en la columna son ‘Datos’ y los valores objetivo almacenados en la columna son ‘etiqueta’.
- La tabla de la primera columna almacena el objetivo y la segunda almacena los datos.
- La array de datos se almacena como características y muestras y debe transponerse para que coincida con el estándar sklearn.
Obtenga un conjunto de datos de aprendizaje automático; si el archivo no existe, se descarga automáticamente de mldata.org.
El paquete sklearn.datasets carga directamente los conjuntos de datos usando la función: sklearn.datasets.fetch_mldata( )
Sintaxis: sklearn.datasets.fetch_mldata(dataname, target_name=’label’, data_name=’data’, transpose_data=True, data_home=Ninguno)
Parámetros:
- dataname: (< str> ) Es el nombre del conjunto de datos en mldata.org , por ejemplo : «Iris», «mnist», «leucemia», etc.
- target_name: ( opcional, predeterminado: ‘label’ ) Acepta el nombre o índice de la columna que contiene los valores objetivo y necesita pasar los valores predeterminados de la etiqueta.
- data_name: ( opcional, predeterminado: ‘datos’ ) Acepta el nombre o índice de la columna que contiene los datos y necesarios para pasar los valores predeterminados de los datos.
- transpose_data: ( opcional, predeterminado: True ) El valor predeterminado pasado es true , y si es True, transpone los datos cargados.
- data_home: ( opcional, predeterminado: Ninguno ) Carga la carpeta de caché para los conjuntos de datos. De forma predeterminada, todos los datos de sklearn se almacenan en las subcarpetas ‘ ~/scikit_learn_data ‘.
Devuelve: datos, ( Bunch ) Los atributos interesantes son: ‘datos’, datos para aprender, ‘objetivo’, etiquetas de clasificación, ‘DESCR’, descripción del conjunto de datos y ‘COL_NAMES’, los nombres originales de las columnas del conjunto de datos.
Veamos los ejemplos:
Ejemplo 1: cargue el conjunto de datos ‘iris’ de mldata, que debe transponerse.
Python3
# import fetch_mldata function from sklearn.datasets.mldata import fetch_mldata # load data and transpose data iris = fetch_mldata('iris', transpose_data = False) # iris data is very large # so print the dataset shape # print(iris) print(iris.data.shape)
Producción:
(4,150)
Ejemplo 2: Cargue el conjunto de datos de reconocimiento de dígitos MNIST desde mldata.
Python3
# import fetch_mldata function from sklearn.datasets.mldata import fetch_mldata # load data mnist = fetch_mldata('MNIST original') # mnist data is very large # so print the shape of data print(mnist.data.shape)
Producción:
(70000, 784)
Nota: Esta publicación está de acuerdo con Scikit-learn (versión 0.19).
Publicación traducida automáticamente
Artículo escrito por adityakumar27200 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA