Notebooks ilustra el proceso de análisis paso a paso organizando cosas como texto, código, imágenes, salida, etc. Esto ayuda a un científico de datos a registrar el proceso de pensamiento mientras diseña el proceso de investigación. Tradicionalmente, los cuadernos se usaban para registrar el trabajo y replicar los hallazgos, simplemente volviendo a ejecutar el cuaderno en los datos de origen. Pero, ¿por qué uno elegiría usar una computadora portátil en lugar de un IDE o una línea de comandos preferidos? Las implementaciones actuales de portátiles basadas en navegador tienen muchas limitaciones, pero lo que hacen es ofrecer un entorno para la exploración, la colaboración y la visualización. Los cuadernos se utilizan normalmente para tareas de exploración rápida por parte de científicos de datos.
Proporcionan una variedad de ventajas en ese sentido sobre cualquier script o herramienta local. Las computadoras portátiles a menudo parecen estar configuradas en un entorno de clúster, lo que permite que el científico de datos aproveche los recursos informáticos más allá de lo que está accesible en su computadora de escritorio o portátil, y trabajar en la recopilación completa de datos sin tener que descargar una copia local.
Hoy en día, los cuadernos interactivos están aumentando en popularidad. Están reemplazando a PowerPoint en las reuniones, se intercambian entre empresas e incluso eliminan la carga de trabajo de las suites de BI. Hoy en día, hay muchos portátiles para elegir entre Jupyter, R Markdown, Apache Zeppelin, Spark Notebook y más. En este artículo, presentaremos algunos de los principales portátiles de Python utilizados por los profesionales del aprendizaje automático.
1. Cuaderno Jupyter
Jupyter Notebook es una aplicación web de código abierto que se puede usar para crear y compartir código en vivo, ecuaciones, visualizaciones y documentos de texto. Jupyter Notebook es mantenido por la gente de Project Jupyter. Este es un proyecto incidental del proyecto IPython, que solía tener un proyecto IPython Notebook. El nombre, Jupyter, se origina en los principales lenguajes de programación que admite: Julia, Python y R. Jupyter se envía con el kernel de IPython, que le permite escribir sus programas de Python, pero también hay más de 100 kernels que puede usar. . Los cuadernos de Jupyter son especialmente útiles cuando haces física computacional y/o muchos análisis de datos usando herramientas computacionales como libros de laboratorio científico.
2. Colaboración de Google
Colaboración de Google, también conocido como Colaboratory, es un entorno de cuaderno Jupyter gratuito que no requiere ninguna configuración y se ejecuta completamente en la nube. Admite GPU y TPU gratuitos para los usuarios. Puede escribir y ejecutar código con Colaboratory, guardar y compartir sus análisis y acceder a potentes herramientas informáticas desde su navegador, todo de forma gratuita. Como sugiere el nombre, viene con una colaboración respaldada en el producto. Es un cuaderno Jupyter que aprovecha la funcionalidad de colaboración con Google Docs. También se ejecuta en los servidores de Google, por lo que no necesita actualizar nada. Los cuadernos se guardan en su cuenta de Google Drive. Proporciona una plataforma para que cualquier persona use bibliotecas de uso común como PyTorch, TensorFlow y Keras para desarrollar aplicaciones de aprendizaje profundo.
3. Kaggle
Kaggle es una gran plataforma para aplicaciones de aprendizaje profundo en la nube. Kaggle y Colab tienen varias similitudes y ambos son productos de Google. Al igual que Colab, le da al usuario el uso gratuito de la GPU en la nube. Esto proporciona al usuario Jupyter Notebooks. Muchos de los atajos de teclado en Jupyter Notebook son los mismos que en Kaggle. Tiene muchos conjuntos de datos que puede importar. Kaggle Kernels a menudo parece estar experimentando un poco de retraso, pero es más rápido que Colab. Kaggle tiene una gran comunidad para apoyar, aprender y validar las habilidades de ciencia de datos.
4. Cuadernos Azure
Los Azure Notebooks de Microsoft tienen un diseño muy similar al de Colab. Ambas plataformas tienen funciones gratuitas para compartir en la nube. En términos de velocidad, Azure Notebooks gana y es mucho mejor en ese aspecto que Colab. Tiene una memoria de 4 Gigabytes. Azure Notebooks crea una serie de cuadernos vinculados denominados bibliotecas . Estas bibliotecas tienen menos de 100 megabytes en el tamaño de cada archivo de datos. Azure Notebooks admite los lenguajes de programación Python, R y F #. Tiene una interfaz de usuario nativa de Jupyter. Azure Notebooks se adapta mejor a las aplicaciones simples.
5. Amazon SageMaker
El portátil SageMaker de Amazon se ejecuta en la aplicación Jupyter Notebook. Es responsable de desarrollar y mantener cuadernos Jupyter que se pueden usar para procesar más datos y entrenar e implementar modelos ML. Proporciona API para entrenamiento e implementación de modelos. Amazon SageMaker ofrece una consola que permite al usuario iniciar el entrenamiento del modelo o implementar un modelo mediante la interfaz de usuario de la consola. Permite que los modelos ML se incorporen fácilmente en las aplicaciones al proporcionar todos los componentes de aprendizaje automático en un conjunto de herramientas para que los modelos se puedan producir más rápido con mucho menos esfuerzo y a un costo más bajo.
6. Portátiles IBM DataPlatform
En 2016, IBM lanzó Watson Data Platform y Data Science Experience (DSX) , respaldando las opciones de código abierto. Estos han incluido cuadernos para Apache Spark, R, Python, Scala y Jupyter. Eventualmente lanzó su plataforma para el trabajo de ciencia de datos con libertad de elección de múltiples nubes. Se hizo con la ayuda de la contenedorización del producto a través de Kubernetes. Como resultado, se puede implementar en cualquier lugar donde residan los datos, en contenedores Docker o CloudFoundry. A diferencia de Google Colab, los portátiles IBM DataPlatform cuentan con contenedores de varias nubes o una implementación híbrida. Colab necesita ajustar la ciencia de datos a su nube pública.
IBM admite la creación de contenedores, ya que permite a los clientes analizar datos y crear, implementar y ejecutar modelos en cualquier lugar, incluidas las nubes públicas rivales. DSX forma parte de Watson Data Platform como DSX Local y es potencialmente independiente de ella. Proporciona acceso colaborativo y controlado por autorización a programas, datos, recursos de ciencia de datos, servicios y espacio comunitario. DataPlatform Notebooks admite los lenguajes R, Python y Scala, y admite notebooks de Jupyter y Apache Zeppelin. Los usuarios de DSX pueden usar bibliotecas de código abierto como Spark MLlib, TensorFlow, Caffe, Keras y MXNet.