Kaggle es la plataforma más popular para Data Science . ¡Tiene múltiples conjuntos de datos gratuitos, proyectos que puedes usar para practicar y concursos que tienen premios increíbles! También tiene una comunidad útil donde puedes compartir tus pensamientos y aprender cosas nuevas. Pero la mejor característica de Kaggle es Kaggle Learn. Incluso si no sabe nada sobre ciencia de datos, puede aprender todos los conceptos básicos de los cursos de Kaggle y luego pasar a perfeccionar sus habilidades mediante la realización de proyectos.
Estos cursos de Kaggle para ciencia de datos son los microcursos que son la forma más rápida de adquirir las habilidades que necesita para los proyectos de ciencia de datos. Brindan una introducción rápida a la ciencia de datos si es un principiante al cubrir todos los temas importantes como Python, aprendizaje automático, visualización de datos, Pandas, SQL, aprendizaje profundo, procesamiento de lenguaje natural (NLP), etc. Así que veamos todos estos cursos en detalle y comprender todo lo que puede aprender de ellos.
1. python
Este es el primer minicurso de la serie de cursos proporcionados para Data Science. ¡Y eso es porque necesitas aprender Python antes de aventurarte en aguas más profundas! Este curso le brinda una comprensión básica del lenguaje Python desde su sintaxis hasta funciones, booleanos, condicionales, listas, bucles, listas de comprensión, strings, diccionarios y bibliotecas externas. Cada uno de estos módulos del curso contiene información básica seguida de ejemplos y ejercicios, para que pueda aprender haciendo. ¡Estos brindan un conocimiento holístico sobre Python en 2 horas que puede desarrollar hasta que haya dominado el lenguaje más popular para la ciencia de datos!
2. Introducción al aprendizaje automático
El aprendizaje automático es una parte importante de la ciencia de datos, ya que los algoritmos de ML se entrenan con datos y luego se usan con datos según sus requisitos. Es por eso que este segundo minicurso sobre Kaggle trata sobre la introducción al aprendizaje automático con un enfoque especial en los modelos de aprendizaje automático, la validación de modelos, el ajuste insuficiente, el ajuste excesivo, los bosques aleatorios y un ejercicio que enseña más sobre las competencias de aprendizaje automático. También hay algunas lecciones adicionales sobre Introducción a AutoML y cómo comenzar con sus propios cuadernos de Kaggle para enviar en concursos. Y usará la competencia Titanic: Machine Learning from Disaster como ejemplo. ¡Esa es una competencia famosa en Kaggle!
3. Aprendizaje automático intermedio
Después de la introducción, Kaggle tiene el microcurso de aprendizaje automático intermedio que profundiza en el aprendizaje automático. Se enfoca principalmente en los valores faltantes en un conjunto de datos, canalizaciones, validación cruzada, XGBoost, fuga de datos, etc. Al aprender este curso, sus modelos Ml serán mucho más precisos y útiles de lo que podrían ser de otro modo.
4. Visualización de datos
El próximo curso se centra en la visualización de datos, que es una parte inmensamente importante de la ciencia de datos. Es muy difícil transmitir información y patrones de datos a las personas cuando esos datos se almacenan en filas y filas de tablas. Ahí es donde la visualización de datos es extremadamente útil, ya que transmite los conocimientos de los datos de una manera fácilmente comprensible. Este minicurso comienza con Seaborn y luego le enseña cómo crear gráficos de líneas, gráficos de barras, mapas de calor, diagramas de dispersión, histogramas y diagramas de densidad. También ayuda a seleccionar la visualización correcta para los datos y luego usa un proyecto final para probar sus habilidades en todo lo que ha aprendido.
5. Pandas
Pandas es una biblioteca de software de Python muy popular para el análisis y manejo de datos. Por lo tanto, es lógico que este sea el próximo minicurso que vas a aprender. Comienza con la creación, lectura y escritura de datos usando Pandas y luego pasa a indexar, seleccionar, combinar, clasificar, renombrar, asignar, agrupar, etc. Todas estas son técnicas que son fundamentales en Data Science, ya que ayudan a limpiar y preparar sus conjuntos de datos. Este curso también le enseña cómo investigar los tipos de datos dentro de un marco de datos o serie y cómo abordar los valores faltantes en los datos.
6. Introducción al aprendizaje profundo
Los cursos de Kaggle también se enfocan en el aprendizaje profundo en un nivel básico para que pueda pasar a temas avanzados por su cuenta más adelante. Este curso comienza con una introducción al aprendizaje profundo en visión por computadora y luego continúa con la creación de modelos a partir de la programación de convoluciones, TensorFlow y Keras, la creación de modelos de alta precisión mediante el aprendizaje por transferencia y la disponibilidad de más datos para el entrenamiento de modelos mediante el aumento de datos. Luego, le enseña una comprensión más profunda del aprendizaje profundo con descenso de gradiente estocástico y propagación hacia atrás y cómo construir modelos sin transferir el aprendizaje. También hay una lección adicional que lo ayuda a unirse a la competencia Petals to the Metal Kaggle, donde debe crear un modelo de aprendizaje automático que identifique el tipo de flores en un conjunto de datos de imágenes.
7. Introducción a SQL
Ahora pasamos al ámbito de las bases de datos y con él, ¡viene SQL! Como sabe, SQL es un lenguaje de administración de bases de datos muy popular, por lo que es obvio que un microcurso de Kaggle también cubre esto. El curso trata los conceptos básicos de SQL y BigQuery y le enseña cómo crear consultas SQL usando palabras clave comunes como Seleccionar, De, Agrupar por, Dónde, Tener, Contar, Ordenar por, Como y con, etc. También le enseña cómo combine varias fuentes de datos usando Join y los diferentes tipos de Join.
8. SQL avanzado
Después de la introducción a SQL, Kaggle pasa al microcurso de SQL avanzado que enseña este tema con más detalle. Esto incluye más información sobre las diversas uniones y uniones, así como la explicación de las funciones analíticas, los datos anidados y los datos repetidos. Finalmente, le enseña varias estrategias sobre cómo escribir consultas más eficientes que antes.
9. Análisis geoespacial
El análisis geoespacial se centra en los datos geoespaciales y cómo manejarlos correctamente. Este minicurso comienza con aprender a trazar en GeoPandas, un proyecto de código abierto que facilita mucho el trabajo con datos geoespaciales en Python. También aprenderá acerca de los sistemas de referencia de coordenadas que representan alrededor de la Tierra en 3D en 2D junto con los conceptos básicos para crear mapas de calor interactivos y mapas de coropletas. Este curso también le enseña cómo manipular datos geoespaciales además de los conceptos básicos del análisis de proximidad.
10. Procesamiento del lenguaje natural
Este es un curso breve que enseña los conceptos básicos del procesamiento del lenguaje natural. NLP es una parte de la Inteligencia Artificial que se enfoca en enseñar lenguaje como el habla y el texto a las máquinas. ¡Siri, Alexa, etc. son un excelente ejemplo de esto! Dado que el procesamiento del lenguaje natural es un tema tan complejo, Kaggle solo tiene un microcurso básico que cubre la Introducción a la PNL, la clasificación de textos que combina el aprendizaje automático con las habilidades de la PNL, y luego termina con un módulo sobre vectores de palabras.
Además de todos estos cursos, también hay algunos cursos más en Kaggle que cubren varios otros aspectos de la ciencia de datos. Estos incluyen ingeniería de características que le enseña cómo mejorar sus modelos con modelos de referencia, codificación categórica, generación y selección de características, visión artificial , limpieza de datos y explicabilidad de aprendizaje automático . Otro curso es Introducción a la IA de juegos y aprendizaje por refuerzo . Este es un curso divertido que te permite crear tus bots de videojuegos utilizando el algoritmo minimax y el aprendizaje de refuerzo profundo. Además de todos estos cursos, también hay un módulo separado para Micro desafíos que te permitirán aplicar todo lo que has aprendido y poner a prueba tus habilidades.
Es posible que todos estos microcursos y desafíos de Kaggle no lo conviertan en un científico de datos experto por sí solo, pero lo harán MÁS INTELIGENTE y más capaz de usar estos conceptos básicos para desarrollar aún más su conocimiento. ¡Y son gratis! ¡Así que no tienes nada que perder y mucho que ganar!
Publicación traducida automáticamente
Artículo escrito por harkiran78 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA