Las 8 principales fuentes gratuitas de conjuntos de datos para usar en proyectos de ciencia de datos

¿Pensabas que los datos son solo para que las grandes empresas y corporaciones analicen y obtengan información comercial? No, ¡los datos también son divertidos! No hay nada más interesante que analizar un conjunto de datos para encontrar las correlaciones entre los datos y obtener información única. ¡Es casi como un juego de misterio donde los datos son un rompecabezas que debes resolver! Y es aún más emocionante cuando tiene que encontrar el mejor conjunto de datos para un proyecto de ciencia de datos que desea realizar. Después de todo, si los datos no son buenos, no hay posibilidad de que su proyecto sea bueno también.

Top-8-Free-Dataset-Sources-to-Use-for-Data-Science-Projects

Afortunadamente, hay muchas fuentes de datos en línea donde puede obtener conjuntos de datos gratuitos para usar en su proyecto. En este artículo, hemos mencionado algunas de estas fuentes de datos que puede descargar y usar de forma gratuita. Entonces, ya sea que desee realizar una visualización de datos, limpieza de datos, aprendizaje automático o cualquier otro tipo de proyecto, ¡hay un conjunto de datos para que lo use!

1. Conjuntos de datos públicos de Google Cloud

Google no es solo un motor de búsqueda, ¡es mucho más! Hay muchos conjuntos de datos públicos a los que puede acceder en la nube de Google y analizarlos para obtener nuevos conocimientos a partir de estos datos. Hay más de 100 conjuntos de datos y todos están alojados en BigQuery y Cloud Storage. También puede usar las capacidades de aprendizaje automático de Google para analizar conjuntos de datos como BigQuery ML, Vision AI, Cloud AutoML, etc. También puede usar Google Data Studio para crear visualizaciones de datos y paneles interactivos para que pueda obtener mejores perspectivas y encontrar patrones. en los datos Google Cloud Public Datasets tiene datos de varios proveedores de datos como GitHub, la Oficina del Censo de los Estados Unidos, la NASA, BitCoin, el Departamento de Transporte de los EE. UU., etc. Puede acceder a estos conjuntos de datos de forma gratuita y obtener acceso gratuito a consultas de aproximadamente 1 TB de datos al mes en BigQuery.

2. Registro de datos abiertos de Amazon Web Services

Amazon Web Services tiene una gran cantidad de conjuntos de datos en su registro de datos abiertos. Puede descargar estos conjuntos de datos y usarlos en su propio sistema o puede analizar los datos en Amazon Elastic Compute Cloud (Amazon EC2). Amazon también tiene varias herramientas que puede usar, como Apache Spark, Apache Hive, etc. Este registro de datos abiertos de AWS es parte del Programa de conjuntos de datos públicos de AWS que tiene como objetivo democratizar el acceso a los datos para que estén disponibles gratuitamente para todos y también crear nuevas técnicas y herramientas de análisis de datos que minimicen el costo de trabajar con datos. Puede acceder a los conjuntos de datos de forma gratuita, pero necesita una cuenta gratuita de AWS antes de hacer cualquier otra cosa.

3. Datos.gov

Los Estados Unidos de América es pionero y líder mundial en tecnología. La mayoría de las principales empresas tecnológicas de la actualidad se han originado en Silicon Valley y es lógico que el gobierno de EE. UU. también esté muy involucrado en la ciencia de datos. Data.gov es el repositorio principal de los conjuntos de datos abiertos del gobierno de los EE. UU. que puede usar para investigar, desarrollar visualizaciones de datos, crear aplicaciones web y móviles, etc. Este es un intento del gobierno de ser más transparente y para que pueda acceder a la conjuntos de datos directamente sin registrarse en el sitio. Sin embargo, algunos conjuntos de datos pueden requerir que acepte acuerdos de licencia y otros tecnicismos antes de poder descargarlos. Hay una gran variedad de conjuntos de datos en Data.giv relacionados con diferentes campos como el clima, la energía, la agricultura, los ecosistemas, los océanos, etc., ¡así que asegúrese de revisarlos todos!

4. Kaggle

Hay alrededor de 23,000 conjuntos de datos públicos en Kaggle que puede descargar de forma gratuita. De hecho, muchos de estos conjuntos de datos ya se han descargado millones de veces. ¡Puede usar el cuadro de búsqueda para buscar conjuntos de datos públicos sobre cualquier tema que desee, desde salud hasta ciencia y dibujos animados populares! También puede crear nuevos conjuntos de datos públicos en Kaggle y esos pueden ganarle medallas y también llevarlo a títulos avanzados de Kaggle como Experto, Maestro y Gran maestro. También puede descargar conjuntos de datos de competencia de Kaggle mientras participa en estas competencias. Los conjuntos de datos competitivos de Kaggle son mucho más detallados, seleccionados y bien limpios que los conjuntos de datos públicos disponibles en Kaggle, por lo que es posible que deba revisarlos. Pero, en general, si está interesado en la ciencia de datos, ¡Kaggle es el lugar para usted!

5. Repositorio de aprendizaje automático de UCI

El repositorio de aprendizaje automático de UCI es un excelente lugar para buscar conjuntos de datos interesantes, ya que es una de las primeras y más antiguas fuentes de datos disponibles en Internet (¡fue creado en 1987!). Estos conjuntos de datos son excelentes para el aprendizaje automático y puede descargar fácilmente los conjuntos de datos del repositorio sin ningún registro. Todos los conjuntos de datos en el Repositorio de aprendizaje automático de UCI son aportados por diferentes usuarios y, por lo tanto, son un poco pequeños con diferentes niveles de limpieza de datos. Pero la mayoría de los conjuntos de datos están bien mantenidos y puede usarlos fácilmente para algoritmos de aprendizaje automático.

6. Centro Nacional de Información Ambiental

Si desea acceder a datos sobre el clima y las condiciones ambientales, ¡entonces el Centro Nacional de Información Ambiental es la mejor opción! Esto se conocía anteriormente como el Centro Nacional de Datos Climáticos, pero desde entonces se han fusionado con los centros de datos de la Administración Nacional Oceánica y Atmosférica (NOAA) para crear los Centros Nacionales de Información Ambiental (NCEI). El NCEI tiene muchos conjuntos de datos relacionados con las condiciones climáticas y meteorológicas en los Estados Unidos. De hecho, es el repositorio de datos ambientales más grande del mundo. Incluye datos oceánicos, datos meteorológicos, condiciones climáticas, datos geofísicos, información atmosférica, etc. Si quieres saber sobre la Tierra, este archivo de datos es el mejor lugar para ir. Echa un vistazo a algunos de los conjuntos de datos aquí.

7. Observatorio Mundial de la Salud

Si está en el campo de la medicina y está interesado en datos de salud o simplemente está creando un proyecto sobre sistemas de salud y enfermedades globales, entonces el Observatorio de Salud Global es el mejor lugar para obtener muchos datos de salud. La Organización Mundial de la Salud ha hecho públicos todos sus datos en el Observatorio Mundial de la Salud para que la información de salud de buena calidad esté disponible gratuitamente en todo el mundo en caso de que sea necesaria para detectar y recuperarse de una emergencia de salud en cualquier parte del mundo. Los datos de salud se dividen según varias características, como enfermedades transmisibles y no transmisibles, salud mental, tasas de mortalidad, medicamentos y vacunas, control del tabaco, mujeres y salud, riesgos para la salud, inmunización, etc. Actualmente, tienen un gran enfoque en Datos del COVID-19 para que se pueda frenar cuanto antes esta pandemia.

8. Datos terrestres

Si desea datos relacionados con la Tierra y el Espacio, Earthdata es el lugar perfecto para ello. ¡Es creado por la NASA después de todo! Earthdata es parte del Programa de Sistemas de Datos de Ciencias de la Tierra creado por la NASA que proporciona conjuntos de datos basados ​​en la atmósfera, los océanos, las erupciones solares, la criosfera, el geomagnetismo, la tectónica, etc. de la Tierra. Earthdata es específicamente una parte de los Datos e Información del Sistema de Observación de la Tierra Sistema (EOSDIS) que recopila y procesa los datos de diferentes aeronaves, satélites y datos de campo de la NASA obtenidos desde tierra. Si bien Earthdata proporciona muchos de estos conjuntos de datos, también tienen herramientas de datos para buscar, manejar, ordenar, mapear y visualizar los datos.

Publicación traducida automáticamente

Artículo escrito por harkiran78 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *