La ciencia de datos es un campo interdisciplinario que se enfoca en extraer conocimiento de conjuntos de datos que suelen ser enormes en cantidad. El campo abarca el análisis, la preparación de datos para el análisis y la presentación de hallazgos para informar decisiones de alto nivel en una organización. Como tal, incorpora habilidades de informática, matemáticas, estática, visualización de información, gráficos y negocios.
Hoy en día, en muchos casos, en lo que respecta a los problemas de análisis de datos, normalmente se comienza con un problema muy poco definido, por ejemplo, uno diría que en un escenario industrial típico hay una sensación de que hay muchos datos alrededor y todos parecen sugerir que uno debería poder usar este tipo de big data para obtener algún valor para su organización. Entonces, la pregunta entonces es ¿cómo lo hace?
Por lo general, las personas comienzan diciendo que hay muchos datos, ¿qué puede hacer con estos datos? Uno podría decir simplemente que quiere mejorar el rendimiento o minimizar los problemas de mantenimiento, etc. Entonces, uno podría comenzar hablando de una clase de problemas que podrían estar relacionados con el rendimiento o mejorar las operaciones haciendo las cosas a tiempo, etc. Entonces, por lo general, uno comienza con un conjunto suelto de palabras, una definición vaga de un problema y los datos que tiene. Ahora la cuestión es conducir el proceso de pensamiento de uno hacia algo que sea codificable, algo que uno pueda procesar los datos para derivar valor para hacer cualquier problema que esté resolviendo y así sucesivamente.
- Declaración del problema: lo primero que se obtiene es la llegada de un problema que tiene muchas declaraciones de problemas muy difusas. Entonces, el paso 1 es convertir esto en una declaración del problema o conjunto de declaraciones del problema lo más precisas posible y luego, para resolver ese problema, se debe hacer lo que se conoce como Caracterización del problema/Conceptualización del problema.
- Conceptualización del problema: entonces, uno descompone esta declaración de problema de alto nivel en subproblemas y dibuja un proceso de flujo que dice que si resuelve este subproblema, entonces este resultado lo usará en este subproblema y así sucesivamente. Entonces, uno puede pensar en esto como un diagrama de flujo que está dibujando con estos subproblemas y, en general, si es posible, llega a un nivel de granularidad en el que puede identificar la clase de problema a la que pertenecen los subproblemas, ya sea de aproximación de funciones o de clasificación. Entonces uno puede identificar estos problemas como problemas de aproximación de funciones o de clasificación.
- Conceptualización de la solución: Entonces, aquí es donde uno ve la conceptualización de la solución. Una vez más, uno tiene que hacer suposiciones aquí. Entonces, uno podría hacer suposiciones acerca de las distribuciones acerca de la linealidad y la no linealidad, el tipo de no linealidad, y así sucesivamente. Y aquí, si uno pudiera dibujar un diagrama de flujo y tener algunas imágenes en su cabeza, entonces se vuelve más fácil resolver este problema.
- Identificación del método: luego, una vez que uno conceptualiza la solución, para cada uno de estos submodelos, nuestros submódulos, uno tiene que identificar un método y la identificación del método debe estar dictada por las suposiciones que ha hecho antes. Uno tiene que mirar las suposiciones y elegir el método correcto para la solución y si resulta que para el tipo de suposiciones que ha hecho no le gusta ningún método que esté disponible, entonces ajusta los algoritmos existentes a un poco bit y luego encuentre un método que sea útil o que funcione para su problema.
- Realización de la solución: una vez que uno hace esto, actualiza la solución en algún entorno de software de su elección y luego obtiene la solución y evalúa si las suposiciones son buenas, si la solución satisface sus requisitos y si lo hace, ha terminado o si no es así, debe regresar y revisar sus suposiciones y luego ver cómo cambia o modifica sus suposiciones para obtener una solución con la que se sienta cómodo.
Publicación traducida automáticamente
Artículo escrito por AmiyaRanjanRout y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA