La minería de datos es un proceso automático de descubrir patrones implícitos, correlaciones, anomalías e información estadística dentro de grandes cantidades de datos almacenados en repositorios. Esta información puede interpretarse por hipótesis o teoría y usarse para hacer pronósticos. Es un área interdisciplinaria que incorpora ideas de una variedad de disciplinas matemáticas y computacionales que incluyen estadísticas, aprendizaje automático y recuperación de bases de datos, métodos de optimización y visualización, y más. La minería de datos puede ayudar a descubrir relaciones e información relacionada con tendencias que no pueden proporcionar las técnicas básicas de consulta e informes. El término minería de datos a menudo se usa como sinónimo de KDD, o descubrimiento de datos de conocimiento, que de hecho se refiere a un proceso más general del cual la minería es un componente.
Gran parte de la ciencia ahora se está volviendo intensiva en datos. La capacidad transformadora que la ciencia de datos ha proporcionado a la ciencia se ha denominado «El Cuarto Paradigma».
El volumen de datos disponibles está creciendo exponencialmente; y también lo es su volumen, velocidad y veracidad. Esta proliferación de datos hoy en día los ha hecho demasiado grandes en tamaño y dimensionalidad para ser analizados directamente por humanos, lo que hace que la minería de datos sea una herramienta indispensable para proyectos de investigación científica en múltiples dominios: desde la astronomía y la bioinformática hasta las finanzas y las ciencias sociales. La minería de datos se puede utilizar para sacar conclusiones y predicciones pertinentes a partir del colosal volumen de datos científicos que de otro modo serían impenetrables y que se recopilan y almacenan todos los días.
Aplicaciones de la Minería de Datos en Ciencias e Ingeniería:
- Reducción de datos: Los instrumentos científicos como satélites y microscopios pueden adquirir fácilmente millones de puntos de datos y generar terabytes de datos a altas velocidades. Un enfoque metódico y automatizado puede simplificar las observaciones sin corromper la calidad de la información. Las técnicas de minería de datos pueden servir como una interfaz efectiva entre los científicos y los conjuntos de datos masivos.
- Investigación: la minería de datos web simplifica el proceso de extraer información informada y consultada por el usuario a partir de datos inconsistentes y no estructurados en Internet. La minería de datos de texto implica el uso de herramientas como el procesamiento del lenguaje natural (NLP) para adquirir información estructurada del texto específicamente. Estas aplicaciones permiten a los investigadores encontrar datos científicos existentes en bases de datos bibliográficas de una manera más rápida y precisa.
- Reconocimiento de patrones: los algoritmos inteligentes pueden detectar patrones en conjuntos de datos que los humanos no pueden debido a la alta dimensionalidad. Esto también puede ayudar a descubrir anomalías.
- Detección remota: las técnicas de minería de datos son aplicables en imágenes de detección remota aérea para la clasificación automática de la cobertura del suelo, y para la luz nocturna, la detección remota se utiliza para investigar dominios socioeconómicos.
- Minería de opiniones: un subcampo del procesamiento del lenguaje natural, la recuperación de información y la minería de textos, la minería de opiniones es el proceso de extraer pensamientos y percepciones humanas de textos no estructurados, que pueden usarse para analizar los sentimientos de los usuarios de las redes sociales.
Área de aplicación de las Técnicas de Minería de Datos:
- Física de alta energía: los experimentos que involucran colisiones simuladas dentro de aceleradores y detectores en el Gran Colisionador de Hadrones registran petabytes de datos que deben almacenarse, calibrarse y reconstruirse antes de que puedan analizarse. La red informática mundial LHC se ocupa del volumen mediante el empleo de algoritmos de reducción de datos. El software especial de alto rendimiento llamado ROOT es una herramienta de minería de datos de código abierto que facilita los análisis científicos y la visualización de grandes cantidades de datos.
- Astronomía: la clasificación de objetos cosmológicos con integridad y eficiencia es un proceso que utiliza algoritmos de minería de datos, utilizados para la separación de estrellas y galaxias, la morfología de galaxias y otros tipos de clasificaciones. La estimación de corrimientos al rojo a partir de datos fotométricos para galaxias y cuásares utiliza el enfoque de plantilla o el método de entrenamiento de conjuntos empíricos. Además de estas aplicaciones, la minería de datos también se ha utilizado para analizar fondos de microondas cósmicos, pronosticar erupciones solares y realizar simulaciones astronómicas.
- Bioinformática: La bioinformática es una ciencia en la intersección de la biología y la tecnología de la información. Los datos generados en la investigación de genómica y proteómica se pueden extraer para encontrar motivos en secuencias, predecir estructuras de proteínas, anotación genómica, analizar la expresión de genes/proteínas, modelar sistemas biológicos y explorar mecanismos genéticos para comprender enfermedades a un nivel más profundo.
- Atención médica: los datos generados por la industria de la atención médica incluyen información útil sobre la demografía del paciente, los planes de tratamiento, el pago y la cobertura del seguro. Los estudios existentes han registrado aplicaciones de minería de datos en medicina clínica, detección de señales de reacciones adversas a medicamentos y enfoque en diabetes y enfermedades de la piel. Las técnicas de minería utilizadas con más frecuencia en esta categoría son la regresión, la clasificación, la minería de patrones secuenciales, la asociación, la agrupación en clústeres y el almacenamiento de datos.
- Análisis geoespacial: se han utilizado algoritmos de minería de datos para generar mapas espaciales de la procedencia del polvo de tormenta para mitigar sus efectos en entornos áridos, las ubicaciones susceptibles a la erosión de cárcavas que desenstringn la degradación de la tierra se han modelado espacialmente mediante programación GIS y R,
Para conocer más áreas de aplicación de la minería de datos, consulte el artículo Aplicaciones de la minería de datos.
Publicación traducida automáticamente
Artículo escrito por anadikasahu y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA