Minería de datos | conjunto 2

La minería de datos puede ser un término de la ciencia aplicada. Por lo general, también se conoce como descubrimiento de datos en bases de datos (KDD). El procesamiento de datos se trata de encontrar nueva información en una tonelada superior de datos. Se espera que los datos obtenidos del procesamiento de datos sean nuevos y útiles.

De trabajo:
En varios casos se guarda información; por lo tanto, se puede utilizar más tarde. los datos se guardan con un objetivo. Como ejemplo, una tienda necesita guardar mucho de lo que ha comprado. Deben intentar hacer esto para comprender qué cantidad deben comprar ellos mismos, para poseer lo suficiente para vender más tarde. Guardar esta información genera una gran cantidad de conocimiento. la información a veces se conserva en exceso de información. la explicación de por qué se conserva la información se denomina uso principal.

Más tarde, la información constante también se puede usar para obtener información alternativa que no se requería para el uso principal. Es posible que la tienda deba comprender actualmente qué cosas razonables compran las personas después de comprar en la tienda. (Muchas personas que compran alimentos también compran hongos, por ejemplo). Ese tipo {de información|de información|de conocimiento} está en los datos y es beneficioso, sin embargo, no fue la razón por la que se guardaron los datos. Esta información es nueva y podría ser útil. Es un segundo uso para la información constante. Encontrar nueva información que incluso será útil a partir de la información se denomina procesamiento de datos.

Para los datos, hay muchos tipos de procesamiento de datos para obtener nueva información. Por lo general, se trata de la predicción; hay incertidumbre dentro de los resultados esperados. el siguiente se basa en la observación de que hay una pequeña manzana verde en la que podemos cambiar estructuralmente nuestra información. Algunos de los tipos de procesamiento de datos son:

Reconocimiento de patrones (Tratar de buscar similitudes en las filas del informe, en el tipo de reglas. minúsculo -> verde. (Las manzanas pequeñas miden cuadrados generalmente verdes))
Usar una red de teoremas (Tratar de crear algo que diga, sin embargo, , los diversos atributos de información están conectados/se influyen entre sí. Las dimensiones y, por lo tanto, el color están relacionados. Por lo tanto, si reconoce una cosa sobre los aspectos, adivinará el color.)

Usando una red neuronal (tratando de crear una especie de cerebro modelo, que es difícil de entender; sin embargo, una computadora le dirá que si la manzana no tiene experiencia, es probable que se amargue si le decimos a la computadora la Apple no tiene experiencia. Por lo tanto, esto suele ser una especie de versión de registro, tenemos la tendencia a no pensar que funciona, pero funciona.)
Uso del árbol de clasificación (con todos los datos alternativos tratando de mencionar qué problema alternativo con respecto al problema , tendemos a medir el tamaño de la observación. Aquí está la manzana de grado asociado con el tamaño, el color y el brillo, ¿cómo va a ser el estilo?)

La minería de datos necesita preparación de la información, que puede descubrir información o patrones que pueden comprometer las obligaciones de confidencialidad y privacidad. Un medio estándar para que esto ocurra es a través de la agregación de información. La agregación de información implica la combinación de información (posiblemente de numerosas fuentes) de una manera que facilita el análisis (pero que también podría generar identificación de información personal, a nivel individual, deductiva o aparente). Esto no puede ser un procesamiento de datos intrínseco, sino un resultado de la preparación de datos antes y para las necesidades del análisis.

La amenaza a la privacidad de una persona entra en juego una vez que la información, una vez recopilada, hace que el trabajador manual de la información, o cualquier organismo de las Naciones Unidas que tenga acceso al conjunto de información recopilada recientemente, esté listo para identificar a personas específicas, en particular una vez que la información fue previamente recopilada. anónimo.

Los datos también pueden cambiarse; por lo tanto, volverse anónimo, para que las personas no sean conocidas rápidamente. Sin embargo, incluso los conjuntos de datos «desidentificados»/»anonimizados» sin duda contendrán suficiente información para permitir la identificación de personas, como ocurrió una vez que los periodistas estaban listos para darse cuenta de que muchas personas apoyaban un grupo de historiales de búsqueda que, sin saberlo, estaban libres de AOL.

Publicación traducida automáticamente

Artículo escrito por AbhinandanBhatnagar y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta Cancelar la respuesta