La minería de datos utiliza varias metodologías en estadísticas y diferentes algoritmos, como modelos de clasificación, agrupamiento y modelos de regresión para explotar los conocimientos que están presentes en el gran conjunto de datos. Nos ayuda a predecir el resultado en función del historial de eventos que han tenido lugar. Por ejemplo, la cantidad que una persona gasta mensualmente en función de sus transacciones anteriores, los artículos frecuentes que compran los clientes, como pan, mantequilla y mermelada, siempre se compran juntos. También se pueden analizar las tendencias del mercado, como la demanda de sombrillas durante la temporada de lluvias y la demanda de helados durante el verano. El objetivo principal aquí es analizar el patrón presente en el conjunto de datos y obtener información útil basada en el objetivo requerido.
¿Cuál podría ser el rendimiento de las cosechas en el presente año? ¿Cuáles son las posibilidades de que una persona tenga una enfermedad en particular cuando se dan todos los síntomas? ¿Cuál es la venta esperada de comestibles en un mes en particular? ¿Cuál es el número esperado de clientes que compran ropa en un supermercado en particular? ¿Cuál es el porcentaje de pérdida/beneficio esperado para el próximo año? Todas estas preguntas pueden responderse siempre que usemos un modelo preciso para entrenar los datos, identifiquemos los patrones presentes en los conjuntos de datos y, lo que es más importante, necesitamos tener una cantidad suficiente de datos para llegar a resultados precisos y eficientes.
En particular, el procesamiento de datos atrae ideas, como el muestreo, la estimación y la prueba de hipótesis a partir de estadísticas y algoritmos de búsqueda, técnicas de modelado y teorías de aprendizaje de la informática, el reconocimiento de patrones y el aprendizaje automático.
Sistemas de recomendación:
El sistema de recomendación se ocupa principalmente de los gustos y disgustos de los usuarios. Su objetivo principal es recomendar un artículo a un usuario que tiene muchas posibilidades de gustar o que necesita un usuario en particular en función de sus compras anteriores. Es como tener un equipo personalizado que puede entender nuestros gustos y disgustos y ayudarnos en la toma de decisiones sobre un artículo en particular sin ser sesgado de ninguna manera al hacer uso de una gran cantidad de datos en los repositorios que se generan día a día. El objetivo de los sistemas de recomendación es proporcionar recomendaciones accesibles y de alta calidad para la comunidad de usuarios. Su deseo es poseer una autoridad personal razonable con eficiencia.
¿Qué película/serie web debo ver a continuación? ¿Qué libro debo leer a continuación? ¿Qué artículos debo comprar que coincidan con los artículos comprados anteriormente? ¿Cuáles son las revistas que debería estar leyendo? ¿Coincidirá con el género que me gusta? ¿Debo ir a un lugar en particular? ¿Me gustará eso? Todas estas preguntas se pueden responder con la ayuda del sistema de recomendación.
Aquí lo que hacemos es encontrar la similitud de los usuarios o elementos de los que se debe hacer la recomendación con la de todos los usuarios o elementos que están presentes en los conjuntos de datos. Encontramos que el patrón de gustos y disgustos tiene la mayor similitud. Luego hacemos uso de ese patrón para sugerir si un elemento, lugar, película o libro debe sugerirse o no.
- Recomendación basada en el usuario: aquí calculamos la medida de similitud de Pearson, que es necesaria para determinar los usuarios estrechamente relacionados, es decir, cuyos gustos y disgustos siguen el mismo patrón. Las operaciones computacionales se basan en la fórmula de similitud de Pearson. Las calificaciones de dos usuarios diferentes se restan por el valor medio y se multiplican en el numerador y en el denominador, las calificaciones se elevan al cuadrado y se calcula la suma para cada una. Después de obtener los valores de suma, se dividen para obtener la medida de similitud.
- Recomendación basada en artículos: El objetivo inicial es obtener la array media ajustada. La array ajustada a la media se utiliza en la predicción de la calificación de un nuevo usuario que utiliza el elemento, en función de reducir los errores causados por los usuarios, ya que algunos tienden a dar calificaciones muy altas la mayor parte del tiempo y otros tienden a dar calificaciones muy bajas. la mayor parte del tiempo Entonces, para reducir esta inconsistencia, restamos el valor medio de cada uno de los usuarios. El siguiente paso es el cálculo de la medida de similitud entre los elementos. Aquí podemos hacer uso de la array de similitud de coseno. Las operaciones computacionales se basan en la fórmula de similitud de coseno. Las valoraciones de diferentes usuarios sobre dos ítems se multiplican en el numerador y en el denominador, las valoraciones se elevan al cuadrado y se calcula una suma para cada uno. Después de obtener los valores de suma, se dividen para obtener la medida de similitud.
En los dos métodos anteriores, obtenemos la medida de similitud en función de la cual hacemos la predicción de si el elemento debe sugerirse o no a un usuario en particular o si el elemento es relevante o no.
Las formas de seleccionar la técnica más simple respaldaron las especificaciones del dominio del dispositivo, distinguiendo los factores de éxito convincentes detrás de técnicas totalmente diferentes, o el examen de muchas técnicas admitió la unidad de área de criterio óptima asociada, todo lo necesario para un análisis efectivo. Históricamente, los sistemas de recomendación han sido evaluados mediante experimentos fuera de línea de explotación que planean estimar el error de predicción de la explotación de recomendaciones asociada al conjunto de datos de transacciones existentes.
Publicación traducida automáticamente
Artículo escrito por deviprajwala y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA