La minería web es el proceso de las técnicas de minería de datos para descubrir y extraer información automáticamente de documentos y servicios web. El objetivo principal de la minería web es descubrir información útil de la World-Wide Web y sus patrones de uso. Aplicaciones de la Minería Web:
- La minería web ayuda a mejorar el poder del motor de búsqueda web clasificando los documentos web e identificando las páginas web.
- Se utiliza para búsquedas web, por ejemplo, Google, Yahoo, etc. y búsquedas verticales, por ejemplo, FatLens, Become, etc.
- La minería web se utiliza para predecir el comportamiento del usuario.
- La minería web es muy útil para un sitio web y un servicio electrónico en particular, por ejemplo, la optimización de la página de destino.
La minería web se puede dividir ampliamente en tres tipos diferentes de técnicas de minería: minería de contenido web, minería de estructura web y minería de uso web. Estos se explican a continuación a continuación.
- Minería de contenido web: la minería de contenido web es la aplicación de extraer información útil del contenido de los documentos web. El contenido web consta de varios tipos de datos: texto, imagen, audio, video, etc. Los datos de contenido son el grupo de hechos en los que se diseña una página web. Puede proporcionar patrones efectivos e interesantes sobre las necesidades del usuario. Los documentos de texto están relacionados con la minería de textos, el aprendizaje automático y el procesamiento del lenguaje natural. Esta minería también se conoce como minería de texto. Este tipo de minería realiza escaneo y minería del texto, imágenes y grupos de páginas web según el contenido de la entrada.
- Minería de estructura web: la minería de estructura web es la aplicación de descubrir información de estructura de la web. La estructura del gráfico web consta de páginas web como Nodes e hipervínculos como bordes que conectan páginas relacionadas. La minería de estructuras básicamente muestra el resumen estructurado de un sitio web en particular. Identifica la relación entre páginas web enlazadas por información o conexión de enlace directo. Para determinar la conexión entre dos sitios web comerciales, la minería de estructuras web puede ser muy útil.
- Minería de uso web: la minería de uso web es la aplicación de identificar o descubrir patrones de uso interesantes a partir de grandes conjuntos de datos. Y estos patrones te permiten comprender los comportamientos de los usuarios o algo así. En la minería de uso web, los usuarios acceden a los datos en la web y recopilan datos en forma de registros. Por lo tanto, la minería de uso web también se denomina minería de registros.
Comparación entre minería de datos y minería web:
Puntos | Procesamiento de datos | Minería web |
---|---|---|
Definición | La minería de datos es el proceso que intenta descubrir patrones y conocimiento oculto en grandes conjuntos de datos en cualquier sistema. | Web Mining es el proceso de técnicas de minería de datos para descubrir y extraer automáticamente información de documentos web. |
Solicitud | La minería de datos es muy útil para el análisis de páginas web. | Web Mining es muy útil para un sitio web y un servicio electrónico en particular. |
Usuarios objetivo | Científico de datos e ingenieros de datos. | Científicos de datos junto con analistas de datos. |
Acceso | Data Mining accede a los datos de forma privada . | Datos de acceso de Web Mining públicamente. |
Estructura | En Minería de Datos obtiene la información a partir de una estructura explícita. | En Web Mining obtiene la información de páginas web estructuradas, no estructuradas y semiestructuradas. |
Tipo de problema | Clustering, clasificación, regresión, predicción, optimización y control. | Minería de contenido web, minería de estructura web. |
Instrumentos | Incluye herramientas como algoritmos de aprendizaje automático. | Las herramientas especiales para la minería web son los registros de Scrapy, PageRank y Apache. |
Habilidades | Incluye enfoques para la limpieza de datos, algoritmos de aprendizaje automático. Estadística y probabilidad. | Incluye conocimiento a nivel de aplicación, ingeniería de datos con módulos matemáticos como estadística y probabilidad. |