Idea de proyecto | Resumidor de texto

Título del proyecto: Text Summarizer
Introducción:
Hoy sabemos que las máquinas se han vuelto más inteligentes que nosotros y pueden ayudarnos en todos los aspectos de la vida, las tecnologías han llegado a un punto en el que pueden realizar todas las tareas de los seres humanos, como tareas domésticas, controlar el hogar. dispositivos, hacer citas, etc. El campo que hace que estas cosas sucedan es el aprendizaje automático. Machine Learning entrena a las máquinas con algunos datos que lo hacen capaz de actuar cuando se prueba con el tipo de datos similar. Las máquinas se han vuelto capaces de comprender los lenguajes humanos utilizando el procesamiento del lenguaje natural. Hoy en día se están realizando investigaciones en el campo de la analítica de texto.
Como sugiere el título del proyecto, Text Summarizer es una aplicación basada en web que ayuda a resumir el texto. Podemos subir nuestros datos y esta aplicación nos da el resumen de esos datos en tantas líneas como queramos. El producto es principalmente un texto que resume el uso de conceptos de aprendizaje profundo. El objetivo principal es proporcionar resúmenes confiables de páginas web o archivos cargados según la elección del usuario. Las frases innecesarias se descartarán para obtener las frases más importantes.

El producto incluye los siguientes componentes:
Text Parser: Dividirá los textos en párrafos, oraciones y palabras.
• Analizador de HTML: para extraer textos de URL de páginas web, se utiliza la biblioteca de analizador de HTML. El análisis de HTML toma código HTML y extrae información relevante, como el título de la página, los párrafos de la página, los encabezados de la página, los enlaces, el texto en negrita, etc.
• Analizador de documentos: esta biblioteca se utiliza para extraer texto de los documentos. Con la interfaz del analizador de documentos, los analizadores de documentos pueden acceder al tipo de contenido que se asigna a un documento y almacenar el tipo de contenido en el propio documento. Además, los analizadores de documentos pueden actualizar la definición de tipo de contenido que se almacena en un documento para que coincida con la versión de la definición de tipo de contenido que usa una lista o biblioteca de documentos.

Creador de vectores de funciones: este componente calculará y obtendrá las representaciones de funciones de las oraciones.

AutoEncoder: La parte raíz del Deep Learning. Autoencoder ofrece una representación comprimida de una oración dada.

NLTK : Nltk es una biblioteca de herramientas de lenguaje natural. Es una plataforma para construir programas Python para trabajar con lenguajes humanos. Proporciona interfaces fáciles de usar para más de 50 corpus y recursos léxicos como WordNet, junto con un conjunto de bibliotecas de procesamiento de texto para clasificación, tokenización, lematización, etiquetado, análisis y razonamiento semántico, contenedores para bibliotecas NLP de potencia industrial, y un foro de discusión activo. En el resumen de texto, esta biblioteca se usa para eliminar palabras vacías en el vocabulario en inglés y para convertir estas palabras en formas raíz.

LSM Summariser: esta biblioteca se utiliza para crear un resumen del texto extraído.

Clasificador: El clasificador determina si una oración es una oración de resumen o no.

Clase de texto: La clase de texto es la clase más compleja del sistema. Tiene párrafos, oraciones y palabras. Para dividir el texto en estas partes, la clase de texto debe tener métodos de análisis. Además, hay un número de frases y el número de atributos de párrafos en esta clase. Estos atributos son necesarios para calcular las características de las oraciones.

Clase de párrafo: La clase de párrafo es una clase intermedia del sistema. En el objeto de párrafo, se realizan algunos cálculos necesarios para las características de la oración, como el número de la oración en el párrafo y el rango de un párrafo en el texto. También tiene analizador propio para dividir el párrafo en oraciones.

Clase de oración: La clase de oración es la clase más importante del sistema. El objeto de oración tiene métodos para calcular los valores de las características de sí mismo con la información que toma de las clases de texto, párrafo y palabra. Tiene una lista flotante llamada «características». La lista de «características» tiene valores de características de la oración. El sistema combina listas de “características” de los objetos de oración del texto y hace una array de características con ellos. Los componentes Autoencoder y Classifier ¬mencionados¬ utilizan esta array de características. La clase Oración también tiene su propio analizador para dividir la oración en palabras.

Clase de palabra: La clase de palabra es la clase más básica del sistema. Usando las API de NLP, podemos obtener la raíz, la raíz y las partes del sufijo de la palabra, y el tipo de palabra, como verbo o sustantivo. También utilizando la API de Word2Vec, se puede calcular la distancia del coseno entre dos palabras. Estos atributos se utilizan para calcular los valores de características de una oración.

Características:
Página de inicio: La página de inicio simplemente muestra todos los contenidos disponibles en la aplicación.

Servicios: Cuenta los servicios que brinda la aplicación. Los servicios incluyen resumen de documentos, resumen de páginas web e interacciones seguras. Los datos resumidos se envían al correo electrónico del usuario a través del cual se ha dado de alta.

Portafolio: Da algunas instancias del resumen de texto de diferentes tipos de datos.

Demostración: proporciona una plataforma para obtener un resumen sin crear una cuenta. Le pide a su texto y número de líneas que es el número de líneas de resumen que desea.

Iniciar sesión y registrarse: lo ayuda a crear una cuenta en la aplicación web Text Summarizer para que pueda recibir un correo electrónico con sus resultados.

Herramientas utilizadas:
• El backend para el marco se ha escrito en Django framework para Python3 usando Pycharm IDE.
• El frontend es administrado por CSS y Bootstrap.

Aplicaciones:

La gente necesita aprender mucho de los textos. Pero tienden a querer pasar menos tiempo mientras hacen esto.
Su objetivo es resolver este problema proporcionándoles los resúmenes del texto del que quieren obtener información.
Los objetivos de este proyecto son que estos resúmenes sean lo más importantes posible en el aspecto de la intención de los textos.
El usuario podrá seleccionar la longitud del resumen.
Proporcionar al usuario, una interfaz fluida y clara.
Configuración de un sistema de servidor de respuesta rápida.

Miembros del equipo:

Rohan Piplani
Meenal Gabá

Nota: esta idea de proyecto se contribuye para ProGeek Cup 2.0: una competencia de proyectos de GeeksforGeeks.

Publicación traducida automáticamente

Artículo escrito por meenal_gaba y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta Cancelar la respuesta