Programa Java para extraer párrafos de un documento de Word

El artículo demuestra cómo extraer párrafos de un documento de Word utilizando el método getParagraphs() de la clase XWPFDocument proporcionada por el paquete Apache POI . Apache POI es un proyecto desarrollado y mantenido por Apache Software Foundation que proporciona bibliotecas para realizar numerosas operaciones en archivos de Microsoft Office utilizando Java. 

Para extraer párrafos de un archivo word, el requisito indispensable es importar la siguiente librería de Apache.

poi-ooxml.jar

Acercarse

  1. Formular la ruta del documento de word.
  2. Cree un objeto FileInputStream y XWPFDocument para el documento de Word.
  3. Recupere la lista de párrafos utilizando el método getParagraphs() .
  4. Iterar a través de la lista de párrafos para imprimirla.

Implementación

  • Paso 1: obtener la ruta del directorio de trabajo actual donde se encuentra el documento de Word.
  • Paso 2: crear un objeto de archivo con la ruta especificada anteriormente.
  • Paso 3: crear un objeto de documento para el documento de Word.
  • Paso 4: usar el método getParagraphs() para recuperar la lista de párrafos del archivo de Word.
  • Paso 5: iterando a través de la lista de párrafos
  • Paso 6: Imprimir los párrafos
  • Paso 7: Cerrar las conexiones

Entrada de muestra

El contenido del documento de Word es el siguiente:

Implementación

Ejemplo

Java

// Java program to extract paragraphs from a Word Document
  
// Importing IO package for basic file handling
import java.io.*;
import java.util.List;
// Importing Apache POI package
import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFParagraph;
  
// Main class to extract paragraphs from word document
public class GFG {
  
    // Main driver method
    public static void main(String[] args) throws Exception
    {
  
        // Step 1: Getting path of the current working
        // directory where the word document is located
        String path = System.getProperty("user.dir");
        path = path + File.separator + "WordFile.docx";
  
        // Step 2: Creating a file object with the above
        // specified path.
        FileInputStream fin = new FileInputStream(path);
  
        // Step 3: Creating a document object for the word
        // document.
        XWPFDocument document = new XWPFDocument(fin);
  
        // Step 4: Using the getParagraphs() method to
        // retrieve the list of paragraphs from the word
        // file.
        List<XWPFParagraph> paragraphs
            = document.getParagraphs();
  
        // Step 5: Iterating through the list of paragraphs
        for (XWPFParagraph para : paragraphs) {
  
            // Step 6: Printing the paragraphs
            System.out.println(para.getText() + "\n");
        }
  
        // Step 7: Closing the connections
        document.close();
    }
}

Producción

Publicación traducida automáticamente

Artículo escrito por akankshapatro y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *