Extracción de código del artículo de GeeksForGeeks

Requisito previo:

Módulos necesarios

  • requests- Requests le permite enviar requests HTTP/1.1 con mucha facilidad. Este módulo tampoco viene integrado con Python. Para instalar simplemente escriba el comando dado en la terminal.
pip install requests
  • bs4: – Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Este módulo no viene integrado con Python. Para instalar esto, escriba el comando dado en la terminal.
pip install bs4

Acercarse:

  • Importar módulos
  • Obtener el nombre del artículo como entrada
  • Iniciar una solicitud de obtención de la URL
  • Deseche el código y el nombre del idioma en el que está escrito usando bs4

Se puede hacer mucho con este concepto y utilizando lo dado, por ejemplo, puede guardar directamente cada código en un archivo separado con su extensión o puede desechar el artículo completo y extraer información importante como los detalles del escritor.

A continuación se muestra la implementación.

Python3

import requests
from bs4 import BeautifulSoup
  
# input  geeks for geeks article
article = 'extract-authors-information-from-geeksforgeeks-article-using-python'
index_Code = 3
  
# url
url = "https://www.geeksforgeeks.org/"+article
  
  
# Making a GET request
# to fetch article from
# geeksforgeeks servers
def getdata(url):
    r = requests.get(url)
    return r.text
  
  
def codescrapper(soup, article=None):
    codes_languages = soup.find_all('h2', class_='tabtitle')
    codes = soup.find_all("div", class_='code-container')
    count_codes_language = len(codes_languages)
    print(url)
      
    if article and article <= count_codes_language:
        print(codes[article-1].get_text())
          
    else:
        for x in range(count_codes_language):
            print(codes[x].get_text())
  
  
if __name__ == '__main__':
    
    complete_article_html = getdata(url)
    soup = BeautifulSoup(complete_article_html, 'html.parser')
    codescrapper(soup, index_Code)

Producción:

Publicación traducida automáticamente

Artículo escrito por UnworthyProgrammer y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *