Requisito previo:
Módulos necesarios
- requests- Requests le permite enviar requests HTTP/1.1 con mucha facilidad. Este módulo tampoco viene integrado con Python. Para instalar simplemente escriba el comando dado en la terminal.
pip install requests
- bs4: – Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Este módulo no viene integrado con Python. Para instalar esto, escriba el comando dado en la terminal.
pip install bs4
Acercarse:
- Importar módulos
- Obtener el nombre del artículo como entrada
- Iniciar una solicitud de obtención de la URL
- Deseche el código y el nombre del idioma en el que está escrito usando bs4
Se puede hacer mucho con este concepto y utilizando lo dado, por ejemplo, puede guardar directamente cada código en un archivo separado con su extensión o puede desechar el artículo completo y extraer información importante como los detalles del escritor.
A continuación se muestra la implementación.
Python3
import requests from bs4 import BeautifulSoup # input geeks for geeks article article = 'extract-authors-information-from-geeksforgeeks-article-using-python' index_Code = 3 # url url = "https://www.geeksforgeeks.org/"+article # Making a GET request # to fetch article from # geeksforgeeks servers def getdata(url): r = requests.get(url) return r.text def codescrapper(soup, article=None): codes_languages = soup.find_all('h2', class_='tabtitle') codes = soup.find_all("div", class_='code-container') count_codes_language = len(codes_languages) print(url) if article and article <= count_codes_language: print(codes[article-1].get_text()) else: for x in range(count_codes_language): print(codes[x].get_text()) if __name__ == '__main__': complete_article_html = getdata(url) soup = BeautifulSoup(complete_article_html, 'html.parser') codescrapper(soup, index_Code)
Producción:
Publicación traducida automáticamente
Artículo escrito por UnworthyProgrammer y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA