Internet es la mayor fuente de información y, por lo tanto, es importante saber cómo obtener datos de varias fuentes. Y con Wikipedia siendo una de las mayores y más populares fuentes de información en Internet.
Wikipedia es una enciclopedia en línea multilingüe creada y mantenida como un proyecto de colaboración abierta por una comunidad de editores voluntarios que utilizan un sistema de edición basado en wiki.
En este artículo, veremos cómo usar el módulo Wikipedia de Python para obtener una variedad de información del sitio web de Wikipedia.
Instalación
Para extraer datos de Wikipedia, primero debemos instalar la biblioteca Python Wikipedia, que envuelve la API oficial de Wikipedia. Esto se puede hacer ingresando el siguiente comando en su símbolo del sistema o terminal:
pip install wikipedia
Empezando
Obtener el resumen de cualquier título
El resumen de cualquier título se puede obtener utilizando el método de resumen.
Sintaxis: wikipedia.summary(título, oraciones)
Argumento:
Título del tema
Argumento opcional: establecer el número de líneas en el resultado.
Return : Devuelve el resumen en formato de string.
Código:
Python3
# importing the module import wikipedia # finding result for the search # sentences = 2 refers to numbers of line result = wikipedia.summary("India", sentences = 2) # printing the result print(result)
Producción :
India (hindi: Bh?rat), oficialmente la República de la India (hindi: Bh?rat Ga?ar?jya), es un país del sur de Asia. Es el séptimo país más grande por área, el segundo país más poblado y la democracia más poblada del mundo.
Búsqueda de títulos y sugerencias
El título y las sugerencias se pueden obtener mediante el método de búsqueda().
Sintaxis: wikipedia.search(título, resultados)
Argumento:
Título del tema
Argumento opcional: configuración del número de resultado.
Return : Devuelve la lista de títulos.
Código:
Python3
# importing the module import wikipedia # getting suggestions result = wikipedia.search("Geek", results = 5) # printing the result print(result)
Producción :
['Geek', 'Geek!', 'Freaks and Geeks', 'The Geek', 'Geek show']
Obtener datos completos de la página de Wikipedia
El método page() se usa para obtener los contenidos, categorías, coordenadas, imágenes, enlaces y otros metadatos de una página de Wikipedia.
Sintaxis: wikipedia.page(título)
Argumento: Título del tema.
Return : Devuelve un objeto WikipediaPage.
Código:
Python3
# importing the module import wikipedia # wikipedia page object is created page_object = wikipedia.page("india") # printing html of page_object print(page_object.html) # printing title print(page_object.original_title) # printing links on that page object print(page_object.links[0:10])
Producción :
“método enlazado WikipediaPage.html de “WikipediaPage ‘India’”>
India
[‘.in’, ’10th BRICS Summit’, ’11th BRICS Summit’, ’12th BRICS Summit’, ’17th SAARC Summit’, ’18th SAARC Summit’ , ‘Juegos asiáticos de 1951’, ‘Elecciones generales indias de 1957’, ‘Elecciones generales indias de 1962’, ‘Juegos asiáticos de 1982’]
Cambiar el idioma de la página de Wikipedia
El idioma se puede cambiar a su idioma nativo si la página existe en su idioma nativo. El método Set_lang() se usa para lo mismo.
Sintaxis: wikipedia.set_lang (idioma)
Argumento: el prefijo del idioma como para el prefijo árabe es ar y así sucesivamente.
Acción realizada: convirtió los datos a ese idioma, el idioma predeterminado es el inglés.
Código:
Python3
# importing the module import wikipedia # setting language to hindi wikipedia.set_lang("hi") # printing the summary print(wikipedia.summary("India"))
Producción :
Publicación traducida automáticamente
Artículo escrito por rakshitarora y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA