Voz a texto usando IBM Watson Studio

IBM Watson Studio es un entorno integrado diseñado para desarrollar, entrenar, gestionar modelos e implementar aplicaciones impulsadas por IA y es una solución de software como servicio (SaaS) que se entrega en IBM Cloud. IBM Cloud proporciona muchos servicios como Speech to Text, Text to Speech, Visual Recognition, Natural Language Classifier, Language Translator, etc.

El servicio de voz a texto transcribe audio a texto para habilitar capacidades de transcripción de voz para aplicaciones.

Crear una instancia del servicio

  1. Vaya a la página Speech to Text en IBM Cloud Catalog.
  2. Regístrese para obtener una cuenta gratuita de IBM Cloud o inicie sesión.
  3. Haz clic en Crear .

Copie las credenciales para autenticarse en su instancia de servicio

  1. En la lista de recursos de IBM Cloud , haga clic en su instancia de servicio Speech to Text para ir a la página del panel de control del servicio Speech to Text.
  2. En la página Administrar , haga clic en Mostrar credenciales para ver sus credenciales.
  3. Copie la clave de API y los valores de URL .

Módulo necesario:

  1. json
  2. ibm_watson: este módulo no viene predefinido con Python. Para instalarlo, escriba el siguiente comando en la terminal.
    pip install ibm_watson
    

Ahora está listo para utilizar IBM Cloud Services.

El siguiente código ilustra el uso del servicio de voz a texto de IBM Watson Studio utilizando Python y la interfaz de socket web

#Python Program To Use IBM Watson
# Studio's Speech To Text Below Code
# Accepts only .mp3 Format of Audio
# File 
  
   
import json
from os.path import join, dirname
from ibm_watson import SpeechToTextV1
from ibm_watson.websocket import RecognizeCallback, AudioSource
from ibm_cloud_sdk_core.authenticators import IAMAuthenticator
  
   
# Insert API Key in place of 
# 'YOUR UNIQUE API KEY'
authenticator = IAMAuthenticator('YOUR UNIQUE API KEY') 
service = SpeechToTextV1(authenticator = authenticator)
   
#Insert URL in place of 'API_URL' 
service.set_service_url('API_URL')
   
# Insert local mp3 file path in
# place of 'LOCAL FILE PATH' 
with open(join(dirname('__file__'), r'LOCAL FILE PATH'), 
          'rb') as audio_file:
      
        dic = json.loads(
                json.dumps(
                    service.recognize(
                        audio=audio_file,
                        content_type='audio/flac',   
                        model='en-US_NarrowbandModel',
                    continuous=True).get_result(), indent=2))
  
# Stores the transcribed text
str = ""
  
while bool(dic.get('results')):
    str = dic.get('results').pop().get('alternatives').pop().get('transcript')+str[:]
       
print(str)

Producción

The Output will be Transcript (Text) of audio file.

Publicación traducida automáticamente

Artículo escrito por harsh_thoriya y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *