Unicodedata: base de datos Unicode en Python

La base de datos de caracteres Unicode (UCD) está definida por el Anexo n.° 44 estándar de Unicode, que define las propiedades de los caracteres para todos los caracteres Unicode. Este módulo proporciona acceso a UCD y utiliza los mismos símbolos y nombres definidos por la base de datos de caracteres Unicode.

Funciones definidas por el módulo:

  • unicodedata.lookup(name)
    Esta función busca el carácter por su nombre. Si se encuentra un carácter con el nombre dado en la base de datos, se devuelve el carácter correspondiente; de ​​lo contrario, se genera Keyerror.

    Ejemplo :

    import unicodedata
       
    print (unicodedata.lookup('LEFT CURLY BRACKET'))
    print (unicodedata.lookup('RIGHT CURLY BRACKET'))
    print (unicodedata.lookup('ASTERISK'))
      
    # gives error as there is 
    # no symbol called ASTER
    # print (unicodedata.lookup('ASTER'))

    Producción :

    {
    }
    *
    
  • unicodedata.name(chr[, default])
    Esta función devuelve el nombre asignado al carácter dado como una string. Si no se define ningún nombre, la función devuelve el valor predeterminado; de lo contrario, se genera ValueError si no se proporciona el nombre.

    Ejemplo :

    import unicodedata
       
    print (unicodedata.name(u'/'))
    print (unicodedata.name(u'|'))
    print (unicodedata.name(u':'))

    Producción :

    SOLIDUS
    VERTICAL LINE
    COLON
    
  • unicodedata.decimal(chr[, default])
    Esta función devuelve el valor decimal asignado al carácter dado como un número entero. Si no se define ningún valor, la función devuelve el valor predeterminado; de lo contrario, se genera ValueError si no se proporciona el valor.

    Ejemplo :

    import unicodedata
       
    print (unicodedata.decimal(u'9'))
    print (unicodedata.decimal(u'a'))

    Producción :

    9
    Traceback (most recent call last):
      File "7e736755dd176cd0169eeea6f5d32057.py", line 4, in 
        print unicodedata.decimal(u'a')
    ValueError: not a decimal
    
  • unicodedata.digit(chr[, default])
    Esta función devuelve el valor del dígito asignado al carácter dado como un número entero. Si no se define ningún valor, la función devuelve el valor predeterminado; de lo contrario, se genera ValueError si no se proporciona el valor.

    Ejemplo :

    import unicodedata
       
    print (unicodedata.decimal(u'9'))
    print (unicodedata.decimal(u'143'))

    Producción :

    9
    Traceback (most recent call last):
      File "ad47ae996380a777426cc1431ec4a8cd.py", line 4, in 
        print unicodedata.decimal(u'143')
    TypeError: need a single Unicode character as parameter
    
  • unicodedata.numeric(chr[, default])
    Esta función devuelve el valor numérico asignado al carácter dado como un número entero. Si no se define ningún valor, la función devuelve el valor predeterminado; de lo contrario, se genera ValueError si no se proporciona el valor.

    Ejemplo :

    import unicodedata
       
    print (unicodedata.decimal(u'9'))
    print (unicodedata.decimal(u'143'))

    Producción :

    9
    Traceback (most recent call last):
      File "ad47ae996380a777426cc1431ec4a8cd.py", line 4, in 
        print unicodedata.decimal(u'143')
    TypeError: need a single Unicode character as parameter
    
  • unicodedata.category(chr)
    Esta función devuelve la categoría general asignada al carácter dado como string. Por ejemplo, devuelve ‘L’ para letras y ‘u’ para mayúsculas.

    Ejemplo :

    import unicodedata
       
    print (unicodedata.category(u'A'))
    print (unicodedata.category(u'b'))

    Producción :

    Lu
    Ll
    
  • unicodedata.bidireccional(chr)
    Esta función devuelve la clase bidireccional asignada al carácter dado como string. Por ejemplo, devuelve ‘A’ para árabe y ‘N’ para número. Esta función devuelve una string vacía si no se define dicho valor.

    Ejemplo :

    import unicodedata
       
    print (unicodedata.bidirectional(u'\u0660'))

    Producción :

    AN
    
  • unicodedata.normalize(formulario, unistr)
    Esta función devuelve el formato normal de la string Unicode unistr. Los valores válidos para el formulario son ‘NFC’, ‘NFKC’, ‘NFD’ y ‘NFKD’.

    Ejemplo :

    from unicodedata import normalize
       
    print ('%r' % normalize('NFD', u'\u00C7'))
    print ('%r' % normalize('NFC', u'C\u0327'))
    print ('%r' % normalize('NFKD', u'\u2460'))

    Producción :

    u'C\u0327'
    u'\xc7'
    u'1'
    

Este artículo es una contribución de Aditi Gupta . Si le gusta GeeksforGeeks y le gustaría contribuir, también puede escribir un artículo usando contribuya.geeksforgeeks.org o envíe su artículo por correo a contribuya@geeksforgeeks.org. Vea su artículo que aparece en la página principal de GeeksforGeeks y ayude a otros Geeks.

Escriba comentarios si encuentra algo incorrecto o si desea compartir más información sobre el tema tratado anteriormente.

Publicación traducida automáticamente

Artículo escrito por GeeksforGeeks-1 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *