Código LEX para extraer etiquetas HTML de un archivo

Lex es un programa de computadora que genera analizadores léxicos y fue escrito por Mike Lesk y Eric Schmidt.
Lex lee un flujo de entrada que especifica el analizador léxico y genera el código fuente que implementa el lexer en el lenguaje de programación C.
Requisito previo: Flex (generador de analizador léxico rápido)

Enfoque:
la extracción se basa en la forma en que se escriben las etiquetas en HTML. Todas las etiquetas están incluidas en < > . Esto establecerá la regla para extraer las etiquetas HTML del archivo de entrada dado.

Archivo de entrada: etiquetas.txt

A continuación se muestra la implementación para extraer etiquetas HTML del archivo:

/* Declaration section*/
%{
%}
  
%%
"<"[^>]*> {printf("%s\n", yytext); }  /* if anything enclosed in 
                                      these < > occur print text*/
. ;  // else do nothing
%%    
  
int yywrap(){}
       
int main(int argc, char*argv[])
{
    // Open tags.txt in read mode
    extern FILE *yyin = fopen("tags.txt","r"); 
  
    // The function that starts the analysis
    yylex(); 
  
    return 0;
}

Producción :

Publicación traducida automáticamente

Artículo escrito por nickhilrawat y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *