Biopython – Formatos de archivo de secuencia

El módulo Bio.SeqIO de Biopython proporciona una amplia gama de interfaces simples y uniformes para ingresar y generar los formatos de archivo deseados. Este formato de archivo solo puede manejar las secuencias como un objeto SeqRecord . Las strings en minúsculas se utilizan al especificar el formato de archivo. Los mismos formatos también son compatibles con el módulo Bio.AlignIO . La lista de los formatos de archivo se proporciona a continuación:

Formato de archivo Descripción
abi Es un formato de seguimiento de secuenciación para Applied Biosystem, lee la secuencia capilar de Sanger, incluidas las puntuaciones de calidad PHRED para las llamadas base. Cada archivo contiene solo una secuencia, por lo que no tiene sentido indexar el archivo.
abi-trim Igual que el formato abi pero tiene un recorte de calidad con el algoritmo de Mott.
as   Lee las secuencias superpuestas o contiguas del archivo de ensamblaje ACE .
cif-átomo  Se utiliza para averiguar la secuencia parcial de la proteína por estructura en función de las coordenadas atómicas. 
cif-seqres Determina la secuencia completa de la proteína mediante la lectura de un archivo de información cristalográfica macromolecular (también conocido como mmCIF ) según lo define el registro _pdbx_poly_seq_scheme .
emblema Formato de archivo plano EMBL (Protein and DNA seq file format), utiliza Bio.GenBank internamente.
rápido   Un formato de archivo de secuencia genérico, cada registro comienza con una línea que comienza con el carácter > seguida de otras líneas de secuencia.
fasta-2line  Interpretación estricta del formato de archivo FASTA sin ajuste de línea (es decir, usando dos líneas por registro).
rapido  Una variante de FASTA con Sanger utilizada para almacenar valores de calidad de secuencia PHRED con un ASCII de desplazamiento 33.
fastq-sanger  Alias ​​para FASTA que tiene consistencia con BioPerl y EMBOSS
fastq-solexa  Interpretación original de Solexa/Illumnia del formato FASTA que se utiliza para codificar puntajes de calidad de solexa con ASCII con compensación de 64.
fastq-illumina Versión Solexa/Illumnia 1.3 a 1.7 del formato FASTA utilizado para codificar puntajes de calidad PHRED con ASCII de compensación 64.
gck   Formato local utilizado por Gene Construction Kit.
banco de gen   Formato de archivo plano GenBank o GenPept .
GB Alias ​​de genbank , que tiene consistencia con NCBI Entrez Utilities.
yo G El formato de archivo de IntelliGenetics parece ser el mismo que el formato de alineación MASE .
imgt Formato de variante EMBL de IMGT , donde las tablas de características se permiten intencionalmente para tipos de características más largos.
punta El formato de archivo UCSC nib para nucleótidos utiliza 4 bits (1-nibble) para representar un nucleótido (2 nucleótidos requieren un byte).
nexo Formato de alineación múltiple NEXUS , también llamado formato PAUP .
pdb-seqres Lee el archivo PDB (Banco de datos de proteínas) y determina la secuencia de datos completa por encabezado.
pdb-átomo  Determina la secuencia parcial de proteínas por estructura según la sección de coordenadas atómicas del archivo.
Doctor Estos archivos son la salida de PHRED , utilizados por PHRAP y CONSED para la entrada.
pir Variante FASTA creada por NBRF (Fundación Nacional de Investigación Biomédica) para la base de datos de Recursos de Información de Proteínas (PIR), actualmente arte de UniProt .
seqxml Formato de archivo XML simple.
sff Archivos binarios en formato de diagrama de flujo estándar creados por Roche 454 y máquinas de secuenciación IonTorrent/IonProton.
sff-trim  El formato de diagrama de flujo estándar (SFF) aplica el recorte a los archivos listados.
Snapgene  Formato local utilizado por SnapGene .
suizo Texto sin formato Swiss-Pro también llamado formato UniProt .
pestaña Archivo de secuencia simple separado por tabulaciones de dos columnas, cada línea almacena el identificador y la secuencia del registro.
calidad Variante FASTA que tiene valores de calidad PHRED de secuenciación de ADN.
uniprot-xml  Reemplazo del formato UniProt XML del formato de texto sin formato SwissProt .
xdna Formato local de DNA Strider y SerialCloner , utilizado por Christian Marck.

A continuación, la implementación explica cómo analizar dos de los formatos de archivo de secuencia más populares, es decir, FASTA y GenBank .

RÁPIDO:

Es el formato de archivo más básico para almacenar datos de secuencia. Originalmente , FASTA era un paquete de software creado durante la evolución temprana de la bioinformática para la alineación de secuencias de proteínas y ADN, utilizado principalmente para buscar similitudes. A continuación se muestra un ejemplo simple de análisis del formato de archivo FASTA :

Ejemplo:

Para obtener el archivo de entrada utilizado, haga clic aquí .

Python3

# Import libraries
from Bio.SeqIO import parse
  
# file path/location
file = open('is_orchid.fasta') 
  
# Parsing the FASTA file
for record in parse(file, "fasta"): 
    print(record.id)

Producción:

banco de genes:

Formato de secuencia más rico para genes que incluye varias anotaciones. Analizar el formato GenBank es tan simple como cambiar la opción de formato en el método de análisis de Biopython . A continuación se muestra un ejemplo simple de análisis del formato de archivo GenBank :

Ejemplo:

Para obtener el archivo de entrada utilizado, haga clic aquí .

Python3

# Import libraries
from Bio import SeqIO
from Bio.SeqIO import parse
  
# Parsing Sequence
seq_record = next(parse(open('is_orchid.gbk'), 'genbank'))
  
# Sequence ID
print("\nSequence ID :", seq_record.id)
  
# Sequence Name
print("\nSequence Name :", seq_record.name)
  
# Sequence
print("\nSequence  :", seq_record.seq)
  
# Sequence Description
print("\nSequence ID :", seq_record.description)
  
# Sequence Annotations
print("\nSequence Annotations :", seq_record.annotations)

Producción:

Publicación traducida automáticamente

Artículo escrito por jeeteshgavande30 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *