Formato de archivo químico

Formato de archivo que almacena fórmulas y estructuras químicas.

Un formato de archivo químico es un tipo de archivo de datos que se utiliza específicamente para representar datos moleculares. Uno de los más utilizados es el formato de archivo de tabla química , que es similar a los archivos de formato de datos de estructura (SDF) . Son archivos de texto que representan múltiples registros de estructura química y campos de datos asociados. El formato de archivo XYZ es un formato simple que generalmente proporciona el número de átomos en la primera línea, un comentario en la segunda, seguido de un número de líneas con símbolos atómicos (o números atómicos) y coordenadas cartesianas. El formato de banco de datos de proteínas se utiliza comúnmente para proteínas, pero también se utiliza para otros tipos de moléculas. Hay muchos otros tipos que se detallan a continuación. Hay varios sistemas de software disponibles para convertir de un formato a otro.

Distinguir formatos

La información química se proporciona normalmente en forma de archivos o secuencias y se han creado muchos formatos, con distintos grados de documentación. El formato se indica de tres maneras:
(véase § The Chemical MIME Project)

  • extensión de archivo (normalmente de 3 letras). Es una extensión muy utilizada, pero frágil, ya que muchos sistemas, incluidos los no químicos, utilizan sufijos comunes como .moly ..dat
  • Archivos autodescriptivos en los que se incluye información sobre el formato. Algunos ejemplos son CIF y CML.
  • tipo químico/MIME agregado por un servidor con reconocimiento químico.

Lenguaje de marcado químico

El lenguaje de marcado químico (CML) es un estándar abierto para representar datos moleculares y otros datos químicos. El proyecto de código abierto incluye un esquema XML, un código fuente para analizar y trabajar con datos CML y una comunidad activa. Los artículos Herramientas para trabajar con lenguaje de marcado químico y XML para química y biociencias analizan el lenguaje CML con más detalle. Muchas herramientas aceptan archivos de datos CML, entre ellas JChemPaint , Jmol , XDrawChem y MarvinView.

Formato del banco de datos de proteínas

El formato del banco de datos de proteínas es un formato obsoleto para las estructuras de proteínas desarrollado en 1972. [1] Es un formato de ancho fijo y, por lo tanto, limitado a un número máximo de átomos, residuos y cadenas; esto dio como resultado la división de estructuras muy grandes como los ribosomas en múltiples archivos. Por ejemplo, el E. coli 70S se representó como 4 archivos PDB en 2009: 3I1M Archivado el 5 de octubre de 2016 en Wayback Machine , 3I1N Archivado el 16 de octubre de 2016 en Wayback Machine , 3I1O y 3I1P. En 2014, se consolidaron en un solo archivo, 4V6C. En 2014, el formato PDB se reemplazó oficialmente con mmCIF, y es posible que las estructuras PDB más nuevas no tengan archivos PDB disponibles.

Algunos archivos PDB contenían una sección opcional que describía la conectividad de los átomos, así como su posición. Debido a que estos archivos se utilizaban a veces para describir conjuntos macromoleculares o moléculas representadas en disolventes explícitos , podían crecer mucho y a menudo se comprimían. Algunas herramientas, como Jmol y KiNG, [2] podían leer archivos PDB en formato comprimido. La wwPDB mantuvo las especificaciones del formato de archivo PDB y su alternativa XML, PDBML. Hubo un cambio bastante importante en la especificación del formato PDB (a la versión 3.0) en agosto de 2007, y una solución de muchos problemas de archivos en la base de datos existente. [3] La extensión de archivo típica para un archivo PDB era .pdb, aunque algunos archivos más antiguos usaban .ento .brk. Algunas herramientas de modelado molecular escribieron archivos de estilo PDB no estándar que adaptaron el formato básico a sus propias necesidades.

Formato GROMACS

La familia de formatos de archivos GROMACS se creó para su uso con el paquete de software de simulación molecular GROMACS . Es muy similar al formato PDB, pero fue diseñado para almacenar resultados de simulaciones de dinámica molecular , por lo que permite una precisión numérica adicional y, opcionalmente, conserva información sobre la velocidad de las partículas , así como la posición en un punto determinado de la trayectoria de simulación. No permite el almacenamiento de información de conectividad, que en GROMACS se obtiene de archivos separados de topología de moléculas y sistemas. La extensión de archivo típica para un archivo GROMACS es .gro.

Formato CHARMM

El paquete de dinámica molecular CHARMM [4] puede leer y escribir varios formatos de archivos químicos y bioquímicos estándar; sin embargo, el CARD (coordenadas) y el PSF ( archivo de estructura de proteínas ) son en gran medida exclusivos de CHARMM. El formato CARD tiene un ancho de columna fijo, se parece al formato PDB y se utiliza exclusivamente para almacenar coordenadas atómicas. El archivo PSF contiene información de conectividad atómica (que describe los enlaces atómicos) y es necesario antes de comenzar una simulación. Las extensiones de archivo típicas que se utilizan son .crdy .psfrespectivamente.

Formato GSD

El formato de archivo de datos de simulación general (GSD) creado para la lectura y escritura eficientes de simulaciones de partículas genéricas, principalmente (pero no exclusivamente) las de HOOMD-blue. El paquete también contiene un módulo de Python que lee y escribe archivos gsd de esquema HOOMD con una sintaxis fácil de usar.[1]

Formato de archivo químico

El software Ghemical puede utilizar OpenBabel para importar y exportar varios formatos de archivo. Sin embargo, de forma predeterminada, utiliza el formato GPR. Este archivo se compone de varias partes, separadas por una etiqueta ( !Header, !Info, !Atoms, !Bonds, !Coord, !PartialChargesy !End).

El tipo MIME propuesto para este formato es application/x-ghemical .

Notación de línea SYBYL

La notación de línea SYBYL (SLN) es una notación de línea química . Basada en SMILES, incorpora una sintaxis completa para especificar la estereoquímica relativa. SLN tiene una sintaxis de consulta enriquecida que permite la especificación de consultas de estructura Markush . La sintaxis también admite la especificación de bibliotecas combinatorias de ChemDraw.

Ejemplos de SLN
DescripciónCadena SLN
BencenoC[1]H:CH:CH:CH:CH:CH:@1
AlaninaNH2C[s=n]H(CH3)C(=O)OH
Consulta que muestra la cadena lateral RR1[hac>1]C[1]:C:C:C:C:C:@1
Consulta de amida/sulfamidaNHC=M1{M1:O,S}

SONRISAS

El sistema de entrada de línea molecular simplificado , o SMILES, [5] es una notación de línea para moléculas. Las cadenas SMILES incluyen conectividad pero no incluyen coordenadas 2D o 3D.

Los átomos de hidrógeno no están representados. Los demás átomos están representados por sus símbolos de elemento B, C, N, O, F, P, S, Cl, Br, y I. El símbolo =representa enlaces dobles y #representa enlaces triples. La ramificación se indica con ( ). Los anillos se indican con pares de dígitos.

Algunos ejemplos son:

NombreFórmulaCadena de SONRISAS
MetanoCapítulo 4C
EtanolC2H6OCCO
BencenoC6H6C1=CC=CC=C1oc1ccccc1
EtilenoC2H4C=C

XYZ

El formato de archivo XYZ es un formato simple que generalmente da el número de átomos en la primera línea, un comentario en la segunda, seguido de una serie de líneas con símbolos atómicos (o números atómicos) y coordenadas cartesianas.

Número MDL

El número MDL contiene un número de identificación único para cada reacción y variación. El formato es RXXXnnnnnnnn. R indica una reacción, XXX indica qué base de datos contiene el registro de la reacción. La parte numérica, nnnnnnnn, es un número de 8 dígitos.

Otros formatos comunes

Uno de los estándares industriales más utilizados son los formatos de archivos de tablas químicas , como los archivos Structure Data Format (SDF). Son archivos de texto que se adhieren a un formato estricto para representar múltiples registros de estructuras químicas y campos de datos asociados. El formato fue desarrollado y publicado originalmente por Molecular Design Limited (MDL). MOL es otro formato de archivo de MDL. Está documentado en el Capítulo 4 de CTfile Formats . [6]

PubChem también tiene formatos de archivo XML y ASN1, que son opciones de exportación desde la base de datos en línea de PubChem. Ambos están basados ​​en texto (ASN1 suele ser un formato binario).

Hay una gran cantidad de otros formatos enumerados en la siguiente tabla.

Conversión entre formatos

OpenBabel y JOELib son herramientas de código abierto de libre acceso diseñadas específicamente para realizar conversiones entre formatos de archivos. Sus sistemas químicos expertos admiten tablas de conversión de tipos de átomos de gran tamaño.

obabel -i input_format input_file -o output_format output_file

Por ejemplo, para convertir el archivo epinefrina.sdf en SDF a CML utilice el comando

obabel -i sdf epinephrine.sdf -o cml epinephrine.cml

El archivo resultante es epinefrina.cml.

IOData es una biblioteca Python gratuita y de código abierto para analizar, almacenar y convertir varios formatos de archivo que se utilizan habitualmente en programas de química cuántica, dinámica molecular y teoría funcional de la densidad de ondas planas. También admite un marco flexible para generar archivos de entrada para varios paquetes de software. Para obtener una lista completa de los formatos compatibles, visite https://iodata.readthedocs.io/en/latest/formats.html.

Existen varias herramientas diseñadas para visualizar y editar estructuras moleculares que pueden leer archivos en varios formatos y escribirlos en otros formatos. Las herramientas JChemPaint (basada en Chemistry Development Kit ), XDrawChem (basada en OpenBabel ), Chime , Jmol , Mol2mol [7] [ cita requerida ] y Discovery Studio encajan en esta categoría.

El proyecto MIME químico

"MIME químico" es un enfoque de facto para agregar tipos MIME a los flujos químicos.

Este proyecto se inició en enero de 1994 y se anunció por primera vez durante el taller de química de la Primera Conferencia Internacional de la WWW, celebrada en el CERN en mayo de 1994. ... La primera versión de un borrador de Internet se publicó entre mayo y octubre de 1994, y la segunda versión revisada entre abril y septiembre de 1995. Un documento presentado al CPEP (Comité de Publicaciones Impresas y Electrónicas) en la reunión de la IUPAC en agosto de 1996 está disponible para su discusión. [8]

En 1998 la obra fue publicada formalmente en el JCIM . [9]

Extensión de archivoTipo MIMENombre propioDescripción
.alcquímica/x-alquimiaFormato de alquimia
.csfquímico/x-cache-csfEstructura molecular CAChe CSF
.cbin, .cascii,.ctabquímica/x-cactvs-binarioFormato CACTVS
.cdxquímico/x-cdxArchivo de intercambio de ChemDraw
.cerquímico/x-ceriusFormato MSI Cerius II
.c3dquímica/x-chem3dFormato Chem3D
.chmdibujo químico/x-chemdrawArchivo ChemDraw
.cifquímico/x-cifArchivo de información cristalográfica , marco de información cristalográficaPromulgado por la Unión Internacional de Cristalografía
.cmdfquímico/x-cmdfFormato de datos de CrystalMaker
.cmlquímico/x-cmlLenguaje de marcado químicoLenguaje de marcado químico basado en XML .
.cpaquímico/brújula xPrograma Compass de Takahashi
.bsdQuímico/X-fuego cruzadoArchivo Crossfire
.csm,.csmlquímico/x-csmlLenguaje de marcado de estilo químico
.ctxquímico/x-ctxFormato de archivo CTX del grupo Gasteiger
.cxf,.cefquímico/x-cxfFormato de intercambio químico
.emb,.emblquímico/x-embl-dl-nucleótidoFormato de nucleótidos EMBL
.spcquímica/x-galactic-spcFormato SPC para datos espectrales y cromatográficos
.inp, .gam,.gaminentrada química/x-gamessFormato de entrada de GAMESS
.fch,.fchkpunto de control químico/x-gaussianoFormato de punto de control gaussiano
.cubcubo gaussiano x/químicoFormato del cubo gaussiano (función de onda)
.gau, .gjc, .gjf,.comquímica/x-gaussiana-entradaFormato de entrada gaussiano
.gcgsecuencia química/x-gcg8Formato de secuencia de proteínas
.genbanco químico/x-genFormato ToGenBank
.istr,.istquímica/x-isoestrellaBiblioteca IsoStar de interacciones intermoleculares
.jdx,.dxquímica/x-jcamp-dxFormato de intercambio de datos espectroscópicos JCAMP
.kinquímico/x-cinemaImágenes cinéticas (estructura de proteínas); Kinemage
.mcmMolécula química/x-macFormato de archivo MacMolecule
.mmd,.mmodModelo químico x/entrada macroMecánica molecular de MacroModel
.molArchivo químico/x-mdl-molArchivo MDL Mol
.smiles,.smiquímica/x-luz-del-día-sonrisasEspecificación simplificada de entrada de línea de entrada molecularUna notación lineal para moléculas.
.sdfArchivo químico/x-mdl-sdArchivo de datos de estructura
.elquímica/dibujo en xMolécula SketchEl
.dsFicha técnica química/xHoja de datos XML de SketchEl
.inchiquímico/x-inchiIdentificador químico internacional de la IUPAC (InChI)
.jsd,.jsdrawquímica/x-jsdrawFormato de archivo nativo de JSDraw
.helm,.ihelmquímico/x-helmCadena HELM de la Alianza PistoiaUna notación lineal para moléculas biológicas
.xhelmquímico/x-xhelmArchivo XML de Pistoia Alliance XHELMHELM basado en XML que incluye definiciones de monómeros

Apoyo

Para Linux/Unix, los archivos de configuración están disponibles como un paquete " chemical-mime-data " en formatos .deb , RPM y tar.gz para registrar tipos MIME químicos en un servidor web. [10] [11] Los programas pueden entonces registrarse como visualizadores, editores o procesadores para estos formatos de modo que esté disponible el soporte completo para los tipos MIME químicos.

Fuentes de datos químicos

A continuación se incluye una breve lista de fuentes de datos moleculares disponibles de forma gratuita. En Internet hay muchos más recursos de los que se enumeran aquí. Los enlaces a estas fuentes se incluyen en las referencias que aparecen a continuación.

  1. La base de datos PubChem del Instituto Nacional de Salud de EE. UU . es una enorme fuente de datos químicos. Todos los datos están en dos dimensiones e incluyen los formatos SDF, SMILES, PubChem XML y PubChem ASN1.
  2. El banco mundial de datos de proteínas (wwPDB) [12] es una excelente fuente de datos de coordenadas moleculares de proteínas y ácidos nucleicos. Los datos son tridimensionales y se proporcionan en formato de banco de datos de proteínas (PDB).
  3. eMolecules es una base de datos comercial para datos moleculares. Los datos incluyen un diagrama de estructura bidimensional y una cadena de emoticonos para cada compuesto. eMolecules permite una búsqueda rápida de subestructuras basada en partes de la estructura molecular.
  4. ChemExper es una base de datos comercial de datos moleculares. Los resultados de la búsqueda incluyen un diagrama de estructura bidimensional y un archivo de moles para muchos compuestos.
  5. Biblioteca de estructuras moleculares 3-D de la Universidad de Nueva York .
  6. La Red de Bases de Datos de Toxicidad Distribuida Buscable por Estructura (DSSTox) de la Agencia de Protección Ambiental de los Estados Unidos es un proyecto del Programa de Toxicología Computacional de la EPA. La base de datos proporciona archivos moleculares SDF con un enfoque en sustancias cancerígenas y tóxicas.

Véase también

Referencias

  1. ^ wwPDB.org. «wwPDB: formato de archivo». www.wwpdb.org . Consultado el 13 de junio de 2024 .
  2. ^ Chen, VB; et al. (2009). "KING (Kinemage, Next Generation): un programa de visualización científica y molecular interactivo versátil". Protein Science . 18 (11): 2403–2409. doi :10.1002/pro.250. PMC 2788294 . PMID  19768809. 
  3. ^ Henrick, K.; et al. (2008). "Remediación del archivo del banco de datos de proteínas". Nucleic Acids Research . 36 (número de la base de datos): D426–D433. doi :10.1093/nar/gkm937. PMC 2238854 . PMID  18073189. 
  4. ^ Brooks, BM; et al. (1983). "CHARMM: Un programa para cálculos de energía, minimización y dinámica macromolecular". J. Comput. Chem . 4 (2): 187–217. doi :10.1002/jcc.540040211. S2CID  91559650.
  5. ^ Weininger, David (1988). "SMILES, un lenguaje químico y un sistema de información: 1: Introducción a la metodología y a las reglas de codificación". Revista de información y modelado químico . 28 (1): 31–36. doi :10.1021/ci00057a005. S2CID  5445756.
  6. ^ Sistemas de información MDL 2005
  7. ^ Página de inicio de Mol2mol
  8. ^ La página de inicio de Chemical MIME (consultado el 24 de enero de 2013)
  9. ^ Rzepa, HS; Murray-Rust, P.; Whitaker, BJ (1998). "La aplicación de estándares de Internet de extensiones de correo de Internet multipropósito químicos (Chemical MIME) al correo electrónico y al intercambio de información en la World Wide Web". Revista de información y modelado químico . 38 (6): 976. doi :10.1021/ci9803233.
  10. ^ "Resultados de búsqueda de paquetes para "chemical-mime" | Debian".
  11. ^ "¿Por qué utilizar SourceForge? Características y beneficios".
  12. ^ Berman, HM; et al. (2003). "Anuncio del banco mundial de datos de proteínas". Nature Structural Biology . 10 (12): 980. doi : 10.1038/nsb1203-980 . PMID  14634627.
  • MDL Information Systems (junio de 2005), CTFile Formats (PDF) , San Leandro, California, Estados Unidos: MDL Information Systems , archivado desde el original (PDF) el 30 de junio de 2007
  • "Resolver un identificador de estructura como SDF, CML, MRV, PDB". NCI . NIH : Herramientas y servicios de usuario de quimioinformática del grupo CADD (CACTUS). Julio de 2009.
Obtenido de "https://es.wikipedia.org/w/index.php?title=Formato_de_archivo_químico&oldid=1235421631"