La introducción de este artículo puede ser demasiado breve para resumir adecuadamente los puntos clave . ( Agosto de 2022 ) |
Un formato de archivo químico es un tipo de archivo de datos que se utiliza específicamente para representar datos moleculares. Uno de los más utilizados es el formato de archivo de tabla química , que es similar a los archivos de formato de datos de estructura (SDF) . Son archivos de texto que representan múltiples registros de estructura química y campos de datos asociados. El formato de archivo XYZ es un formato simple que generalmente proporciona el número de átomos en la primera línea, un comentario en la segunda, seguido de un número de líneas con símbolos atómicos (o números atómicos) y coordenadas cartesianas. El formato de banco de datos de proteínas se utiliza comúnmente para proteínas, pero también se utiliza para otros tipos de moléculas. Hay muchos otros tipos que se detallan a continuación. Hay varios sistemas de software disponibles para convertir de un formato a otro.
La información química se proporciona normalmente en forma de archivos o secuencias y se han creado muchos formatos, con distintos grados de documentación. El formato se indica de tres maneras:
(véase § The Chemical MIME Project)
.mol
y ..dat
El lenguaje de marcado químico (CML) es un estándar abierto para representar datos moleculares y otros datos químicos. El proyecto de código abierto incluye un esquema XML, un código fuente para analizar y trabajar con datos CML y una comunidad activa. Los artículos Herramientas para trabajar con lenguaje de marcado químico y XML para química y biociencias analizan el lenguaje CML con más detalle. Muchas herramientas aceptan archivos de datos CML, entre ellas JChemPaint , Jmol , XDrawChem y MarvinView.
El formato del banco de datos de proteínas es un formato obsoleto para las estructuras de proteínas desarrollado en 1972. [1] Es un formato de ancho fijo y, por lo tanto, limitado a un número máximo de átomos, residuos y cadenas; esto dio como resultado la división de estructuras muy grandes como los ribosomas en múltiples archivos. Por ejemplo, el E. coli 70S se representó como 4 archivos PDB en 2009: 3I1M Archivado el 5 de octubre de 2016 en Wayback Machine , 3I1N Archivado el 16 de octubre de 2016 en Wayback Machine , 3I1O y 3I1P. En 2014, se consolidaron en un solo archivo, 4V6C. En 2014, el formato PDB se reemplazó oficialmente con mmCIF, y es posible que las estructuras PDB más nuevas no tengan archivos PDB disponibles.
Algunos archivos PDB contenían una sección opcional que describía la conectividad de los átomos, así como su posición. Debido a que estos archivos se utilizaban a veces para describir conjuntos macromoleculares o moléculas representadas en disolventes explícitos , podían crecer mucho y a menudo se comprimían. Algunas herramientas, como Jmol y KiNG, [2] podían leer archivos PDB en formato comprimido. La wwPDB mantuvo las especificaciones del formato de archivo PDB y su alternativa XML, PDBML. Hubo un cambio bastante importante en la especificación del formato PDB (a la versión 3.0) en agosto de 2007, y una solución de muchos problemas de archivos en la base de datos existente. [3] La extensión de archivo típica para un archivo PDB era .pdb
, aunque algunos archivos más antiguos usaban .ent
o .brk
. Algunas herramientas de modelado molecular escribieron archivos de estilo PDB no estándar que adaptaron el formato básico a sus propias necesidades.
La familia de formatos de archivos GROMACS se creó para su uso con el paquete de software de simulación molecular GROMACS . Es muy similar al formato PDB, pero fue diseñado para almacenar resultados de simulaciones de dinámica molecular , por lo que permite una precisión numérica adicional y, opcionalmente, conserva información sobre la velocidad de las partículas , así como la posición en un punto determinado de la trayectoria de simulación. No permite el almacenamiento de información de conectividad, que en GROMACS se obtiene de archivos separados de topología de moléculas y sistemas. La extensión de archivo típica para un archivo GROMACS es .gro
.
El paquete de dinámica molecular CHARMM [4] puede leer y escribir varios formatos de archivos químicos y bioquímicos estándar; sin embargo, el CARD (coordenadas) y el PSF ( archivo de estructura de proteínas ) son en gran medida exclusivos de CHARMM. El formato CARD tiene un ancho de columna fijo, se parece al formato PDB y se utiliza exclusivamente para almacenar coordenadas atómicas. El archivo PSF contiene información de conectividad atómica (que describe los enlaces atómicos) y es necesario antes de comenzar una simulación. Las extensiones de archivo típicas que se utilizan son .crd
y .psf
respectivamente.
El formato de archivo de datos de simulación general (GSD) creado para la lectura y escritura eficientes de simulaciones de partículas genéricas, principalmente (pero no exclusivamente) las de HOOMD-blue. El paquete también contiene un módulo de Python que lee y escribe archivos gsd de esquema HOOMD con una sintaxis fácil de usar.[1]
El software Ghemical puede utilizar OpenBabel para importar y exportar varios formatos de archivo. Sin embargo, de forma predeterminada, utiliza el formato GPR. Este archivo se compone de varias partes, separadas por una etiqueta ( !Header
, !Info
, !Atoms
, !Bonds
, !Coord
, !PartialCharges
y !End
).
El tipo MIME propuesto para este formato es application/x-ghemical .
La notación de línea SYBYL (SLN) es una notación de línea química . Basada en SMILES, incorpora una sintaxis completa para especificar la estereoquímica relativa. SLN tiene una sintaxis de consulta enriquecida que permite la especificación de consultas de estructura Markush . La sintaxis también admite la especificación de bibliotecas combinatorias de ChemDraw.
Descripción | Cadena SLN |
---|---|
Benceno | C[1]H:CH:CH:CH:CH:CH:@1 |
Alanina | NH2C[s=n]H(CH3)C(=O)OH |
Consulta que muestra la cadena lateral R | R1[hac>1]C[1]:C:C:C:C:C:@1 |
Consulta de amida/sulfamida | NHC=M1{M1:O,S} |
El sistema de entrada de línea molecular simplificado , o SMILES, [5] es una notación de línea para moléculas. Las cadenas SMILES incluyen conectividad pero no incluyen coordenadas 2D o 3D.
Los átomos de hidrógeno no están representados. Los demás átomos están representados por sus símbolos de elemento B
, C
, N
, O
, F
, P
, S
, Cl
, Br
, y I
. El símbolo =
representa enlaces dobles y #
representa enlaces triples. La ramificación se indica con ( )
. Los anillos se indican con pares de dígitos.
Algunos ejemplos son:
Nombre | Fórmula | Cadena de SONRISAS |
---|---|---|
Metano | Capítulo 4 | C |
Etanol | C2H6O | CCO |
Benceno | C6H6 | C1=CC=CC=C1 oc1ccccc1 |
Etileno | C2H4 | C=C |
El formato de archivo XYZ es un formato simple que generalmente da el número de átomos en la primera línea, un comentario en la segunda, seguido de una serie de líneas con símbolos atómicos (o números atómicos) y coordenadas cartesianas.
El número MDL contiene un número de identificación único para cada reacción y variación. El formato es RXXXnnnnnnnn. R indica una reacción, XXX indica qué base de datos contiene el registro de la reacción. La parte numérica, nnnnnnnn, es un número de 8 dígitos.
Uno de los estándares industriales más utilizados son los formatos de archivos de tablas químicas , como los archivos Structure Data Format (SDF). Son archivos de texto que se adhieren a un formato estricto para representar múltiples registros de estructuras químicas y campos de datos asociados. El formato fue desarrollado y publicado originalmente por Molecular Design Limited (MDL). MOL es otro formato de archivo de MDL. Está documentado en el Capítulo 4 de CTfile Formats . [6]
PubChem también tiene formatos de archivo XML y ASN1, que son opciones de exportación desde la base de datos en línea de PubChem. Ambos están basados en texto (ASN1 suele ser un formato binario).
Hay una gran cantidad de otros formatos enumerados en la siguiente tabla.
OpenBabel y JOELib son herramientas de código abierto de libre acceso diseñadas específicamente para realizar conversiones entre formatos de archivos. Sus sistemas químicos expertos admiten tablas de conversión de tipos de átomos de gran tamaño.
obabel -i input_format input_file -o output_format output_file
Por ejemplo, para convertir el archivo epinefrina.sdf en SDF a CML utilice el comando
obabel -i sdf epinephrine.sdf -o cml epinephrine.cml
El archivo resultante es epinefrina.cml.
IOData es una biblioteca Python gratuita y de código abierto para analizar, almacenar y convertir varios formatos de archivo que se utilizan habitualmente en programas de química cuántica, dinámica molecular y teoría funcional de la densidad de ondas planas. También admite un marco flexible para generar archivos de entrada para varios paquetes de software. Para obtener una lista completa de los formatos compatibles, visite https://iodata.readthedocs.io/en/latest/formats.html.
Existen varias herramientas diseñadas para visualizar y editar estructuras moleculares que pueden leer archivos en varios formatos y escribirlos en otros formatos. Las herramientas JChemPaint (basada en Chemistry Development Kit ), XDrawChem (basada en OpenBabel ), Chime , Jmol , Mol2mol [7] [ cita requerida ] y Discovery Studio encajan en esta categoría.
"MIME químico" es un enfoque de facto para agregar tipos MIME a los flujos químicos.
Este proyecto se inició en enero de 1994 y se anunció por primera vez durante el taller de química de la Primera Conferencia Internacional de la WWW, celebrada en el CERN en mayo de 1994. ... La primera versión de un borrador de Internet se publicó entre mayo y octubre de 1994, y la segunda versión revisada entre abril y septiembre de 1995. Un documento presentado al CPEP (Comité de Publicaciones Impresas y Electrónicas) en la reunión de la IUPAC en agosto de 1996 está disponible para su discusión. [8]
En 1998 la obra fue publicada formalmente en el JCIM . [9]
Extensión de archivo | Tipo MIME | Nombre propio | Descripción |
---|---|---|---|
.alc | química/x-alquimia | Formato de alquimia | |
.csf | químico/x-cache-csf | Estructura molecular CAChe CSF | |
.cbin , .cascii ,.ctab | química/x-cactvs-binario | Formato CACTVS | |
.cdx | químico/x-cdx | Archivo de intercambio de ChemDraw | |
.cer | químico/x-cerius | Formato MSI Cerius II | |
.c3d | química/x-chem3d | Formato Chem3D | |
.chm | dibujo químico/x-chemdraw | Archivo ChemDraw | |
.cif | químico/x-cif | Archivo de información cristalográfica , marco de información cristalográfica | Promulgado por la Unión Internacional de Cristalografía |
.cmdf | químico/x-cmdf | Formato de datos de CrystalMaker | |
.cml | químico/x-cml | Lenguaje de marcado químico | Lenguaje de marcado químico basado en XML . |
.cpa | químico/brújula x | Programa Compass de Takahashi | |
.bsd | Químico/X-fuego cruzado | Archivo Crossfire | |
.csm ,.csml | químico/x-csml | Lenguaje de marcado de estilo químico | |
.ctx | químico/x-ctx | Formato de archivo CTX del grupo Gasteiger | |
.cxf ,.cef | químico/x-cxf | Formato de intercambio químico | |
.emb ,.embl | químico/x-embl-dl-nucleótido | Formato de nucleótidos EMBL | |
.spc | química/x-galactic-spc | Formato SPC para datos espectrales y cromatográficos | |
.inp , .gam ,.gamin | entrada química/x-gamess | Formato de entrada de GAMESS | |
.fch ,.fchk | punto de control químico/x-gaussiano | Formato de punto de control gaussiano | |
.cub | cubo gaussiano x/químico | Formato del cubo gaussiano (función de onda) | |
.gau , .gjc , .gjf ,.com | química/x-gaussiana-entrada | Formato de entrada gaussiano | |
.gcg | secuencia química/x-gcg8 | Formato de secuencia de proteínas | |
.gen | banco químico/x-gen | Formato ToGenBank | |
.istr ,.ist | química/x-isoestrella | Biblioteca IsoStar de interacciones intermoleculares | |
.jdx ,.dx | química/x-jcamp-dx | Formato de intercambio de datos espectroscópicos JCAMP | |
.kin | químico/x-cinema | Imágenes cinéticas (estructura de proteínas); Kinemage | |
.mcm | Molécula química/x-mac | Formato de archivo MacMolecule | |
.mmd ,.mmod | Modelo químico x/entrada macro | Mecánica molecular de MacroModel | |
.mol | Archivo químico/x-mdl-mol | Archivo MDL Mol | |
.smiles ,.smi | química/x-luz-del-día-sonrisas | Especificación simplificada de entrada de línea de entrada molecular | Una notación lineal para moléculas. |
.sdf | Archivo químico/x-mdl-sd | Archivo de datos de estructura | |
.el | química/dibujo en x | Molécula SketchEl | |
.ds | Ficha técnica química/x | Hoja de datos XML de SketchEl | |
.inchi | químico/x-inchi | Identificador químico internacional de la IUPAC (InChI) | |
.jsd ,.jsdraw | química/x-jsdraw | Formato de archivo nativo de JSDraw | |
.helm ,.ihelm | químico/x-helm | Cadena HELM de la Alianza Pistoia | Una notación lineal para moléculas biológicas |
.xhelm | químico/x-xhelm | Archivo XML de Pistoia Alliance XHELM | HELM basado en XML que incluye definiciones de monómeros |
Para Linux/Unix, los archivos de configuración están disponibles como un paquete " chemical-mime-data " en formatos .deb , RPM y tar.gz para registrar tipos MIME químicos en un servidor web. [10] [11] Los programas pueden entonces registrarse como visualizadores, editores o procesadores para estos formatos de modo que esté disponible el soporte completo para los tipos MIME químicos.
A continuación se incluye una breve lista de fuentes de datos moleculares disponibles de forma gratuita. En Internet hay muchos más recursos de los que se enumeran aquí. Los enlaces a estas fuentes se incluyen en las referencias que aparecen a continuación.