Formato de datos de espectrometría de masas

La espectrometría de masas es una técnica científica para medir la relación masa-carga de los iones. A menudo se combina con técnicas cromatográficas como la cromatografía de gases o de líquidos y ha encontrado una amplia adopción en los campos de la química analítica y la bioquímica , donde se puede utilizar para identificar y caracterizar pequeñas moléculas y proteínas ( proteómica ). El gran volumen de datos producido en un experimento típico de espectrometría de masas requiere que se utilicen computadoras para el almacenamiento y procesamiento de datos. A lo largo de los años, diferentes fabricantes de espectrómetros de masas han desarrollado varios formatos de datos propietarios para manejar dichos datos , lo que dificulta que los científicos académicos manipulen directamente sus datos. Para abordar esta limitación, el Trans-Proteomic Pipeline en el Instituto de Biología de Sistemas ha desarrollado recientemente varios formatos de datos abiertos basados ​​en XML para facilitar la manipulación de datos y la innovación en el sector público. [1] Estos formatos de datos se describen aquí.

Formatos abiertos

JCAMP-DX

Este formato fue uno de los primeros intentos de proporcionar un formato de archivo estandarizado para el intercambio de datos en espectrometría de masas. JCAMP-DX se desarrolló inicialmente para espectrometría infrarroja. JCAMP-DX es un formato basado en ASCII y, por lo tanto, no es muy compacto, aunque incluye estándares para la compresión de archivos. JCAMP se lanzó oficialmente en 1988. [2] Junto con la Sociedad Estadounidense de Espectrometría de Masas, se desarrolló un formato JCAMP-DX para espectrometría de masas con el objetivo de preservar los datos heredados. [3]

ANDI-MS o netCDF

El formato de intercambio de datos analíticos para espectrometría de masas es un formato para intercambiar datos. Muchos paquetes de software de espectrometría de masas pueden leer o escribir archivos ANDI. ANDI se especifica en la norma ASTM E1947. [4] ANDI se basa en netCDF , que es una biblioteca de herramientas de software para escribir y leer archivos de datos. ANDI se desarrolló inicialmente para datos de cromatografía-MS y, por lo tanto, no se utilizó en la fiebre del oro de la proteómica , donde se desarrollaron nuevos formatos basados ​​en XML . [5]

AnIML

AnIML es un esfuerzo conjunto de IUPAC y ASTM International para crear un estándar basado en XML que cubra una amplia variedad de técnicas analíticas, incluida la espectrometría de masas. [6]

Datos mz

mzData fue el primer intento de la Proteomics Standards Initiative (PSI) de la Human Proteome Organization (HUPO) de crear un formato estandarizado para datos de espectrometría de masas. [7] Este formato ahora está obsoleto y ha sido reemplazado por mzML. [8]

mzXML

mzXML es un formato de archivo común basado en XML (lenguaje de marcado extensible) para datos de espectrometría de masas de proteómica . [9] [10] Este formato se desarrolló en el Centro de Proteoma de Seattle/Instituto de Biología de Sistemas mientras que HUPO-PSI intentaba especificar el formato mzData estandarizado, y todavía se utiliza en la comunidad de proteómica.

YAFMS

Otro formato para espectrometría de masas (YAFMS) es una sugerencia para guardar datos en un esquema de base de datos relacional de cuatro tablas sin servidor, con extracción y adición de datos mediante consultas SQL . [ 11]

mzML

Como no es deseable que existan dos formatos (mzData y mzXML) para representar la misma información, HUPO-PSI, SPC/ISB y los proveedores de instrumentos se pusieron en marcha para crear un estándar unificado que tomara prestados los mejores aspectos de mzData y mzXML y los reemplazara. Originalmente llamado dataXML, se anunció oficialmente como mzML. [12] La primera especificación se publicó en junio de 2008. [13] Este formato se lanzó oficialmente en la reunión de la Sociedad Estadounidense de Espectrometría de Masas de 2008 y, desde entonces, es relativamente estable y ha recibido muy pocas actualizaciones. El 1 de junio de 2009 se lanzó mzML 1.1.0. No hay cambios planificados a partir de 2013.

API mz

En lugar de definir nuevos formatos de archivos y escribir convertidores para formatos de proveedores propietarios, un grupo de científicos propuso definir una interfaz de programa de aplicación común para trasladar la carga del cumplimiento de los estándares a las bibliotecas de acceso a datos existentes de los fabricantes de instrumentos. [14]

mz5

El formato mz5 soluciona los problemas de rendimiento de los formatos anteriores basados ​​en XML. Utiliza la ontología mzML, pero guarda los datos utilizando el backend HDF5 para reducir los requisitos de espacio de almacenamiento y mejorar la velocidad de lectura/escritura. [15]

imzML

El estándar imzML fue propuesto para intercambiar datos de imágenes de espectrometría de masas en un archivo XML estandarizado basado en la ontología mzML. Divide los datos experimentales en XML y datos espectrales en un archivo binario. Ambos archivos están vinculados por un identificador único universal . [16]

Base de datos mz

mzDB guarda datos en una base de datos SQLite para ahorrar espacio de almacenamiento y mejorar los tiempos de acceso ya que los puntos de datos se pueden consultar desde una base de datos relacional . [17]

Caramelo

Toffee es un formato de archivo abierto sin pérdida para la espectrometría de masas con adquisición independiente de datos . Aprovecha HDF5 y apunta a lograr tamaños de archivo similares a los de los formatos propietarios y cerrados de proveedores. [18]

mzMLb

mzMLb es otra forma de utilizar un backend HDF5 para guardar datos sin procesar de manera eficiente. Sin embargo, conserva la estructura de datos XML de mzML y cumple con el estándar existente. [19]

Formatos propietarios

A continuación se muestra una tabla de diferentes extensiones de formato de archivo.

CompañíaExtensiónTipo de archivo
ACD/Laboratorios*.espectroImporta datos LC/MS y GC/MS de la mayoría de los principales proveedores de instrumentos enumerados aquí
Agilent
Bruker
.D (carpeta)Formato de datos BAF/YEP/TDF de Agilent MassHunter, Agilent ChemStation o Bruker
Agilent/Bruker.SÍformato de datos del instrumento
Agilent.AEV, .ASRFormato de informe ASCII (para Analytical Studio Reviewer)
Bruker.BAFformato de datos del instrumento
Bruker.DEFENSORformato de datos del instrumento
Bruker.TDFFormato de datos del instrumento timsTOF
ABI/Sciex.WIFF, .WIFF2formato de datos del instrumento
ABI/Sciex.t2dFormato de archivo 4700 y 4800
ABI/Sciex.datFormato de archivo de la serie Voyager-DE
Aguas.PKLFormato de lista de picos de MassLynx
Termo
PerkinElmer
.CRUDO*Termo Xcalibur
PerkinElmer TurboMass
Micromasa**/Aguas.RAW* (carpeta)Aguas MassLynx
Chromtech
Finnigan***
Muy bueno
.DATFormato de archivo Finnigan ITDS; formato de datos del instrumento MAT95;
formato de datos MassLab
Finnigan***.EMFormato de datos del instrumento ITS40
Shimadzu.QGDFormato de la solución GCMSS
Shimadzu.qgdformato de datos del instrumento
Shimadzu.lcdFormato de datos del instrumento QQQ/QTOF
Shimadzu.spcformato de datos de la biblioteca
Bruker/Varian.SMSformato de datos del instrumento
Bruker/Varian.XMSformato de datos del instrumento
ION-TOF.itmdatos de medición sin procesar
ION-TOF.itadatos de análisis
Electrónica física/ULVAC-PHI.crudo*datos de medición sin procesar
Electrónica física/ULVAC-PHI.tdcdatos del espectro

(*) Tenga en cuenta que los formatos RAW de cada proveedor no son intercambiables; el software de uno no puede manejar los archivos RAW de otro.
(**) Micromass fue adquirida por Waters en 1997
(***) Finnigan es una división de Thermo

Software

Espectadores

Existen varios visores para mzXML, mzML y mzData. Estos visores son de dos tipos: software libre de código abierto (FOSS) o propietarios.

En la categoría de visualizadores FOSS se encuentran MZmine, [20] mineXpert2 (mzXML, mzML, timsTOF nativo, xy, MGF, BafAscii) , [21] MS-Spectre, [22] TOPPView (mzXML, mzML y mzData), [23] Spectra Viewer, [24] SeeMS, [25] msInspect, [26] jmzML. [27]

En la categoría propietaria se encuentran PEAKS, [28] Insilicos , [29] Mascot Distiller, [30] Elsci Peaksel. [31]

Hay un visor para imágenes ITA. [32] Las imágenes ITA e ITM se pueden analizar con la biblioteca de Python pySPM. [33]

Convertidores

Convertidores conocidos de mzData a mzXML:

Hermes: un convertidor de Java "mzData, mzXML, mzML" en todas las direcciones: disponible públicamente, se ejecuta con una interfaz gráfica de usuario, por el Instituto de Biología de Sistemas Moleculares, ETH Zurich [34] [35]
FileConverter: una herramienta de línea de comandos que convierte hacia/desde varios formatos de espectrometría de masas, [36] parte de TOPP [37]

Convertidores conocidos para mzXML:

El Instituto de Biología de Sistemas mantiene una lista de convertidores [38]

Convertidores conocidos para mzML:

msConvert: [39] [40] Una herramienta de línea de comandos que convierte desde y hacia varios formatos de espectrometría de masas. También hay una interfaz gráfica de usuario disponible para usuarios de Windows.
ReAdW: [41] El convertidor de línea de comandos del Instituto de Biología de Sistemas para archivos Thermo RAW, parte de TransProteomicPipeline. [42] La última actualización de esta herramienta se realizó en septiembre de 2009. Ahora el equipo de desarrollo de TPP redirige a los usuarios para que utilicen el software msConvert (ver arriba).
FileConverter: una herramienta de línea de comandos que convierte hacia/desde varios formatos de espectrometría de masas, [36] parte de TOPP [37]

Convertidores para formatos propietarios:

msConvert: [39] [40] Una herramienta de línea de comandos que convierte desde y hacia varios formatos de espectrometría de masas, incluidos varios formatos propietarios. También hay una interfaz gráfica de usuario disponible para usuarios de Windows.
CompassXport, la herramienta gratuita de Bruker que genera archivos mzXML (y ahora mzData) [ cita requerida ] para muchos de sus formatos de archivos nativos (.baf).
MASSTransit, un software para cambiar datos entre formatos propietarios, de Palisade Corporation y distribuido por Scientific Instrument Services, Inc [43] y PerkinElmer . [44] Comprado a Palisade por John Wiley and Sons en 2020 e incorporado al software KnowItAll Spectroscopy. (lista de formatos de archivo compatibles).
Aston, [45] soporte nativo para varios formatos de archivos Agilent Chemstation, Agilent Masshunter y Thermo Isodat
unfinnigan, [46] soporte nativo para formatos de archivos Finnigan (*.RAW)
OpenChrom , un software de código abierto con soporte para convertir varios formatos de archivos nativos, incluido su propio formato abierto .ocb para almacenar cromatogramas, picos y resultados de identificación [47]

Los convertidores disponibles actualmente son:

MassWolf, para Micromass MassLynx.Formato RAW
mzStar, para formato SCIEX / ABI Analyst
wiff2dta [48] para SCIEX / ABI Formato SCIEX/ABI Analyst a mzXML, DTA, MGF y PMF

Véase también

Referencias

  1. ^ Deutsch EW (diciembre de 2012). "Formatos de archivo comúnmente utilizados en proteómica por espectrometría de masas". Molecular & Cellular Proteomics . 11 (12): 1612–21. doi : 10.1074/mcp.R112.019695 . PMC  3518119 . PMID  22956731.
  2. ^ McDonald, Robert S.; Wilks, Paul A. (1988). "JCAMP-DX: Un formato estándar para el intercambio de espectros infrarrojos en formato legible por ordenador" (PDF) . Applied Spectroscopy . 42 (1): 151–162. Bibcode :1988ApSpe..42..151M. doi :10.1366/0003702884428734.
  3. ^ Lampen P, Hillig H, Davies AN, Linscheid M (diciembre de 1994). "JCAMP-DX para espectrometría de masas". Espectroscopia Aplicada . 48 (12): 1545–52. Código Bib : 1994ApSpe..48.1545L. doi :10.1366/0003702944027840. S2CID  96773027.
  4. ^ ASTM E1947 – 98(2009) Especificación estándar para el protocolo de intercambio de datos analíticos para datos cromatográficos
  5. ^ Mayer G, Jones AR, Binz PA, Deutsch EW, Orchard S, Montecchi-Palazzi L, et al. (enero de 2014). "Vocabularios controlados y ontologías en proteómica: descripción general, principios y práctica". Biochimica et Biophysica Acta (BBA) - Proteínas y proteómica . 1844 (1 Pt A): 98–107. doi : 10.1016/j.bbapap.2013.02.017 . PMC 3898906. PMID  23429179 . 
  6. ^ Davies, Tony (2007). "Herding AnIMLs (no, no es un error ortográfico): actualización sobre la colaboración de la IUPAC y la ASTM en estándares de datos analíticos". Chemistry International . 29 (6).
  7. ^ Orchard S, Montechi-Palazzi L, Deutsch EW, Binz PA, Jones AR, Paton N, et al. (octubre de 2007). "Cinco años de progreso en la estandarización de datos proteómicos. Cuarto taller anual de primavera de la HUPO-Proteomics Standards Initiative. 23-25 ​​de abril de 2007. Ecole Nationale Supérieure (ENS), Lyon, Francia". Proteomics . 7 (19): 3436–40. doi :10.1002/pmic.200700658. PMID  17907277. S2CID  22837325.
  8. ^ "mzData". HUPO-PSI. Archivado desde el original el 7 de julio de 2018. Consultado el 26 de abril de 2021 .
  9. ^ Pedrioli PG, Eng JK, Hubley R, Vogelzang M, Deutsch EW, Raught B, et al. (noviembre de 2004). "Una representación abierta común de datos de espectrometría de masas y su aplicación a la investigación proteómica". Nature Biotechnology . 22 (11): 1459–66. doi :10.1038/nbt1031. PMID  15529173. S2CID  25734712.
  10. ^ Lin SM, Zhu L, Winter AQ, Sasinowski M, Kibbe WA (diciembre de 2005). "¿Para qué sirve mzXML?". Expert Review of Proteomics . 2 (6): 839–45. doi :10.1586/14789450.2.6.839. PMID  16307524. S2CID  24914725.
  11. ^ Shah AR, Davidson J, Monroe ME, Mayampurath AM, Danielson WF, Shi Y, et al. (octubre de 2010). "Un formato de datos eficiente para la proteómica basada en espectrometría de masas". Revista de la Sociedad Americana de Espectrometría de Masas . 21 (10): 1784–8. doi : 10.1016/j.jasms.2010.06.014 . PMID  20674389.
  12. ^ "mzML". Iniciativa de estándares de proteómica de HUPO . Consultado el 19 de abril de 2013 .
  13. ^ Deutsch E (julio de 2008). "mzML: un formato de datos único y unificador para la salida del espectrómetro de masas". Proteómica . 8 (14): 2776–7. doi : 10.1002/pmic.200890049 . PMID  18655045. S2CID  28297899.
  14. ^ Askenazi M, Parikh JR, Marto JA (abril de 2009). "mzAPI: una nueva estrategia para compartir de manera eficiente datos de espectrometría de masas". Nature Methods . 6 (4): 240–1. doi :10.1038/nmeth0409-240. PMC 2691659 . PMID  19333238. 
  15. ^ Wilhelm M, Kirchner M, Steen JA, Steen H (enero de 2012). "mz5: almacenamiento eficiente en tiempo y espacio de conjuntos de datos de espectrometría de masas". Molecular & Cellular Proteomics . 11 (1): O111.011379. doi : 10.1074/mcp.O111.011379 . PMC 3270111 . PMID  21960719. 
  16. ^ Schramm T, Hester Z, Klinkert I, Both JP, Heeren RM, Brunelle A, et al. (agosto de 2012). "imzML: un formato de datos común para el intercambio y procesamiento flexible de datos de imágenes de espectrometría de masas" (PDF) . Journal of Proteomics . 75 (16): 5106–5110. doi :10.1016/j.jprot.2012.07.026. PMID  22842151. S2CID  25970597.
  17. ^ Bouyssié D, Dubois M, Nasso S, Gonzalez de Peredo A, Burlet-Schiltz O, Aebersold R, Monsarrat B (marzo de 2015). "mzDB: un formato de archivo que utiliza múltiples estrategias de indexación para el análisis eficiente de grandes conjuntos de datos LC-MS/MS y SWATH-MS". Molecular & Cellular Proteomics . 14 (3): 771–81. doi : 10.1074/mcp.O114.039115 . PMC 4349994 . PMID  25505153. 
  18. ^ Tully B (junio de 2020). «Toffee: un formato de archivo altamente eficiente y sin pérdidas para DIA-MS». Scientific Reports . 10 (1): 8939. Bibcode :2020NatSR..10.8939T. doi : 10.1038/s41598-020-65015-y . PMC 7265431 . PMID  32488104. 
  19. ^ Bhamber RS, Jankevics A, Deutsch EW, Jones AR, Dowsey AW (enero de 2021). "mzMLb: un formato de datos de espectrometría de masas sin procesar a prueba de futuro basado en mzML compatible con estándares y optimizado para requisitos de velocidad y almacenamiento". Journal of Proteome Research . 20 (1): 172–183. doi :10.1021/acs.jproteome.0c00192. PMC 7871438 . PMID  32864978. 
  20. ^ "Sitio web de MZmine".
  21. ^ "sitio web mineXpert2".
  22. ^ "Sitio web de MS-Spectre". Ms-spectre.sourceforge.net . Consultado el 29 de noviembre de 2011 .
  23. ^ "Sitio web de OpenMS y TOPP". Open-ms.sourceforge.net . Consultado el 29 de noviembre de 2011 .
  24. ^ "Un visualizador de código abierto desarrollado en el marco de proyectos académicos". Staff.icar.cnr.it . Consultado el 29 de noviembre de 2011 .
  25. ^ "Un visualizador de código abierto desarrollado por Matt Chambers en Vanderbilt". Proteowizard.sourceforge.net . Consultado el 29 de noviembre de 2011 .
  26. ^ "Un visualizador de código abierto desarrollado por el Centro de Cáncer Fred Hutchinson". Proteomics.fhcrc.org . Consultado el 29 de noviembre de 2011 .
  27. ^ "jmzML" . Consultado el 29 de noviembre de 2011 .
  28. ^ "BSI: sitio web de PEAKS". Bioinfor.com . Consultado el 29 de noviembre de 2011 .
  29. ^ "Sitio web de Insilicos". Archivado desde el original el 20 de diciembre de 2014. Consultado el 28 de marzo de 2020 .
  30. ^ Matrix Science Limited. «Software comercial con modo de visualización gratuito para mzXML y muchos formatos propietarios». Matrixscience.com . Consultado el 29 de noviembre de 2011 .
  31. ^ "Peaksel - software para leer y procesar formatos HPLC propietarios y abiertos".
  32. ^ "ITAviewer en línea".
    "Fuente de ITAviewer". GitHub . 9 de noviembre de 2017.
  33. ^ "Sitio web de pySPM". GitHub . 17 de junio de 2022.
  34. ^ Hermes Archivado el 3 de marzo de 2016 en Wayback Machine.
  35. ^ "Sitio web de Hermes". Icecoffee.ch . Consultado el 29 de noviembre de 2011 .
  36. ^ ab "FileConverter". Open-ms.sourceforge.net . Consultado el 29 de noviembre de 2011 .
  37. ^ ab TOPP Archivado el 15 de abril de 2008 en Wayback Machine.
  38. ^ "mzXML" . Consultado el 30 de junio de 2008 .
  39. ^ ab "msconvert". ProteoWizard . Consultado el 20 de abril de 2013 .
  40. ^ ab "ProteoWizard" . Consultado el 20 de abril de 2013 .
  41. ^ "ReAdW". Tools.proteomecenter.org . Consultado el 29 de noviembre de 2011 .
  42. ^ "TransProteomicPipeline". Tools.proteomecenter.org. 25 de mayo de 2011. Consultado el 29 de noviembre de 2011 .
  43. ^ MASSTransit de Palisade Archivado el 9 de mayo de 2008 en Wayback Machine.
  44. ^ "Cromatografía de gases (GC)". PerkinElmer . Consultado el 29 de noviembre de 2011 .
  45. ^ aston – Software de cromatografía y espectrometría de masas de código abierto – Hospedaje de proyectos de Google
  46. ^ unfinnigan – Extracción sencilla de espectros de masas a partir de archivos "raw" de Thermo – Google Project Hosting
  47. ^ Dąbrowski Ł (7 de agosto de 2015). "Revisión de software libre de procesamiento de datos para cromatografía". Revista Mediterránea de Química . 4 (4): 193–200. doi : 10.13171/mjc.4.4.2015.15.09.16.35/dabrowski .
  48. ^ wiff2dta en sourceforge
Obtenido de "https://es.wikipedia.org/w/index.php?title=Formato_de_datos_de_espectrometría_de_masas&oldid=1217472011"