Estructura primaria de la proteína

Secuencia lineal de aminoácidos en un péptido o proteína

La estructura primaria de una proteína es la secuencia lineal de aminoácidos en un péptido o proteína . ^[1] Por convención, la estructura primaria de una proteína se informa comenzando desde el extremo amino -terminal (N) hasta el extremo carboxilo -terminal (C). La biosíntesis de proteínas la realizan con mayor frecuencia los ribosomas en las células. Los péptidos también se pueden sintetizar en el laboratorio. Las estructuras primarias de las proteínas se pueden secuenciar directamente o inferir a partir de secuencias de ADN .

Formación

Biológico

Los aminoácidos se polimerizan a través de enlaces peptídicos para formar una larga cadena principal , a lo largo de la cual sobresalen las diferentes cadenas laterales de aminoácidos. En los sistemas biológicos, las proteínas se producen durante la traducción por los ribosomas de una célula . Algunos organismos también pueden producir péptidos cortos mediante síntesis de péptidos no ribosómicos , que a menudo utilizan aminoácidos distintos de los 20 estándar, y pueden ciclarse, modificarse y reticularse.

Químico

Los péptidos se pueden sintetizar químicamente mediante una variedad de métodos de laboratorio. Los métodos químicos generalmente sintetizan los péptidos en el orden opuesto (comenzando en el extremo C) a la síntesis de proteínas biológicas (comenzando en el extremo N).

Notación

La secuencia de proteínas se suele escribir como una cadena de letras que enumera los aminoácidos desde el extremo amino terminal hasta el extremo carboxilo terminal. Se puede utilizar un código de tres letras o de una sola letra para representar los 20 aminoácidos naturales, así como mezclas o aminoácidos ambiguos (similar a la notación de ácidos nucleicos ). ^[1]^[2]^[3]

Los péptidos se pueden secuenciar directamente o inferir a partir de secuencias de ADN . Actualmente existen grandes bases de datos de secuencias que recopilan secuencias de proteínas conocidas.

Notación de 20 aminoácidos naturales
Aminoácido	3 letras ^[4]	1-Carta ^[4]
Alanina	Ala	A
Arginina	Argento	R
Asparagina	ASN	norte
Ácido aspártico	Áspid	D
Cisteína	Cis	do
Ácido glutámico	pegamento	mi
Glutamina	Gln	Q
Glicina	Gly	GRAMO
Histidina	Su	yo
Isoleucina	Isla	I
Leucina	Leu	yo
Lisina	Lis	K
Metionina	Conocí	METRO
Fenilalanina	fen	F
Prolina	Pro	PAG
Serina	Ser	S
Treonina	El	yo
Triptófano	Trp	Yo
Tirosina	Tiro	Y
Valina	Val	V

Notación ambigua de aminoácidos
Símbolo	Descripción	Residuos representados
incógnita	Cualquier aminoácido, o desconocido	Todo
B	Aspartato o asparagina	Re, N
O	Glutamato o glutamina	mi, q
Yo	Leucina o isoleucina	Yo, yo
Φ	Hidrofóbico	V, yo, izquierda, derecha, ancho, metro
Ohmio	Aromático	F, W, Y, H
O	Alifático	V, yo, l, m
π	Pequeño	P, G, A, S
o	Hidrofílico	S, T, H, N, Q, E, D, K, R, Y
+	Cargado positivamente	K, R, H
-	Cargado negativamente	Re, mi

Modificación

En general, los polipéptidos son polímeros no ramificados, por lo que su estructura primaria a menudo se puede especificar mediante la secuencia de aminoácidos a lo largo de su cadena principal. Sin embargo, las proteínas pueden reticularse, más comúnmente mediante enlaces disulfuro , y la estructura primaria también requiere especificar los átomos de reticulación, por ejemplo, especificar las cisteínas involucradas en los enlaces disulfuro de la proteína. Otros enlaces cruzados incluyen la desmosina .

Isomerización

Los centros quirales de una cadena polipeptídica pueden sufrir racemización . Aunque no cambia la secuencia, sí afecta las propiedades químicas de la secuencia. En particular, los L -aminoácidos que se encuentran normalmente en las proteínas pueden isomerizarse espontáneamente en el átomo para formar D -aminoácidos, que no pueden ser escindidos por la mayoría de las proteasas . Además, la prolina puede formar isómeros trans estables en el enlace peptídico. $\mathrm {C^{\alpha }}$

Modificación postraduccional

Además, la proteína puede sufrir una variedad de modificaciones postraduccionales , que se resumen brevemente aquí.

El grupo amino N-terminal de un polipéptido se puede modificar covalentemente, por ejemplo,

acetilación $\mathrm {-C(=O)-CH_{3}}$

La carga positiva del grupo amino N-terminal se puede eliminar cambiándolo por un grupo acetilo (bloqueo N-terminal).

formilación $\mathrm {-C(=O)H}$

La metionina N-terminal que se encuentra generalmente después de la traducción tiene un extremo N-terminal bloqueado con un grupo formilo. Este grupo formilo (y a veces el propio residuo de metionina, si va seguido de Gly o Ser) es eliminado por la enzima deformilasa.

piroglutamato

Una glutamina N-terminal puede atacarse a sí misma, formando un grupo piroglutamato cíclico.

miristoilación $\mathrm {-C(=O)-\left(CH_{2}\right)_{12}-CH_{3}}$

Similar a la acetilación. En lugar de un grupo metilo simple, el grupo miristoilo tiene una cola de 14 carbonos hidrofóbicos, lo que lo hace ideal para anclar proteínas a las membranas celulares .

El grupo carboxilato C-terminal de un polipéptido también se puede modificar, por ejemplo,

aminación (ver figura)

El extremo C también se puede bloquear (neutralizando así su carga negativa) mediante aminación.

unión de glicosilfosfatidilinositol (GPI)

El glicosilfosfatidilinositol (GPI) es un grupo prostético fosfolipídico grande e hidrofóbico que ancla las proteínas a las membranas celulares . Está unido al extremo C del polipéptido a través de un enlace amida que luego se conecta a la etanolamina, de allí a diversos azúcares y finalmente a la fracción lipídica del fosfatidilinositol.

Finalmente, las cadenas laterales del péptido también pueden modificarse covalentemente, por ejemplo,

fosforilación

Aparte de la escisión, la fosforilación es quizás la modificación química más importante de las proteínas. Un grupo fosfato puede unirse al grupo hidroxilo de la cadena lateral de los residuos de serina, treonina y tirosina, añadiendo una carga negativa en ese sitio y produciendo un aminoácido no natural. Estas reacciones son catalizadas por quinasas y la reacción inversa es catalizada por fosfatasas. Las tirosinas fosforiladas se utilizan a menudo como "manijas" mediante las cuales las proteínas pueden unirse entre sí, mientras que la fosforilación de Ser/Thr a menudo induce cambios conformacionales, presumiblemente debido a la carga negativa introducida. Los efectos de la fosforilación de Ser/Thr a veces pueden simularse mutando el residuo de Ser/Thr a glutamato.

glicosilación

Nombre genérico para un conjunto de modificaciones químicas muy comunes y muy heterogéneas. Las fracciones de azúcar se pueden unir a los grupos hidroxilo de la cadena lateral de Ser/Thr o a los grupos amida de la cadena lateral de Asn. Estas uniones pueden cumplir muchas funciones, que van desde aumentar la solubilidad hasta el reconocimiento de complejos. Toda la glicosilación se puede bloquear con ciertos inhibidores, como la tunicamicina .

desamidación (formación de succinimida)

En esta modificación, una cadena lateral de asparagina o aspartato ataca el siguiente enlace peptídico, formando un intermediario succinimida simétrico. La hidrólisis del intermediario produce aspartato o el β-aminoácido, iso(Asp). En el caso de la asparagina, cualquiera de los dos productos da como resultado la pérdida del grupo amida, de ahí la "desamidación".

hidroxilación

Los residuos de prolina pueden hidroxilarse en cualquiera de dos átomos, al igual que la lisina (en un átomo). La hidroxiprolina es un componente fundamental del colágeno , que se vuelve inestable al perderse. La reacción de hidroxilación está catalizada por una enzima que requiere ácido ascórbico (vitamina C), cuyas deficiencias conducen a muchas enfermedades del tejido conectivo, como el escorbuto .

metilación

Varios residuos proteicos pueden metilarse, sobre todo los grupos positivos de lisina y arginina . Los residuos de arginina interactúan con la cadena principal de fosfato del ácido nucleico y suelen formar enlaces de hidrógeno con los residuos de base, en particular la guanina , en los complejos proteína-ADN. Los residuos de lisina pueden metilarse de forma simple, doble e incluso triple. Sin embargo, la metilación no altera la carga positiva de la cadena lateral.

acetilación

La acetilación de los grupos amino de la lisina es químicamente análoga a la acetilación del extremo N. Sin embargo, funcionalmente, la acetilación de los residuos de lisina se utiliza para regular la unión de las proteínas a los ácidos nucleicos. La cancelación de la carga positiva de la lisina debilita la atracción electrostática de los ácidos nucleicos (cargados negativamente).

sulfatación

Las tirosinas pueden sulfatar su átomo. De manera un tanto inusual, esta modificación ocurre en el aparato de Golgi , no en el retículo endoplasmático . De manera similar a las tirosinas fosforiladas, las tirosinas sulfatadas se utilizan para el reconocimiento específico, por ejemplo, en los receptores de quimiocinas en la superficie celular. Al igual que con la fosforilación, la sulfatación agrega una carga negativa a un sitio previamente neutral.

\mathrm {O^{\eta }}

prenilación y palmitoilación $\mathrm {-C(=O)-\left(CH_{2}\right)_{14}-CH_{3}}$

Los grupos isopreno hidrófobos (p. ej., farnesilo, geranilo y geranilgeranilo) y palmitoilo se pueden agregar al átomo de residuos de cisteína para anclar las proteínas a las membranas celulares . A diferencia de los anclajes GPI y miritoilo, estos grupos no se agregan necesariamente en los extremos.

\mathrm {S^{\gamma }}

carboxilación

Una modificación relativamente rara que añade un grupo carboxilato adicional (y, por lo tanto, una carga negativa doble) a una cadena lateral de glutamato, lo que produce un residuo Gla. Esto se utiliza para reforzar la unión a iones metálicos "duros", como el calcio .

ADP-ribosilación

El gran grupo ADP-ribosilo puede transferirse a varios tipos de cadenas laterales dentro de las proteínas, con efectos heterogéneos. Esta modificación es un objetivo para las potentes toxinas de distintas bacterias, por ejemplo, Vibrio cholerae , Corynebacterium diphtheriae y Bordetella pertussis .

ubiquitinación y sumoilación

Varias proteínas plegadas de longitud completa pueden unirse en sus extremos C a los grupos amonio de la cadena lateral de las lisinas de otras proteínas. La ubiquitina es la más común de ellas y suele indicar que la proteína marcada con ubiquitina debe degradarse.

La mayoría de las modificaciones de polipéptidos enumeradas anteriormente ocurren postraduccionalmente , es decir, después de que la proteína ha sido sintetizada en el ribosoma , típicamente en el retículo endoplásmico , un orgánulo subcelular de la célula eucariota.

Los químicos han aplicado muchas otras reacciones químicas (por ejemplo, la cianilación) a las proteínas, aunque no se encuentran en sistemas biológicos.

Escisión y ligadura

Además de las mencionadas anteriormente, la modificación más importante de la estructura primaria es la escisión de péptidos (por hidrólisis química o por proteasas ). Las proteínas se sintetizan a menudo en forma de precursor inactivo; normalmente, un segmento N-terminal o C-terminal bloquea el sitio activo de la proteína, inhibiendo su función. La proteína se activa escindiendo el péptido inhibidor.

Algunas proteínas incluso tienen la capacidad de autoescindirse. Normalmente, el grupo hidroxilo de una serina (raramente, treonina) o el grupo tiol de un residuo de cisteína atacarán al carbono carbonílico del enlace peptídico precedente, formando un intermediario con enlace tetraédrico [clasificado como intermediario hidroxioxazolidina (Ser/Thr) o hidroxitiazolidina (Cys)]. Este intermediario tiende a revertir a la forma amida, expulsando el grupo atacante, ya que la forma amida suele ser favorecida por la energía libre (presumiblemente debido a la fuerte estabilización por resonancia del grupo peptídico). Sin embargo, interacciones moleculares adicionales pueden hacer que la forma amida sea menos estable; en su lugar, se expulsa el grupo amino, lo que da como resultado un enlace éster (Ser/Thr) o tioéster (Cys) en lugar del enlace peptídico. Esta reacción química se denomina desplazamiento de NO acilo.

El enlace éster/tioéster se puede resolver de varias maneras:

La hidrólisis simple divide la cadena polipeptídica, donde el grupo amino desplazado se convierte en el nuevo extremo N. Esto se observa en la maduración de la glicosilasparaginasa.
Una reacción de eliminación β también divide la cadena, pero da como resultado un grupo piruvoilo en el nuevo extremo N. Este grupo piruvoilo puede usarse como cofactor catalítico unido covalentemente en algunas enzimas, especialmente descarboxilasas como la S-adenosilmetionina descarboxilasa (SAMDC) que explota el poder de atracción de electrones del grupo piruvoilo.
Transesterificación intramolecular, que da como resultado un polipéptido ramificado . En las inteínas , el nuevo enlace éster se rompe mediante un ataque intramolecular de la asparagina, que pronto estará en el extremo C.
La transesterificación intermolecular puede transferir un segmento entero de un polipéptido a otro, como se observa en el autoprocesamiento de la proteína Hedgehog.

Compresión de secuencia

La compresión de secuencias de aminoácidos es una tarea relativamente difícil. Los compresores de secuencias de aminoácidos especializados existentes son de menor calidad en comparación con los compresores de secuencias de ADN, principalmente debido a las características de los datos. Por ejemplo, la modelización de inversiones es más difícil debido a la pérdida de información inversa (de aminoácidos a secuencia de ADN). El compresor de datos sin pérdida actual que proporciona una mayor compresión es AC2. ^[5] AC2 mezcla varios modelos de contexto utilizando redes neuronales y codifica los datos utilizando codificación aritmética.

Historia

La propuesta de que las proteínas eran cadenas lineales de α-aminoácidos fue hecha casi simultáneamente por dos científicos en la misma conferencia en 1902, la 74.ª reunión de la Sociedad de Científicos y Médicos Alemanes, celebrada en Karlsbad. Franz Hofmeister hizo la propuesta por la mañana, basándose en sus observaciones de la reacción del biuret en las proteínas. A Hofmeister le siguió unas horas más tarde Emil Fischer , que había acumulado una gran cantidad de detalles químicos que apoyaban el modelo del enlace peptídico. Para completar, la propuesta de que las proteínas contenían enlaces amida fue hecha ya en 1882 por el químico francés E. Grimaux. ^[6]

A pesar de estos datos y de la evidencia posterior de que las proteínas digeridas proteolíticamente producían solo oligopéptidos, la idea de que las proteínas eran polímeros lineales y no ramificados de aminoácidos no fue aceptada de inmediato. Algunos científicos muy respetados, como William Astbury, dudaban de que los enlaces covalentes fueran lo suficientemente fuertes como para mantener unidas moléculas tan largas; temían que las agitaciones térmicas las desintegraran. Hermann Staudinger se enfrentó a prejuicios similares en la década de 1920 cuando sostuvo que el caucho estaba compuesto de macromoléculas . ^[6]

Así, surgieron varias hipótesis alternativas. La hipótesis de la proteína coloidal afirmaba que las proteínas eran conjuntos coloidales de moléculas más pequeñas. Esta hipótesis fue refutada en la década de 1920 por las mediciones de ultracentrifugación de Theodor Svedberg que mostraron que las proteínas tenían un peso molecular bien definido y reproducible y por las mediciones electroforéticas de Arne Tiselius que indicaron que las proteínas eran moléculas individuales. Una segunda hipótesis, la hipótesis del ciclol presentada por Dorothy Wrinch , propuso que el polipéptido lineal sufrió una reorganización química del ciclol C=O + HN C(OH)-N que entrecruzó sus grupos amida de la cadena principal, formando un tejido bidimensional . Varios investigadores propusieron otras estructuras primarias de proteínas, como el modelo de dicetopiperazina de Emil Abderhalden y el modelo de pirrol/piperidina de Troensegaard en 1942. Aunque nunca se les dio mucho crédito, estos modelos alternativos finalmente fueron refutados cuando Frederick Sanger secuenció con éxito la insulina ^[^¿cuándo?^] y por la determinación cristalográfica de la mioglobina y la hemoglobina por Max Perutz y John Kendrew ^[^¿cuándo?^] . $\flecha derecha$

Estructura primaria en otras moléculas

Se puede decir que cualquier heteropolímero de cadena lineal tiene una "estructura primaria" por analogía con el uso del término para las proteínas, pero este uso es poco común en comparación con el uso extremadamente común en referencia a las proteínas. En el ARN , que también tiene una estructura secundaria extensa , la cadena lineal de bases generalmente se denomina simplemente "secuencia", como en el ADN (que generalmente forma una doble hélice lineal con poca estructura secundaria). También se puede considerar que otros polímeros biológicos, como los polisacáridos , tienen una estructura primaria, aunque el uso no es estándar.

Relación con la estructura secundaria y terciaria

La estructura primaria de un polímero biológico determina en gran medida la forma tridimensional ( estructura terciaria ). La secuencia de proteínas se puede utilizar para predecir características locales , como segmentos de estructura secundaria o regiones transmembrana. Sin embargo, la complejidad del plegamiento de proteínas actualmente prohíbe predecir la estructura terciaria de una proteína solo a partir de su secuencia. Conocer la estructura de una secuencia homóloga similar (por ejemplo, un miembro de la misma familia de proteínas ) permite una predicción muy precisa de la estructura terciaria mediante modelado de homología . Si se dispone de la secuencia de proteína de longitud completa, es posible estimar sus propiedades biofísicas generales , como su punto isoeléctrico .

Las familias de secuencias a menudo se determinan mediante la agrupación de secuencias , y los proyectos de genómica estructural apuntan a producir un conjunto de estructuras representativas para cubrir el espacio de secuencias de posibles secuencias no redundantes.

Véase también

Notas y referencias

^ ab SANGER F (1952). "La disposición de los aminoácidos en las proteínas". En ML Anson; Kenneth Bailey; John T. Edsall (eds.). Avances en la química de las proteínas . Vol. 7. págs. 1–67. doi :10.1016/S0065-3233(08)60017-0. ISBN 9780120342075. Número de identificación personal 14933251.
^ Aasland, Rein; Abrams, Charles; Ampe, Christophe; Ball, Linda J.; Bedford, Mark T.; Cesareni, Gianni; Gimona, Mario; Hurley, James H.; Jarchau, Thomas (20 de febrero de 2002). "Normalización de la nomenclatura para motivos peptídicos como ligandos de dominios proteicos modulares". FEBS Letters . 513 (1): 141–144. Bibcode :2002FEBSL.513..141A. doi : 10.1016/S0014-5793(01)03295-1 . ISSN 1873-3468. PMID 11911894.
^ Aasland R, Abrams C, Ampe C, Ball LJ, Bedford MT, Cesareni G, Gimona M, Hurley JH, Jarchau T, Lehto VP, Lemmon MA, Linding R, Mayer BJ, Nagai M, Sudol M, Walter U, Winder SJ (1 de julio de 1968). "Una notación de una letra para secuencias de aminoácidos*". Revista Europea de Bioquímica . 5 (2): 151–153. doi :10.1111/j.1432-1033.1968.tb00350.x. ISSN 1432-1033. PMID 11911894.
^ ab Hausman, Robert E.; Cooper, Geoffrey M. (2004). La célula: un enfoque molecular . Washington, DC: ASM Press. pág. 51. ISBN 978-0-87893-214-6.
^ Silva M, Pratas D, Pinho AJ (abril de 2021). "AC2: una herramienta eficiente de compresión de secuencias de proteínas utilizando redes neuronales artificiales y modelos de caché-hash". Entropy . 23 (5): 530. Bibcode :2021Entrp..23..530S. doi : 10.3390/e23050530 . PMC 8146440 . PMID 33925812. {{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ ab Fruton JS (mayo de 1979). "Teorías tempranas de la estructura de las proteínas". Ann. NY Acad. Sci . 325 (1): xiv, 1–18. Bibcode :1979NYASA.325....1F. doi :10.1111/j.1749-6632.1979.tb14125.x. PMID 378063. S2CID 39125170.

[sanger-1] SANGER F (1952). "La disposición de los aminoácidos en las proteínas". En ML Anson; Kenneth Bailey; John T. Edsall (eds.). Avances en la química de las proteínas . Vol. 7. págs. 1–67. doi :10.1016/S0065-3233(08)60017-0. ISBN 9780120342075. Número de identificación personal 14933251.

[letter-2] Aasland, Rein; Abrams, Charles; Ampe, Christophe; Ball, Linda J.; Bedford, Mark T.; Cesareni, Gianni; Gimona, Mario; Hurley, James H.; Jarchau, Thomas (20 de febrero de 2002). "Normalización de la nomenclatura para motivos peptídicos como ligandos de dominios proteicos modulares". FEBS Letters . 513 (1): 141–144. Bibcode :2002FEBSL.513..141A. doi : 10.1016/S0014-5793(01)03295-1 . ISSN 1873-3468. PMID 11911894.

[3] Aasland R, Abrams C, Ampe C, Ball LJ, Bedford MT, Cesareni G, Gimona M, Hurley JH, Jarchau T, Lehto VP, Lemmon MA, Linding R, Mayer BJ, Nagai M, Sudol M, Walter U, Winder SJ (1 de julio de 1968). "Una notación de una letra para secuencias de aminoácidos*". Revista Europea de Bioquímica . 5 (2): 151–153. doi :10.1111/j.1432-1033.1968.tb00350.x. ISSN 1432-1033. PMID 11911894.

[Hausman-4] Hausman, Robert E.; Cooper, Geoffrey M. (2004). La célula: un enfoque molecular . Washington, DC: ASM Press. pág. 51. ISBN 978-0-87893-214-6.

[AC2-5] Silva M, Pratas D, Pinho AJ (abril de 2021). "AC2: una herramienta eficiente de compresión de secuencias de proteínas utilizando redes neuronales artificiales y modelos de caché-hash". Entropy . 23 (5): 530. Bibcode :2021Entrp..23..530S. doi : 10.3390/e23050530 . PMC 8146440 . PMID 33925812. {{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )

[history-6] Fruton JS (mayo de 1979). "Teorías tempranas de la estructura de las proteínas". Ann. NY Acad. Sci . 325 (1): xiv, 1–18. Bibcode :1979NYASA.325....1F. doi :10.1111/j.1749-6632.1979.tb14125.x. PMID 378063. S2CID 39125170.