La síntesis aditiva es una técnica de síntesis de sonido que crea un timbre sumando ondas sinusoidales . [1] [2]
A la luz de la teoría de Fourier, se puede considerar que el timbre de los instrumentos musicales está formado por múltiples armónicos o inarmónicos parciales o sobretonos . Cada parcial es una onda sinusoidal de diferente frecuencia y amplitud que aumenta y disminuye con el tiempo debido a la modulación de una envolvente ADSR o un oscilador de baja frecuencia .
La síntesis aditiva genera el sonido de forma más directa al sumar la salida de múltiples generadores de ondas sinusoidales. Las implementaciones alternativas pueden utilizar tablas de ondas precalculadas o la transformada rápida de Fourier inversa .
Los sonidos que escuchamos en la vida cotidiana no se caracterizan por una única frecuencia , sino que consisten en una suma de frecuencias sinusoidales puras, cada una de ellas con una amplitud diferente . Cuando los humanos escuchamos estas frecuencias simultáneamente, podemos reconocer el sonido. Esto es cierto tanto para sonidos "no musicales" (por ejemplo, el chapoteo del agua, el crujido de las hojas, etc.) como para sonidos "musicales" (por ejemplo, una nota de piano, el trino de un pájaro, etc.). Este conjunto de parámetros (frecuencias, sus amplitudes relativas y cómo cambian las amplitudes relativas con el tiempo) están encapsulados por el timbre del sonido. El análisis de Fourier es la técnica que se utiliza para determinar estos parámetros de timbre exactos a partir de una señal de sonido global; a la inversa, el conjunto resultante de frecuencias y amplitudes se denomina serie de Fourier de la señal de sonido original.
En el caso de una nota musical, la frecuencia más baja de su timbre se designa como la frecuencia fundamental del sonido . Para simplificar, a menudo decimos que la nota se toca en esa frecuencia fundamental (por ejemplo, " el do central es 261,6 Hz"), [3] aunque el sonido de esa nota también consta de muchas otras frecuencias. El conjunto de las frecuencias restantes se denomina sobretonos (o armónicos , si sus frecuencias son múltiplos enteros de la frecuencia fundamental) del sonido. [4] En otras palabras, la frecuencia fundamental por sí sola es responsable del tono de la nota, mientras que los sobretonos definen el timbre del sonido. Los sobretonos de un piano que toca el do central serán bastante diferentes de los sobretonos de un violín que toca la misma nota; eso es lo que nos permite diferenciar los sonidos de los dos instrumentos. Incluso hay diferencias sutiles en el timbre entre diferentes versiones del mismo instrumento (por ejemplo, un piano vertical frente a un piano de cola ).
La síntesis aditiva pretende explotar esta propiedad del sonido para construir el timbre desde cero. Sumando frecuencias puras ( ondas sinusoidales ) de distintas frecuencias y amplitudes, podemos definir con precisión el timbre del sonido que queremos crear.
La síntesis aditiva armónica está estrechamente relacionada con el concepto de serie de Fourier , que es una forma de expresar una función periódica como la suma de funciones sinusoidales con frecuencias iguales a múltiplos enteros de una frecuencia fundamental común . Estas sinusoides se denominan armónicos , sobretonos o, en general, parciales . En general, una serie de Fourier contiene un número infinito de componentes sinusoidales, sin límite superior para la frecuencia de las funciones sinusoidales e incluye un componente de CC (uno con frecuencia de 0 Hz ). Las frecuencias fuera del rango audible humano se pueden omitir en la síntesis aditiva. Como resultado, solo se modela un número finito de términos sinusoidales con frecuencias que se encuentran dentro del rango audible en la síntesis aditiva.
Se dice que una forma de onda o función es periódica si
para todos y por algún tiempo .
La serie de Fourier de una función periódica se expresa matemáticamente como:
dónde
Al ser inaudibles, el componente DC , , y todos los componentes con frecuencias superiores a un límite finito, , se omiten en las siguientes expresiones de síntesis aditiva.
La síntesis aditiva armónica más simple se puede expresar matemáticamente como:
( 1 ) |
donde es la salida de síntesis, , , y son la amplitud, la frecuencia y el desfase de fase, respectivamente, del parcial armónico n de un total de parciales armónicos, y es la frecuencia fundamental de la forma de onda y la frecuencia de la nota musical .
Ejemplo de síntesis aditiva armónica en la que cada armónico tiene una amplitud dependiente del tiempo. La frecuencia fundamental es de 440 Hz. ¿Tiene problemas para escuchar este archivo? Consulte la ayuda de medios |
De manera más general, la amplitud de cada armónico se puede prescribir como una función del tiempo, en cuyo caso la salida de síntesis es
. | ( 2 ) |
Cada envolvente debe variar lentamente en relación con el espaciamiento de frecuencia entre sinusoides adyacentes. El ancho de banda de debe ser significativamente menor que .
La síntesis aditiva también puede producir sonidos inarmónicos (que son formas de onda aperiódicas ) en las que los armónicos individuales no necesitan tener frecuencias que sean múltiplos enteros de alguna frecuencia fundamental común. [5] [6] Si bien muchos instrumentos musicales convencionales tienen parciales armónicos (por ejemplo, un oboe ), algunos tienen parciales inarmónicos (por ejemplo, campanas ). La síntesis aditiva inarmónica se puede describir como
donde es la frecuencia constante del parcial.
Ejemplo de síntesis aditiva inarmónica en la que tanto la amplitud como la frecuencia de cada parcial dependen del tiempo. ¿Tiene problemas para escuchar este archivo? Consulte la ayuda de medios |
En el caso general, la frecuencia instantánea de una senoide es la derivada (con respecto al tiempo) del argumento de la función seno o coseno. Si esta frecuencia se representa en hercios , en lugar de en forma de frecuencia angular , entonces esta derivada se divide por . Esto es así tanto si la parcial es armónica como inarmónica y tanto si su frecuencia es constante o varía con el tiempo.
En la forma más general, la frecuencia de cada parcial no armónico es una función no negativa del tiempo, , lo que da como resultado
( 3 ) |
La síntesis aditiva en un sentido más amplio puede significar técnicas de síntesis de sonido que suman elementos simples para crear timbres más complejos, incluso cuando los elementos no son ondas sinusoidales. [7] [8] Por ejemplo, F. Richard Moore incluyó la síntesis aditiva como una de las "cuatro categorías básicas" de síntesis de sonido junto con la síntesis sustractiva , la síntesis no lineal y el modelado físico . [8] En este sentido amplio, los órganos de tubos , que también tienen tubos que producen formas de onda no sinusoidales, pueden considerarse como una forma variante de sintetizadores aditivos. La suma de componentes principales y las funciones de Walsh también se han clasificado como síntesis aditiva. [9]
Las implementaciones modernas de la síntesis aditiva son principalmente digitales. (Consulte la sección Ecuaciones de tiempo discreto para conocer la teoría de tiempo discreto subyacente)
La síntesis aditiva se puede implementar utilizando un banco de osciladores sinusoidales, uno para cada parcial. [1]
En el caso de tonos musicales armónicos y cuasi periódicos, la síntesis de tabla de ondas puede ser tan general como la síntesis aditiva variable en el tiempo, pero requiere menos cálculos durante la síntesis. [10] [11] Como resultado, se puede lograr una implementación eficiente de la síntesis aditiva variable en el tiempo de tonos armónicos mediante el uso de la síntesis de tabla de ondas .
La síntesis aditiva grupal [12] [13] [14] es un método para agrupar parciales en grupos armónicos (que tienen diferentes frecuencias fundamentales) y sintetizar cada grupo por separado con síntesis de tabla de ondas antes de mezclar los resultados.
Se puede utilizar una transformada rápida de Fourier inversa para sintetizar de manera eficiente frecuencias que dividan de manera uniforme el período de la transformada o "marco". Si se considera detenidamente la representación en el dominio de la frecuencia de la DFT, también es posible sintetizar de manera eficiente sinusoides de frecuencias arbitrarias utilizando una serie de marcos superpuestos y la transformada rápida de Fourier inversa . [15]
Es posible analizar los componentes de frecuencia de un sonido grabado dando una representación de "suma de sinusoides". Esta representación se puede volver a sintetizar mediante síntesis aditiva. Un método para descomponer un sonido en parciales sinusoidales que varían en el tiempo es el análisis de McAulay- Quatieri basado en la transformada de Fourier de tiempo corto (STFT) . [17] [18]
Modificando la representación de la suma de las sinusoides, se pueden realizar alteraciones tímbricas antes de la resíntesis. Por ejemplo, un sonido armónico podría reestructurarse para que suene inarmónico, y viceversa. La hibridación o "transformación" de sonidos se ha implementado mediante la resíntesis aditiva. [19]
El análisis aditivo/resíntesis se ha empleado en varias técnicas, incluidas la modelización sinusoidal, [20] la síntesis de modelización espectral (SMS), [19] y el modelo de sonido aditivo mejorado con ancho de banda reasignado. [21] El software que implementa el análisis aditivo/resíntesis incluye: SPEAR, [22] LEMUR, LORIS, [23] SMSTools, [24] ARSS. [25]
New England Digital Synclavier tenía una función de resíntesis donde las muestras podían analizarse y convertirse en "marcos de timbre" que formaban parte de su motor de síntesis aditiva. Technos acxel , lanzado en 1987, utilizó el modelo de análisis aditivo/resíntesis en una implementación de FFT.
También un sintetizador vocal, Vocaloid se ha implementado sobre la base del análisis aditivo/resíntesis: su modelo espectral de voz llamado modelo Excitation plus Resonances (EpR) [26] [27] se extiende sobre la base de Spectral Modeling Synthesis (SMS), y su síntesis concatenativa de difonos se procesa utilizando la técnica de procesamiento de pico espectral (SPP) [28] similar al vocoder de fase bloqueada modificado [29] (un vocoder de fase mejorado para el procesamiento de formantes). [30] Usando estas técnicas, los componentes espectrales ( formantes ) que consisten en parciales puramente armónicos se pueden transformar apropiadamente en la forma deseada para el modelado de sonido, y la secuencia de muestras cortas ( difonos o fonemas ) que constituyen la frase deseada, se pueden conectar suavemente interpolando parciales coincidentes y picos de formantes, respectivamente, en la región de transición insertada entre diferentes muestras. (Véase también Timbres dinámicos )
La síntesis aditiva se utiliza en instrumentos musicales electrónicos. Es la principal técnica de generación de sonido que utilizan los órganos Eminent .
En la investigación lingüística , la síntesis aditiva armónica se utilizó en la década de 1950 para reproducir espectrogramas de habla modificados y sintéticos. [31]
Más tarde, a principios de los años 1980, se llevaron a cabo pruebas de escucha en el habla sintética despojada de señales acústicas para evaluar su importancia. Las frecuencias y amplitudes de formantes variables en el tiempo derivadas por codificación predictiva lineal se sintetizaron de forma aditiva como silbidos de tono puro. Este método se llama síntesis de ondas sinusoidales . [32] [33] También se sabe que el modelado sinusoidal compuesto (CSM) [34] [35] utilizado en una función de síntesis de voz cantada en Yamaha CX5M (1984), utiliza un enfoque similar que se desarrolló de forma independiente durante 1966-1979. [36] [37] Estos métodos se caracterizan por la extracción y recomposición de un conjunto de picos espectrales significativos correspondientes a los diversos modos de resonancia ocurridos en la cavidad oral y la cavidad nasal, desde un punto de vista acústico . Este principio también se utilizó en un método de síntesis de modelado físico , llamado síntesis modal . [38] [39] [40] [41]
El análisis armónico fue descubierto por Joseph Fourier , [42] quien publicó un extenso tratado de su investigación en el contexto de la transferencia de calor en 1822. [43] La teoría encontró una aplicación temprana en la predicción de mareas . Alrededor de 1876, [44] William Thomson (más tarde ennoblecido como Lord Kelvin ) construyó un predictor mecánico de mareas . Consistía en un analizador armónico y un sintetizador armónico , como se los llamaba ya en el siglo XIX. [45] [46] El análisis de las mediciones de mareas se realizó utilizando la máquina integradora de James Thomson . Los coeficientes de Fourier resultantes se introdujeron en el sintetizador, que luego utilizó un sistema de cuerdas y poleas para generar y sumar parciales sinusoidales armónicos para la predicción de mareas futuras. En 1910, se construyó una máquina similar para el análisis de formas de onda periódicas del sonido. [47] El sintetizador dibujó un gráfico de la forma de onda combinada, que se utilizó principalmente para la validación visual del análisis. [47]
Georg Ohm aplicó la teoría de Fourier al sonido en 1843. La línea de trabajo fue muy avanzada por Hermann von Helmholtz , quien publicó sus ocho años de investigación en 1863. [48] Helmholtz creía que la percepción psicológica del color del tono está sujeta al aprendizaje, mientras que la audición en el sentido sensorial es puramente fisiológica. [49] Apoyó la idea de que la percepción del sonido deriva de señales de las células nerviosas de la membrana basilar y que los apéndices elásticos de estas células vibran simpáticamente por tonos sinusoidales puros de frecuencias apropiadas. [47] Helmholtz estuvo de acuerdo con el hallazgo de Ernst Chladni de 1787 de que ciertas fuentes de sonido tienen modos de vibración inarmónicos. [49]
En la época de Helmholtz, la amplificación electrónica no estaba disponible. Para la síntesis de tonos con parciales armónicos, Helmholtz construyó un conjunto de diapasones excitados eléctricamente y cámaras de resonancia acústica que permitían el ajuste de las amplitudes de los parciales. [50] Construidos al menos en 1862, [50] estos fueron a su vez refinados por Rudolph Koenig , quien demostró su propia configuración en 1872. [50] Para la síntesis armónica, Koenig también construyó un gran aparato basado en su sirena de ondas . Era neumático y utilizaba ruedas fónicas recortadas , y fue criticado por la baja pureza de sus tonos parciales. [44] Además, los tubos tibiales de los órganos de tubos tienen formas de onda casi sinusoidales y se pueden combinar a la manera de la síntesis aditiva. [44]
En 1938, con nuevas evidencias significativas de apoyo, [51] se informó en las páginas de Popular Science Monthly que las cuerdas vocales humanas funcionan como una sirena de incendios para producir un tono rico en armónicos, que luego es filtrado por el tracto vocal para producir diferentes tonos vocálicos. [52] En ese momento, el órgano aditivo Hammond ya estaba en el mercado. La mayoría de los primeros fabricantes de órganos electrónicos pensaron que era demasiado caro fabricar la pluralidad de osciladores requeridos por los órganos aditivos, y comenzaron en cambio a construir órganos sustractivos . [53] En una reunión del Institute of Radio Engineers de 1940 , el ingeniero de campo jefe de Hammond explicó que el nuevo Novachord de la compañía tenía un "sistema sustractivo" en contraste con el órgano Hammond original en el que "los tonos finales se construían combinando ondas sonoras" . [54] Alan Douglas usó los calificadores aditivo y sustractivo para describir diferentes tipos de órganos electrónicos en un documento de 1948 presentado a la Royal Musical Association . [55] La redacción contemporánea de síntesis aditiva y síntesis sustractiva se puede encontrar en su libro de 1957 La producción eléctrica de la música , en el que enumera categóricamente tres métodos de formación de colores tonales musicales, en secciones tituladas Síntesis aditiva , Síntesis sustractiva y Otras formas de combinaciones . [56]
Un sintetizador aditivo moderno típico produce su salida como una señal eléctrica analógica o como audio digital , como en el caso de los sintetizadores de software , que se hicieron populares alrededor del año 2000. [57]
A continuación se presenta una cronología de sintetizadores y dispositivos analógicos y digitales histórica y tecnológicamente notables que implementan síntesis aditiva.
Implementación o publicación de la investigación | Disponible comercialmente | Empresa o institución | Sintetizador o dispositivo de síntesis | Descripción | Muestras de audio |
---|---|---|---|---|---|
1900 [58] | 1906 [58] | Compañía de música eléctrica de Nueva Inglaterra | Telarmonio | El primer sintetizador musical polifónico sensible al tacto. [59] Implementó la síntesis aditiva sinusoidal utilizando ruedas fónicas y alternadores . Inventado por Thaddeus Cahill . | No se conocen grabaciones [58] |
1933 [60] | 1935 [60] | Compañía de órganos Hammond | Órgano Hammond | Un sintetizador aditivo electrónico que tuvo más éxito comercial que el Telharmonium. [59] Implementó la síntesis aditiva sinusoidal utilizando ruedas fónicas y pastillas magnéticas . Inventado por Laurens Hammond . | |
1950 o antes [31] | Laboratorios Haskins | Reproducción de patrones | Un sistema de síntesis de voz que controlaba las amplitudes de los armónicos parciales mediante un espectrograma dibujado a mano o el resultado de un análisis. Los armónicos parciales se generaban mediante una rueda fónica óptica multipista . [31] | muestras | |
1958 [61] | Respuesta | Un sintetizador aditivo [62] que reproducía partituras similares a espectrogramas microtonales utilizando múltiples ruedas tonales ópticas multipista . Inventado por Evgeny Murzin . Un instrumento similar que utilizaba osciladores electrónicos, el Oscillator Bank , y su dispositivo de entrada Spectrogram fueron creados por Hugh Le Caine en 1959. [63] [64] | |||
1963 [65] | Instituto Tecnológico de Massachusetts (MIT) | Un sistema fuera de línea para el análisis espectral digital y la resíntesis de las partes de ataque y estado estable de los timbres de instrumentos musicales por David Luce. [65] | |||
1964 [66] | Universidad de Illinois | Generador de tonos armónicos | Un sistema de síntesis aditiva armónica electrónica inventado por James Beauchamp. [66] [67] | muestras (info) | |
1974 o antes [68] [69] | 1974 [68] [69] | RMI | Sintetizador armónico | El primer producto sintetizador que implementó síntesis aditiva [70] usando osciladores digitales. [68] [69] El sintetizador también tenía un filtro analógico variable en el tiempo. [68] RMI era una subsidiaria de Allen Organ Company , que había lanzado el primer órgano de iglesia digital comercial , el Allen Computer Organ , en 1971, usando tecnología digital desarrollada por North American Rockwell . [71] | 1 2 3 4 |
1974 [72] | EMS (Londres) | Banco de osciladores digitales | Un banco de osciladores digitales con formas de onda arbitrarias, controles individuales de frecuencia y amplitud, [73] destinado a ser utilizado en análisis-resíntesis con el banco de filtros analizadores digitales (AFB) también construido en EMS. [72] [73] También conocido como: DOB . | en El nuevo sonido de la música [74] | |
1976 [75] | 1976 [76] | Luz justa | Qasar M8 | Un sintetizador totalmente digital que utiliza la transformada rápida de Fourier [77] para crear muestras a partir de envolventes de amplitud de armónicos dibujados de forma interactiva. [78] | muestras |
1977 [79] | Laboratorios Bell | Sintetizador digital | Un sintetizador aditivo digital en tiempo real [79] que ha sido llamado el primer sintetizador digital verdadero. [80] También conocido como: Alles Machine , Alice . | muestra (info) | |
1979 [80] | 1979 [80] | Nueva Inglaterra Digital | Sinclavier II | Un sintetizador digital comercial que permitió el desarrollo del timbre a lo largo del tiempo mediante suaves fundidos cruzados entre formas de onda generadas por síntesis aditiva. | |
1996 [81] | Kawaii | K5000 | Una estación de trabajo de sintetizador digital comercial capaz de realizar síntesis aditiva digital polifónica de hasta 128 ondas sinusoidales, así como peinar ondas PCM. [82] |
En las implementaciones digitales de síntesis aditiva, se utilizan ecuaciones de tiempo discreto en lugar de ecuaciones de síntesis de tiempo continuo. Una convención de notación para señales de tiempo discreto utiliza corchetes, es decir , y el argumento solo puede ser valores enteros. Si se espera que la salida de síntesis de tiempo continuo esté suficientemente limitada en banda ; por debajo de la mitad de la frecuencia de muestreo o , basta con muestrear directamente la expresión de tiempo continuo para obtener la ecuación de síntesis discreta. La salida de síntesis continua se puede reconstruir posteriormente a partir de las muestras utilizando un convertidor digital a analógico . El período de muestreo es .
Comenzando con ( 3 ),
y el muestreo en tiempos discretos da como resultado
dónde
Esto es equivalente a
dónde
y
El término "síntesis aditiva" se refiere al sonido que se forma sumando muchos componentes sinusoidales.
6. Modelado sinusoidal compuesto (CSM) En 1975, Itakura propuso el concepto de representación de espectro de línea (LSR) y su algoritmo para obtener un conjunto de parámetros para la nueva representación del espectro del habla. Independientemente de esto, Sagayama desarrolló un concepto de modelado sinusoidal compuesto (CSM) que es equivalente a LSR pero que ofrece una formulación, un algoritmo de resolución y un esquema de síntesis bastante diferentes. Sagayama aclaró la dualidad de LPC y CSM y proporcionó una visión unificada que abarca LPC, PARCOR, LSR, LSP y CSM. CSM no es solo un nuevo concepto de análisis del espectro del habla sino también una idea clave para comprender la predicción lineal desde un punto de vista unificado.
con una larga historia de uso en la síntesis de sonido para modelado físico, se basa en una descripción modal o de dominio de frecuencia de la vibración de objetos de geometría potencialmente compleja. La síntesis modal [1,148], como se la denomina, es atractiva, ya que el comportamiento dinámico complejo de un objeto vibrante se puede descomponer en contribuciones de un conjunto de modos (cuyas formas espaciales son funciones propias del problema particular en cuestión y dependen de las condiciones de contorno), cada uno de los cuales oscila a una única frecuencia compleja. ...(Ver también la página complementaria)
Cuando un objeto sólido se golpea, se raspa o se involucra en otras interacciones externas, las fuerzas en el punto de contacto provocan deformaciones que se propagan a través del cuerpo, lo que hace que sus superficies externas vibren y emitan ondas sonoras. ... Un buen modelo de síntesis motivado físicamente para objetos como este es la síntesis modal ... donde un objeto vibrante es modelado por un banco de osciladores armónicos amortiguados que son excitados por un estímulo externo.
{{cite journal}}
: Falta o está vacío |title=
( ayuda ) [ verificación fallida ]