La teoría de las funciones de creencia , también conocida como teoría de la evidencia o teoría de Dempster-Shafer ( DST ), es un marco general para razonar con incertidumbre, con conexiones entendidas con otros marcos como las teorías de probabilidad , posibilidad y probabilidad imprecisa . Introducida por primera vez por Arthur P. Dempster [1] en el contexto de la inferencia estadística , la teoría fue desarrollada más tarde por Glenn Shafer en un marco general para modelar la incertidumbre epistémica: una teoría matemática de la evidencia . [2] [3] La teoría permite combinar evidencia de diferentes fuentes y llegar a un grado de creencia (representado por un objeto matemático llamado función de creencia ) que tiene en cuenta toda la evidencia disponible.
En sentido estricto, el término teoría de Dempster-Shafer se refiere a la concepción original de la teoría de Dempster y Shafer. Sin embargo, es más común utilizar el término en el sentido más amplio del mismo enfoque general, adaptado a tipos específicos de situaciones. En particular, muchos autores han propuesto diferentes reglas para combinar evidencia, a menudo con la intención de manejar mejor los conflictos en la evidencia. [4] Las primeras contribuciones también han sido los puntos de partida de muchos desarrollos importantes, incluido el modelo de creencia transferible y la teoría de indicios. [5]
La teoría de Dempster-Shafer es una generalización de la teoría bayesiana de la probabilidad subjetiva . Las funciones de creencia basan los grados de creencia (o confianza) para una pregunta en las probabilidades subjetivas para una pregunta relacionada. Los grados de creencia en sí mismos pueden o no tener las propiedades matemáticas de las probabilidades; cuánto difieren depende de cuán estrechamente relacionadas estén las dos preguntas. [6] Dicho de otro modo, es una forma de representar plausibilidades epistémicas , pero puede producir respuestas que contradigan las obtenidas utilizando la teoría de la probabilidad .
La teoría de Dempster-Shafer, que suele emplearse como método de fusión de sensores , se basa en dos ideas: la obtención de grados de creencia para una pregunta a partir de probabilidades subjetivas para una pregunta relacionada, y la regla de Dempster [7] para combinar dichos grados de creencia cuando se basan en elementos de evidencia independientes. En esencia, el grado de creencia en una proposición depende principalmente del número de respuestas (a las preguntas relacionadas) que contienen la proposición y de la probabilidad subjetiva de cada respuesta. También contribuyen las reglas de combinación que reflejan suposiciones generales sobre los datos.
En este formalismo, un grado de creencia (también denominado masa ) se representa como una función de creencia en lugar de una distribución de probabilidad bayesiana . Los valores de probabilidad se asignan a conjuntos de posibilidades en lugar de a eventos individuales: su atractivo radica en el hecho de que codifican naturalmente evidencia a favor de las proposiciones.
La teoría de Dempster-Shafer asigna sus masas a todos los subconjuntos del conjunto de estados de un sistema (en términos de la teoría de conjuntos , el conjunto potencia de los estados). Por ejemplo, supongamos una situación en la que hay dos estados posibles de un sistema. Para este sistema, cualquier función de creencia asigna masa al primer estado, al segundo, a ambos y a ninguno.
El formalismo de Shafer parte de un conjunto de posibilidades en consideración, por ejemplo, valores numéricos de una variable o pares de variables lingüísticas como "fecha y lugar de origen de una reliquia" (preguntándose si es antigua o una falsificación reciente). Una hipótesis está representada por un subconjunto de este marco de discernimiento , como "(dinastía Ming, China)", o "(siglo XIX, Alemania)". [2] : p.35f.
El marco de Shafer permite representar la creencia sobre tales proposiciones como intervalos, delimitados por dos valores, creencia (o apoyo ) y plausibilidad :
En un primer paso, se asignan probabilidades subjetivas ( masas ) a todos los subconjuntos del marco; por lo general, solo un número restringido de conjuntos tendrá masa distinta de cero ( elementos focales ). [2] : 39f. La creencia en una hipótesis está constituida por la suma de las masas de todos los subconjuntos del conjunto de hipótesis. Es la cantidad de creencia que apoya directamente la hipótesis dada o una más específica, formando así un límite inferior en su probabilidad. La creencia (generalmente denotada Bel ) mide la fuerza de la evidencia a favor de una proposición p . Varía de 0 (que indica que no hay evidencia) a 1 (que denota certeza). La plausibilidad es 1 menos la suma de las masas de todos los conjuntos cuya intersección con la hipótesis está vacía. O bien, se puede obtener como la suma de las masas de todos los conjuntos cuya intersección con la hipótesis no está vacía. Es un límite superior en la posibilidad de que la hipótesis pueda ser verdadera, porque solo hay una cierta cantidad de evidencia que contradice esa hipótesis. La plausibilidad (denotada por Pl) está relacionada con Bel por Pl( p ) = 1 − Bel(~ p ). También varía de 0 a 1 y mide hasta qué punto la evidencia a favor de ~ p deja lugar para creer en p .
Por ejemplo, supongamos que tenemos una creencia de 0,5 para una proposición, por ejemplo, "el gato en la caja está muerto". Esto significa que tenemos evidencia que nos permite afirmar firmemente que la proposición es verdadera con una confianza de 0,5. Sin embargo, la evidencia contraria a esa hipótesis (es decir, "el gato está vivo") solo tiene una confianza de 0,2. La masa restante de 0,3 (la brecha entre la evidencia de apoyo de 0,5 por un lado, y la evidencia contraria de 0,2 por el otro) es "indeterminada", lo que significa que el gato podría estar vivo o muerto. Este intervalo representa el nivel de incertidumbre basado en la evidencia en el sistema.
Hipótesis | Masa | Creencia | Plausibilidad |
---|---|---|---|
Ni (vivo ni muerto) | 0 | 0 | 0 |
Vivo | 0,2 | 0,2 | 0,5 |
Muerto | 0,5 | 0,5 | 0,8 |
Ya sea (vivo o muerto) | 0.3 | 1.0 | 1.0 |
La hipótesis "ninguna" se establece en cero por definición (corresponde a "ninguna solución"). Las hipótesis ortogonales "vivo" y "muerto" tienen probabilidades de 0,2 y 0,5, respectivamente. Esto podría corresponder a las señales del "detector de gatos vivos/muertos", que tienen una fiabilidad respectiva de 0,2 y 0,5. Por último, la hipótesis "cualquiera" que lo abarca todo (que simplemente reconoce que hay un gato en la caja) toma el relevo de modo que la suma de las masas es 1. La creencia en las hipótesis "vivo" y "muerto" coincide con sus masas correspondientes porque no tienen subconjuntos; la creencia en "cualquiera" consiste en la suma de las tres masas (cualquiera, vivo y muerto) porque "vivo" y "muerto" son cada uno subconjuntos de "cualquiera". La plausibilidad de "Vivo" es 1 − m (Muerto): 0,5 y la plausibilidad de "Muerto" es 1 − m (Vivo): 0,8. En otras palabras, la plausibilidad de "Vivo" es m (Vivo) + m (Cualquiera) y la plausibilidad de "Muerto" es m (Muerto) + m (Cualquiera). Finalmente, la plausibilidad de "Cualquiera" suma m (Vivo) + m (Muerto) + m (Cualquiera). La hipótesis universal ("Cualquiera") siempre tendrá un 100 % de credibilidad y plausibilidad; actúa como una especie de suma de comprobación .
He aquí un ejemplo un poco más elaborado en el que empieza a surgir el comportamiento de la creencia y la plausibilidad. Estamos observando a través de una variedad de sistemas de detección una única señal luminosa lejana, que sólo puede tener uno de tres colores (rojo, amarillo o verde):
Hipótesis | Masa | Creencia | Plausibilidad |
---|---|---|---|
Ninguno | 0 | 0 | 0 |
Rojo | 0,35 | 0,35 | 0,56 |
Amarillo | 0,25 | 0,25 | 0,45 |
Verde | 0,15 | 0,15 | 0,34 |
Rojo o amarillo | 0,06 | 0,66 | 0,85 |
Rojo o verde | 0,05 | 0,55 | 0,75 |
Amarillo o verde | 0,04 | 0,44 | 0,65 |
Cualquier | 0,1 | 1.0 | 1.0 |
Los eventos de este tipo no se modelarían como entidades distintas en el espacio de probabilidad como lo son aquí en el espacio de asignación de masa. En cambio, el evento "Rojo o Amarillo" se consideraría como la unión de los eventos "Rojo" y "Amarillo", y (ver axiomas de probabilidad ) P (Rojo o Amarillo) ≥ P (Amarillo), y P (Cualquiera) = 1, donde Cualquiera se refiere a Rojo o Amarillo o Verde . En DST, la masa asignada a Cualquiera se refiere a la proporción de evidencia que no se puede asignar a ninguno de los otros estados, lo que aquí significa evidencia que dice que hay una luz pero no dice nada sobre qué color es. En este ejemplo, a la proporción de evidencia que muestra que la luz es Roja o Verde se le asigna una masa de 0,05. Dicha evidencia podría, por ejemplo, obtenerse de una persona daltónica R/G. DST nos permite extraer el valor de la evidencia de este sensor. Además, en DST se considera que el conjunto vacío tiene masa cero, lo que significa que el sistema de luz de señal existe y estamos examinando sus posibles estados, no especulando sobre si existe o no.
Las creencias de diferentes fuentes se pueden combinar con varios operadores de fusión para modelar situaciones específicas de fusión de creencias, por ejemplo, con la regla de combinación de Dempster, que combina restricciones de creencias [8] que están dictadas por fuentes de creencias independientes, como en el caso de la combinación de indicios [5] o la combinación de preferencias. [9] Nótese que las masas de probabilidad de proposiciones que se contradicen entre sí se pueden utilizar para obtener una medida de conflicto entre las fuentes de creencias independientes. Otras situaciones se pueden modelar con diferentes operadores de fusión, como la fusión acumulativa de creencias de fuentes independientes, que se puede modelar con el operador de fusión acumulativa. [10]
La regla de combinación de Dempster se interpreta a veces como una generalización aproximada de la regla de Bayes . En esta interpretación, no es necesario especificar los valores previos y condicionales, a diferencia de los métodos bayesianos tradicionales, que a menudo utilizan un argumento de simetría (error minimax) para asignar probabilidades previas a variables aleatorias ( por ejemplo, asignar 0,5 a valores binarios para los que no hay información disponible sobre cuál es más probable). Sin embargo, cualquier información contenida en los valores previos y condicionales faltantes no se utiliza en la regla de combinación de Dempster a menos que se pueda obtener indirectamente y, posiblemente, esté disponible para el cálculo utilizando ecuaciones de Bayes.
La teoría de Dempster-Shafer permite especificar un grado de ignorancia en esta situación en lugar de verse obligado a proporcionar probabilidades previas que sumen la unidad. Este tipo de situación, y la cuestión de si existe una distinción real entre riesgo e ignorancia , ha sido ampliamente discutida por estadísticos y economistas. Véanse, por ejemplo, las opiniones contrastantes de Daniel Ellsberg , Howard Raiffa , Kenneth Arrow y Frank Knight . [ cita requerida ]
Sea X el universo : el conjunto que representa todos los estados posibles de un sistema en consideración. El conjunto potencia
es el conjunto de todos los subconjuntos de X , incluido el conjunto vacío . Por ejemplo, si:
entonces
Los elementos del conjunto potencia pueden tomarse para representar proposiciones concernientes al estado real del sistema, al contener todos y sólo los estados en los que la proposición es verdadera.
La teoría de la evidencia asigna una masa de creencias a cada elemento del conjunto de potencias. Formalmente, una función
Se denomina asignación de creencia básica (BBA) cuando tiene dos propiedades. En primer lugar, la masa del conjunto vacío es cero:
En segundo lugar, las masas de todos los miembros del conjunto potencia suman un total de 1:
La masa m ( A ) de A , un miembro dado del conjunto de potencias, expresa la proporción de toda la evidencia relevante y disponible que respalda la afirmación de que el estado actual pertenece a A pero a ningún subconjunto particular de A . El valor de m ( A ) pertenece solo al conjunto A y no hace afirmaciones adicionales sobre ningún subconjunto de A , cada uno de los cuales tiene, por definición, su propia masa.
A partir de las asignaciones de masas, se pueden definir los límites superior e inferior de un intervalo de probabilidad. Este intervalo contiene la probabilidad precisa de un conjunto de interés (en el sentido clásico) y está limitado por dos medidas continuas no aditivas llamadas creencia (o apoyo ) y plausibilidad :
La creencia bel( A ) para un conjunto A se define como la suma de todas las masas de los subconjuntos del conjunto de interés:
La plausibilidad pl( A ) es la suma de todas las masas de los conjuntos B que intersecan al conjunto de interés A :
Las dos medidas están relacionadas entre sí de la siguiente manera:
Y a la inversa, para A finito , dada la medida de creencia bel( B ) para todos los subconjuntos B de A , podemos encontrar las masas m ( A ) con la siguiente función inversa:
donde | A − B | es la diferencia de las cardinalidades de los dos conjuntos. [4]
De las dos últimas ecuaciones se desprende que , para un conjunto finito X , es necesario conocer sólo una de las tres (masa, creencia o plausibilidad) para deducir las otras dos; aunque puede ser necesario conocer los valores de muchos conjuntos para calcular uno de los otros valores para un conjunto particular. En el caso de un X infinito , puede haber funciones de creencia y plausibilidad bien definidas, pero no una función de masa bien definida. [11]
El problema al que nos enfrentamos ahora es cómo combinar dos conjuntos independientes de asignaciones de masa de probabilidad en situaciones específicas. En caso de que diferentes fuentes expresen sus creencias sobre el marco en términos de restricciones de creencias, como en el caso de dar pistas o en el caso de expresar preferencias, entonces la regla de combinación de Dempster es el operador de fusión apropiado. Esta regla deriva la creencia compartida común entre múltiples fuentes e ignora todas las creencias conflictivas (no compartidas) a través de un factor de normalización. El uso de esa regla en otras situaciones que no sean la de combinar restricciones de creencias ha sido objeto de serias críticas, como en el caso de fusionar estimaciones de creencias separadas de múltiples fuentes que se deben integrar de manera acumulativa y no como restricciones. La fusión acumulativa significa que todas las masas de probabilidad de las diferentes fuentes se reflejan en la creencia derivada, por lo que no se ignora ninguna masa de probabilidad.
En concreto, la combinación (denominada masa conjunta ) se calcula a partir de los dos conjuntos de masas m 1 y m 2 de la siguiente manera:
dónde
K es una medida de la cantidad de conflicto entre los dos conjuntos de masas.
El factor de normalización anterior, 1 − K , tiene el efecto de ignorar por completo el conflicto y atribuir cualquier masa asociada con el conflicto al conjunto vacío. Por lo tanto, esta regla de combinación para la evidencia puede producir resultados contraintuitivos, como mostramos a continuación.
El siguiente ejemplo muestra cómo la regla de Dempster produce resultados intuitivos cuando se aplica en una situación de fusión de preferencias, incluso cuando hay un alto nivel de conflicto.
Lotfi Zadeh introdujo en 1979 un ejemplo con exactamente los mismos valores numéricos [12] [13] [14] para señalar los resultados contraintuitivos generados por la regla de Dempster cuando hay un alto grado de conflicto. El ejemplo es el siguiente:
Este resultado va en contra del sentido común, ya que ambos médicos coinciden en que hay pocas posibilidades de que el paciente tenga meningitis. Este ejemplo ha sido el punto de partida de muchos trabajos de investigación para intentar encontrar una justificación sólida de la regla de Dempster y de los fundamentos de la teoría de Dempster-Shafer [15] [16] o para demostrar las inconsistencias de esta teoría. [17] [18] [19]
El siguiente ejemplo muestra dónde la regla de Dempster produce un resultado contra-intuitivo, incluso cuando hay poco conflicto.
Este resultado implica un apoyo total al diagnóstico de un tumor cerebral, que ambos médicos consideraban muy probable . El acuerdo surge del bajo grado de conflicto entre los dos conjuntos de evidencias que comprenden las opiniones de los dos médicos.
En cualquier caso, sería razonable esperar que:
ya que la existencia de probabilidades de creencia distintas de cero para otros diagnósticos implica un apoyo menos que completo al diagnóstico de tumor cerebral.
Al igual que en la teoría de Dempster-Shafer, una función de creencia bayesiana tiene las propiedades y . Sin embargo, la tercera condición está incluida en la teoría de DS, pero se relaja: [2] : p. 19
Cualquiera de las siguientes condiciones implica el caso especial bayesiano de la teoría DS: [2] : p. 37, 45
Como ejemplo de cómo difieren los dos enfoques, un bayesiano podría modelar el color de un automóvil como una distribución de probabilidad sobre (rojo, verde, azul), asignando un número a cada color. Dempster-Shafer asignaría números a cada uno de (rojo, verde, azul, (rojo o verde), (rojo o azul), (verde o azul), (rojo o verde o azul)). Estos números no tienen que ser coherentes; por ejemplo, Bel(rojo)+Bel(verde) no tiene que ser igual a Bel(rojo o verde).
Por lo tanto, la probabilidad condicional de Bayes puede considerarse como un caso especial de la regla de combinación de Dempster. [2] : p. 19f. Sin embargo, carece de muchas (si no la mayoría) de las propiedades que hacen que la regla de Bayes sea intuitivamente deseable, lo que lleva a algunos a argumentar que no puede considerarse una generalización en ningún sentido significativo. [20] Por ejemplo, la teoría DS viola los requisitos del teorema de Cox , lo que implica que no puede considerarse una generalización coherente (libre de contradicciones) de la lógica clásica —específicamente, la teoría DS viola el requisito de que una afirmación sea verdadera o falsa (pero no ambas). Como resultado, la teoría DS está sujeta al argumento del Libro Holandés , lo que implica que cualquier agente que use la teoría DS aceptaría una serie de apuestas que resultan en una pérdida garantizada.
La aproximación bayesiana [21] [22] reduce un bpa dado a una distribución de probabilidad (discreta), es decir, solo los subconjuntos singleton del marco de discernimiento pueden ser elementos focales de la versión aproximada de :
Es útil para aquellos que sólo están interesados en la hipótesis del estado único.
Podemos realizarlo en el ejemplo 'luz'.
Hipótesis | ||||||
---|---|---|---|---|---|---|
Ninguno | 0 | 0 | 0 | 0 | 0 | 0 |
Rojo | 0,35 | 0,11 | 0,32 | 0,41 | 0,30 | 0,37 |
Amarillo | 0,25 | 0,21 | 0,33 | 0,33 | 0,38 | 0,38 |
Verde | 0,15 | 0,33 | 0,24 | 0,25 | 0,32 | 0,25 |
Rojo o amarillo | 0,06 | 0,21 | 0,07 | 0 | 0 | 0 |
Rojo o verde | 0,05 | 0,01 | 0,01 | 0 | 0 | 0 |
Amarillo o verde | 0,04 | 0,03 | 0,01 | 0 | 0 | 0 |
Cualquier | 0,1 | 0,1 | 0,02 | 0 | 0 | 0 |
Judea Pearl (1988a, capítulo 9; [23] 1988b [24] y 1990) [25] ha argumentado que es engañoso interpretar las funciones de creencia como si representaran "probabilidades de un evento", o "la confianza que uno tiene en las probabilidades asignadas a varios resultados", o "grados de creencia (o confianza, o seguridad) en una proposición", o "grado de ignorancia en una situación". En cambio, las funciones de creencia representan la probabilidad de que una proposición dada sea demostrable a partir de un conjunto de otras proposiciones, a las que se asignan probabilidades. Confundir probabilidades de verdad con probabilidades de demostrabilidad puede llevar a resultados contraintuitivos en tareas de razonamiento como (1) representar conocimiento incompleto, (2) actualización de creencias y (3) agrupación de evidencia. Además demostró que, si el conocimiento parcial se codifica y actualiza mediante métodos de función de creencia, las creencias resultantes no pueden servir como base para decisiones racionales.
Kłopotek y Wierzchoń [26] propusieron interpretar la teoría de Dempster-Shafer en términos de estadísticas de tablas de decisión (de la teoría de conjuntos aproximados ), por lo que el operador de combinación de evidencia debe verse como una unión relacional de tablas de decisión. En otra interpretación, MA Kłopotek y ST Wierzchoń [27] proponen ver esta teoría como una descripción del procesamiento destructivo de materiales (con pérdida de propiedades), por ejemplo, como en algunos procesos de producción de semiconductores. Bajo ambas interpretaciones, el razonamiento en DST da resultados correctos, al contrario de las interpretaciones probabilísticas anteriores, criticadas por Pearl en los artículos citados y por otros investigadores.
Jøsang demostró que la regla de combinación de Dempster es en realidad un método para fusionar restricciones de creencias. [8] Solo representa un operador de fusión aproximado en otras situaciones, como la fusión acumulativa de creencias, pero generalmente produce resultados incorrectos en tales situaciones. Por lo tanto, la confusión en torno a la validez de la regla de Dempster se origina en la falla de la interpretación correcta de la naturaleza de las situaciones que se van a modelar. La regla de combinación de Dempster siempre produce resultados correctos e intuitivos en situaciones de fusión de restricciones de creencias de diferentes fuentes.
Al considerar las preferencias, se podría utilizar el orden parcial de una red en lugar del orden total de la línea real, como se encuentra en la teoría de Dempster-Schafer. De hecho, Gunther Schmidt ha propuesto esta modificación y ha esbozado el método. [28]
Dado un conjunto de criterios C y una red acotada L con ordenamiento ≤, Schmidt define una medida relacional como una función μ del conjunto potencia de C en L que respeta el orden ⊆ en ( C ):
y tal que μ lleva el subconjunto vacío de ( C ) al menor elemento de L , y lleva C al mayor elemento de L .
Schmidt compara μ con la función de creencia de Schafer, y también considera un método de combinación de medidas que generaliza el enfoque de Dempster (cuando se combina nueva evidencia con evidencia previamente existente). También introduce una integral relacional y la compara con la integral de Choquet y la integral de Sugeno . Cualquier relación m entre C y L puede introducirse como una "valoración directa", y luego procesarse con el cálculo de relaciones para obtener una medida de posibilidad μ .