Índice de diversidad

¿Cuántos tipos diferentes hay en un conjunto de datos?

Un índice de diversidad es un método para medir cuántos tipos diferentes (por ejemplo, especies ) hay en un conjunto de datos (por ejemplo, una comunidad). Algunos índices más sofisticados también tienen en cuenta la relación filogenética entre los tipos. [1] Los índices de diversidad son representaciones estadísticas de diferentes aspectos de la biodiversidad (por ejemplo, riqueza , uniformidad y dominancia ), que son simplificaciones útiles para comparar diferentes comunidades o sitios.

Número efectivo de especies o números de Hill

Cuando se utilizan índices de diversidad en ecología , los tipos de interés suelen ser especies, pero también pueden ser otras categorías, como géneros , familias , tipos funcionales o haplotipos . Las entidades de interés suelen ser organismos individuales (p. ej. plantas o animales), y la medida de abundancia puede ser, por ejemplo, número de individuos, biomasa o cobertura. En demografía , las entidades de interés pueden ser personas, y los tipos de interés diversos grupos demográficos. En ciencias de la información , las entidades pueden ser caracteres y los tipos de las distintas letras del alfabeto. Los índices de diversidad más utilizados son transformaciones simples del número efectivo de tipos (también conocido como 'diversidad verdadera'), pero cada índice de diversidad también puede interpretarse por derecho propio como una medida correspondiente a algún fenómeno real (pero uno diferente para cada índice de diversidad). [2] [3] [4] [5]

Muchos índices sólo tienen en cuenta la diversidad categórica entre sujetos o entidades. Sin embargo, estos índices no tienen en cuenta la variación total (diversidad) que puede existir entre sujetos o entidades, que sólo se produce cuando se calculan tanto la diversidad categórica como la cualitativa.

La diversidad verdadera, o el número efectivo de tipos, se refiere al número de tipos igualmente abundantes necesarios para que la abundancia proporcional promedio de los tipos sea igual a la observada en el conjunto de datos de interés (donde todos los tipos pueden no ser igualmente abundantes). La diversidad verdadera en un conjunto de datos se calcula tomando primero la media generalizada ponderada M q −1 de las abundancias proporcionales de los tipos en el conjunto de datos y luego tomando el recíproco de esto. La ecuación es: [4] [5]

q D = 1 M q 1 = 1 i = 1 R p i p i q 1 q 1 = ( i = 1 R p i q ) 1 / ( 1 q ) {\displaystyle {}^{q}\!D={1 \over M_{q-1}}={1 \over {\sqrt[{q-1}]{\sum _{i=1}^{R}p_{i}p_{i}^{q-1}}}}=\left({\sum _{i=1}^{R}p_{i}^{q}}\right)^{1/(1-q)}}

El denominador M q −1 es igual a la abundancia proporcional promedio de los tipos en el conjunto de datos, calculada con la media generalizada ponderada con exponente q  − 1 . En la ecuación, R es la riqueza (el número total de tipos en el conjunto de datos) y la abundancia proporcional del i ésimo tipo es p i . Las abundancias proporcionales en sí mismas se utilizan como pesos nominales. Los números se denominan números de Hill de orden q o número efectivo de especies . [6] q D {\displaystyle ^{q}D}

Cuando q = 1 , la ecuación anterior no está definida. Sin embargo, el límite matemático cuando q se acerca a 1 está bien definido y la diversidad correspondiente se calcula con la siguiente ecuación:

1 D = 1 i = 1 R p i p i = exp ( i = 1 R p i ln ( p i ) ) {\displaystyle {}^{1}\!D={1 \over {\prod _{i=1}^{R}p_{i}^{p_{i}}}}=\exp \left(-\sum _{i=1}^{R}p_{i}\ln(p_{i})\right)}

que es el exponencial de la entropía de Shannon calculado con logaritmos naturales (ver arriba). En otros dominios, esta estadística también se conoce como perplejidad .

La ecuación general de diversidad a menudo se escribe en la forma [2] [3]

q D = ( i = 1 R p i q ) 1 / ( 1 q ) {\displaystyle {}^{q}\!D=\left({\sum _{i=1}^{R}p_{i}^{q}}\right)^{1/(1-q)}}

y el término dentro de los paréntesis se llama suma básica. Algunos índices de diversidad populares corresponden a la suma básica calculada con diferentes valores de q . [3]

Sensibilidad del valor de diversidad a especies raras vs. abundantes

El valor de q se suele denominar orden de la diversidad. Define la sensibilidad de la diversidad real a las especies raras frente a las abundantes modificando el modo en que se calcula la media ponderada de las abundancias proporcionales de las especies. Con algunos valores del parámetro q , el valor de la media generalizada M q −1 asume tipos familiares de medias ponderadas como casos especiales. En particular,

  • q = 0 corresponde a la media armónica ponderada ,
  • q = 1 a la media geométrica ponderada , y
  • q = 2 a la media aritmética ponderada .
  • A medida que q se acerca al infinito , la media generalizada ponderada con exponente q  − 1 se acerca al valor máximo p i , que es la abundancia proporcional de las especies más abundantes en el conjunto de datos.

En general, al aumentar el valor de q se incrementa el peso efectivo otorgado a las especies más abundantes. Esto lleva a obtener un valor M q −1 mayor y un valor de diversidad verdadera ( q D ) menor al aumentar q .

Cuando q = 1 , se utiliza la media geométrica ponderada de los valores p i y cada especie se pondera exactamente por su abundancia proporcional (en la media geométrica ponderada, los pesos son los exponentes). Cuando q > 1 , el peso dado a las especies abundantes es exagerado, y cuando q < 1 , el peso dado a las especies raras es. En q = 0 , los pesos de las especies cancelan exactamente las abundancias proporcionales de las especies, de modo que la media ponderada de los valores p i es igual a 1 / R incluso cuando no todas las especies son igualmente abundantes. En q = 0 , el número efectivo de especies, 0 D , es por tanto igual al número real de especies R. En el contexto de la diversidad, q se limita generalmente a valores no negativos. Esto se debe a que los valores negativos de q darían a las especies raras mucho más peso que a las abundantes, por lo que q D superaría a R. [4] [5]

Riqueza

La riqueza R simplemente cuantifica cuántos tipos diferentes contiene el conjunto de datos de interés. Por ejemplo, la riqueza de especies (generalmente notada como S ) es simplemente el número de especies, por ejemplo, en un sitio en particular. La riqueza es una medida simple, por lo que ha sido un índice de diversidad popular en ecología, donde los datos de abundancia a menudo no están disponibles. [7] Si la diversidad real se calcula con q = 0 , el número efectivo de tipos ( 0 D ) es igual al número real de tipos, que es idéntico a la riqueza ( R ). [3] [5]

Índice de Shannon

El índice de Shannon ha sido un índice de diversidad popular en la literatura ecológica, donde también se lo conoce como índice de diversidad de Shannon , índice de Shannon- Wiener y (erróneamente) índice de Shannon- Weaver . [8] La medida fue propuesta originalmente por Claude Shannon en 1948 para cuantificar la entropía (de ahí la entropía de Shannon , relacionada con el contenido de información de Shannon ) en cadenas de texto. [9] La idea es que cuantas más letras haya y cuanto más cercanas sean sus abundancias proporcionales en la cadena de interés, más difícil será predecir correctamente qué letra será la siguiente en la cadena. La entropía de Shannon cuantifica la incertidumbre (entropía o grado de sorpresa) asociada con esta predicción. La mayoría de las veces se calcula de la siguiente manera:

H = i = 1 R p i ln p i {\displaystyle H'=-\sum _{i=1}^{R}p_{i}\ln p_{i}}

donde p i es la proporción de caracteres que pertenecen al tipo i de letra en la cadena de interés. En ecología, p i suele ser la proporción de individuos que pertenecen a la especie i en el conjunto de datos de interés. Luego, la entropía de Shannon cuantifica la incertidumbre en la predicción de la identidad de especie de un individuo que se toma al azar del conjunto de datos.

Aunque la ecuación está escrita aquí con logaritmos naturales, la base del logaritmo utilizado al calcular la entropía de Shannon se puede elegir libremente. El propio Shannon discutió las bases logarítmicas 2, 10 y e , y estas se han convertido desde entonces en las bases más populares en aplicaciones que utilizan la entropía de Shannon. Cada base logarítmica corresponde a una unidad de medida diferente, que se ha llamado dígitos binarios (bits), dígitos decimales (decits) y dígitos naturales (nats) para las bases 2, 10 y e , respectivamente. La comparación de los valores de la entropía de Shannon que se calcularon originalmente con diferentes bases logarítmicas requiere convertirlos a la misma base logarítmica: el cambio de la base a a la base b se obtiene con la multiplicación por log b a . [9]

El índice de Shannon ( H' ) está relacionado con la media geométrica ponderada de las abundancias proporcionales de los tipos. Específicamente, es igual al logaritmo de la diversidad verdadera, calculado con q = 1 : [4]

H = i = 1 R p i ln p i = i = 1 R ln p i p i {\displaystyle H'=-\sum _{i=1}^{R}p_{i}\ln p_{i}=-\sum _{i=1}^{R}\ln p_{i}^{p_{i}}}

Esto también se puede escribir

H = ( ln p 1 p 1 + ln p 2 p 2 + ln p 3 p 3 + + ln p R p R ) {\displaystyle H'=-(\ln p_{1}^{p_{1}}+\ln p_{2}^{p_{2}}+\ln p_{3}^{p_{3}}+\cdots +\ln p_{R}^{p_{R}})}

Lo cual es igual

H = ln p 1 p 1 p 2 p 2 p 3 p 3 p R p R = ln ( 1 p 1 p 1 p 2 p 2 p 3 p 3 p R p R ) = ln ( 1 i = 1 R p i p i ) {\displaystyle H'=-\ln p_{1}^{p_{1}}p_{2}^{p_{2}}p_{3}^{p_{3}}\cdots p_{R}^{p_{R}}=\ln \left({1 \over p_{1}^{p_{1}}p_{2}^{p_{2}}p_{3}^{p_{3}}\cdots p_{R}^{p_{R}}}\right)=\ln \left({1 \over {\prod _{i=1}^{R}p_{i}^{p_{i}}}}\right)}

Como la suma de los valores p i es igual a 1 por definición, el denominador es igual a la media geométrica ponderada de los valores p i , y los valores p i se utilizan como ponderaciones (exponentes en la ecuación). Por lo tanto, el término dentro de los paréntesis es igual a la diversidad verdadera 1 D , y H' es igual a ln( 1 D ) . [2] [4] [5]

Cuando todos los tipos en el conjunto de datos de interés son igualmente comunes, todos los valores p i son iguales a 1 / R , y el índice de Shannon toma, por lo tanto, el valor ln( R ) . Cuanto más desiguales sean las abundancias de los tipos, mayor será la media geométrica ponderada de los valores p i y menor la entropía de Shannon correspondiente. Si prácticamente toda la abundancia se concentra en un tipo, y los otros tipos son muy raros (aunque haya muchos de ellos), la entropía de Shannon se acerca a cero. Cuando solo hay un tipo en el conjunto de datos, la entropía de Shannon es exactamente igual a cero (no hay incertidumbre en la predicción del tipo de la siguiente entidad elegida aleatoriamente).

En el aprendizaje automático, el índice de Shannon también se denomina ganancia de información .

Entropía de Rényi

La entropía de Rényi es una generalización de la entropía de Shannon a otros valores de q distintos de 1. Puede expresarse:

q H = 1 1 q ln ( i = 1 R p i q ) {\displaystyle {}^{q}H={\frac {1}{1-q}}\;\ln \left(\sum _{i=1}^{R}p_{i}^{q}\right)}

Lo cual es igual

q H = ln ( 1 i = 1 R p i p i q 1 q 1 ) = ln ( q D ) {\displaystyle {}^{q}H=\ln \left({1 \over {\sqrt[{q-1}]{\sum _{i=1}^{R}p_{i}p_{i}^{q-1}}}}\right)=\ln({}^{q}\!D)}

Esto significa que tomar el logaritmo de la diversidad verdadera basado en cualquier valor de q da la entropía de Rényi correspondiente al mismo valor de q .

Índice Simpson

El índice de Simpson fue introducido en 1949 por Edward H. Simpson para medir el grado de concentración cuando los individuos se clasifican en tipos. [10] El mismo índice fue redescubierto por Orris C. Herfindahl en 1950. [11] La raíz cuadrada del índice ya había sido introducida en 1945 por el economista Albert O. Hirschman . [12] Como resultado, la misma medida suele conocerse como el índice de Simpson en ecología, y como el índice de Herfindahl o el índice de Herfindahl-Hirschman (HHI) en economía.

La medida es igual a la probabilidad de que dos entidades tomadas al azar del conjunto de datos de interés representen el mismo tipo. [10] Es igual a:

λ = i = 1 R p i 2 , {\displaystyle \lambda =\sum _{i=1}^{R}p_{i}^{2},}

donde R es la riqueza (el número total de tipos en el conjunto de datos). Esta ecuación también es igual a la media aritmética ponderada de las abundancias proporcionales p i de los tipos de interés, y las abundancias proporcionales mismas se utilizan como ponderaciones. [2] Las abundancias proporcionales están, por definición, restringidas a valores entre cero y uno, pero es una media aritmética ponderada, por lo tanto, λ ≥ 1/ R , que se alcanza cuando todos los tipos son igualmente abundantes.

Comparando la ecuación utilizada para calcular λ con las ecuaciones utilizadas para calcular la diversidad verdadera, se puede ver que 1/λ es igual a 2 D , es decir, la diversidad verdadera calculada con q = 2 . Por lo tanto, el índice de Simpson original es igual a la suma básica correspondiente. [3]

La interpretación de λ como la probabilidad de que dos entidades tomadas al azar del conjunto de datos de interés representen el mismo tipo supone que la primera entidad se reemplaza en el conjunto de datos antes de tomar la segunda entidad. Si el conjunto de datos es muy grande, el muestreo sin reemplazo da aproximadamente el mismo resultado, pero en conjuntos de datos pequeños, la diferencia puede ser sustancial. Si el conjunto de datos es pequeño y se supone un muestreo sin reemplazo, la probabilidad de obtener el mismo tipo con ambas extracciones aleatorias es:

= i = 1 R n i ( n i 1 ) N ( N 1 ) {\displaystyle \ell ={\frac {\sum _{i=1}^{R}n_{i}(n_{i}-1)}{N(N-1)}}}

donde n i es el número de entidades que pertenecen al tipo i y N es el número total de entidades en el conjunto de datos. [10] Esta forma del índice de Simpson también se conoce como el índice de Hunter-Gaston en microbiología. [13]

Dado que la abundancia proporcional media de los tipos aumenta con la disminución del número de tipos y el aumento de la abundancia del tipo más abundante, λ obtiene valores pequeños en conjuntos de datos de alta diversidad y valores grandes en conjuntos de datos de baja diversidad. Este es un comportamiento contraintuitivo para un índice de diversidad, por lo que a menudo se han utilizado en su lugar transformaciones de λ que aumentan con el aumento de la diversidad. Los más populares de estos índices han sido el índice de Simpson inverso (1/λ) y el índice de Gini -Simpson (1 − λ). [2] [3] Ambos también se han denominado índice de Simpson en la literatura ecológica, por lo que se debe tener cuidado para evitar comparar accidentalmente los diferentes índices como si fueran el mismo.

Índice de Simpson inverso

El índice de Simpson inverso es igual a:

1 λ = 1 i = 1 R p i 2 = 2 D {\displaystyle {\frac {1}{\lambda }}={1 \over \sum _{i=1}^{R}p_{i}^{2}}={}^{2}D}

Esto simplemente equivale a una diversidad real de orden 2, es decir, el número efectivo de tipos que se obtiene cuando se utiliza la media aritmética ponderada para cuantificar la abundancia proporcional promedio de tipos en el conjunto de datos de interés.

El índice también se utiliza como medida del número efectivo de partidos .

Índice de Gini-Simpson

El índice de Gini-Simpson también se denomina impureza de Gini o índice de diversidad de Gini [14] en el campo del aprendizaje automático . El índice de Simpson original λ es igual a la probabilidad de que dos entidades tomadas al azar del conjunto de datos de interés (con reemplazo) representen el mismo tipo. Su transformación 1 − λ, por lo tanto, es igual a la probabilidad de que las dos entidades representen tipos diferentes. Esta medida también se conoce en ecología como probabilidad de encuentro interespecífico ( PIE ) [15] e índice de Gini-Simpson. [3] Puede expresarse como una transformación de la diversidad real de orden 2:

1 λ = 1 i = 1 R p i 2 = 1 1 2 D {\displaystyle 1-\lambda =1-\sum _{i=1}^{R}p_{i}^{2}=1-{\frac {1}{{}^{2}D}}}

El índice Gibbs-Martin de estudios de sociología, psicología y gestión, [16] también conocido como índice Blau, es la misma medida que el índice de Gini-Simpson.

La cantidad también se conoce como heterocigosidad esperada en genética de poblaciones.

Índice de Berger-Parker

El índice de Berger-Parker, llamado así por Wolfgang H. Berger y Frances Lawrence Parker , [17] es igual al valor máximo de p i en el conjunto de datos, es decir, la abundancia proporcional del tipo más abundante. Esto corresponde a la media generalizada ponderada de los valores de p i cuando q se acerca al infinito y, por lo tanto, es igual a la inversa de la verdadera diversidad de orden infinito ( 1/ D ).

Véase también

Referencias

  1. ^ Tucker, Caroline M.; Cadotte, Marc W.; Carvalho, Silvia B.; Davies, T. Jonathan; Ferrier, Simon; Fritz, Susanne A.; Grenyer, Rich; Helmus, Matthew R.; Jin, Lanna S. (mayo de 2017). "Una guía para las métricas filogenéticas para la conservación, la ecología de comunidades y la macroecología: Una guía para las métricas filogenéticas para la ecología". Biological Reviews . 92 (2): 698–715. doi :10.1111/brv.12252. PMC  5096690 . PMID  26785932.
  2. ^ abcde Hill, MO (1973). "Diversidad y uniformidad: una notación unificadora y sus consecuencias". Ecología . 54 (2): 427–432. Bibcode :1973Ecol...54..427H. doi :10.2307/1934352. JSTOR  1934352.
  3. ^ abcdefg Jost, L (2006). "Entropía y diversidad". Oikos . 113 (2): 363–375. Bibcode :2006Oikos.113..363J. doi :10.1111/j.2006.0030-1299.14714.x.
  4. ^ abcde Tuomisto, H (2010). "Una diversidad de diversidades beta: enderezando un concepto que ha ido mal. Parte 1. Definición de la diversidad beta como una función de la diversidad alfa y gamma". Ecografía . 33 (1): 2–22. Bibcode :2010Ecogr..33....2T. doi :10.1111/j.1600-0587.2009.05880.x.
  5. ^ abcde Tuomisto, H (2010). "¿Una terminología consistente para cuantificar la diversidad de especies? Sí, existe". Oecologia . 164 (4): 853–860. Bibcode :2010Oecol.164..853T. doi :10.1007/s00442-010-1812-0. PMID  20978798. S2CID  19902787.
  6. ^ Chao, Anne; Chiu, Chun-Huo; Jost, Lou (2016), "Medidas de diversidad filogenética y su descomposición: un marco basado en números de Hill", Conservación de la biodiversidad y sistemática filogenética , Temas de biodiversidad y conservación, vol. 14, Springer International Publishing, págs. 141–172, doi : 10.1007/978-3-319-22461-9_8 , ISBN 9783319224602
  7. ^ Morris, E. Kathryn; Caruso, Tancredi; Buscot, François; Fischer, Markus; Hancock, Cristina; Maier, Tanja S.; Meiners, Torsten; Müller, Carolina; Obermaier, Elisabeth; Prati, Daniel; Socher, Stephanie A.; Sonnemann, Ilja; Wäschke, Nicole; Wubet, Tesfaye; Wurst, Susanne (septiembre de 2014). "Elección y uso de índices de diversidad: conocimientos para aplicaciones ecológicas de los Exploratorios alemanes de biodiversidad". Ecología y Evolución . 4 (18): 3514–3524. Código Bib : 2014EcoEv...4.3514M. doi :10.1002/ece3.1155. ISSN  2045-7758. PMC 4224527 . Número de modelo:  PMID25478144. 
  8. ^ Spellerberg, Ian F. y Peter J. Fedor. (2003) Un homenaje a Claude Shannon (1916-2001) y una petición de un uso más riguroso de la riqueza de especies, la diversidad de especies y el índice "Shannon-Wiener". Ecología global y biogeografía 12.3, 177-179.
  9. ^ ab Shannon, CE (1948) Una teoría matemática de la comunicación . The Bell System Technical Journal, 27, 379–423 y 623–656.
  10. ^ abc Simpson, EH (1949). "Medición de la diversidad". Nature . 163 (4148): 688. Bibcode :1949Natur.163..688S. doi : 10.1038/163688a0 .
  11. ^ Herfindahl, OC (1950) Concentración en la industria siderúrgica estadounidense. Tesis doctoral inédita, Universidad de Columbia.
  12. ^ Hirschman, AO (1945) El poder nacional y la estructura del comercio exterior. Berkeley.
  13. ^ Hunter, PR; Gaston, MA (1988). "Índice numérico de la capacidad discriminatoria de los sistemas de tipificación: una aplicación del índice de diversidad de Simpson". J Clin Microbiol . 26 (11): 2465–2466. doi :10.1128/JCM.26.11.2465-2466.1988. PMC 266921 . PMID  3069867. 
  14. ^ "Crecimiento de árboles de decisión". MathWorks .
  15. ^ Hurlbert, SH (1971). "El no concepto de diversidad de especies: una crítica y parámetros alternativos". Ecología . 52 (4): 577–586. Bibcode :1971Ecol...52..577H. doi :10.2307/1934145. JSTOR  1934145. PMID  28973811. S2CID  25837001.
  16. ^ Gibbs, Jack P.; William T. Martin (1962). "Urbanización, tecnología y división del trabajo". American Sociological Review . 27 (5): 667–677. doi :10.2307/2089624. JSTOR  2089624.
  17. ^ Berger, Wolfgang H.; Parker, Frances L. (junio de 1970). "Diversidad de foraminíferos planctónicos en sedimentos de aguas profundas". Science . 168 (3937): 1345–1347. Bibcode :1970Sci...168.1345B. doi :10.1126/science.168.3937.1345. PMID  17731043. S2CID  29553922.

Lectura adicional

  • Colinvaux, Paul A. (1973). Introducción a la ecología . Wiley. ISBN 0-471-16498-4.
  • Portada, Thomas M.; Thomas, Joy A. (1991). Elementos de la teoría de la información . Wiley. ISBN 0-471-06259-6. Consulte el capítulo 5 para obtener una explicación más detallada de los procedimientos de codificación descritos informalmente anteriormente.
  • Chao, A. ; Shen, TJ. (2003). "Estimación no paramétrica del índice de diversidad de Shannon cuando hay especies no observadas en la muestra" (PDF) . Estadísticas ambientales y ecológicas . 10 (4): 429–443. doi :10.1023/A:1026096204727. S2CID  20389926.
  • Índice de diversidad de Simpson
  • Índices de diversidad Archivado el 19 de diciembre de 2005 en Wayback Machine ofrece algunos ejemplos de estimaciones del índice de Simpson para ecosistemas reales.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Diversity_index&oldid=1240968911"