Perro marrón de la NCSA

NCSA Brown Dog es un proyecto de investigación cuyo objetivo es desarrollar un método para acceder fácilmente a los datos históricos de investigación almacenados con el fin de mantener la viabilidad a largo plazo de grandes volúmenes de investigación científica. Cuenta con el apoyo del Centro Nacional de Aplicaciones de Supercomputación (NCSA), que está financiado por la Fundación Nacional de Ciencias (NSF). [1]

Historia

Brown Dog es parte del programa de socios DataNet financiado por la NSF en 2008. DataNet fue concebido para abordar la naturaleza cada vez más digital y de uso intensivo de datos de la ciencia, la ingeniería y la educación. Brown Dog es parte de un esfuerzo de seguimiento llamado Data Infrastructure Building Blocks (DIBBs) , centrado en la creación de software para respaldar a DataNet. El proyecto fue propuesto por investigadores de NCSA y la Universidad de Illinois Urbana-Champaign , así como investigadores de la Universidad de Boston y la Universidad de Carolina del Norte en Chapel Hill .

Datos de cola larga, no estructurados y no curados

Muchos datos científicos son más pequeños, no están estructurados ni curados y, por lo tanto, no son fáciles de compartir. A estos datos a veces se los denomina datos de "cola larga", término que toma prestado de las estadísticas y se refiere a la cola de la distribución de tamaños de proyectos. La mayoría de los proyectos más pequeños carecen de los recursos necesarios para gestionar adecuadamente los datos que producen. Estos datos denominados de "cola larga", tanto pasados ​​como presentes, tienen el potencial de informar sobre futuras investigaciones en muchas áreas de estudio. Muchos de estos datos se han vuelto inaccesibles debido a la obsolescencia del software y los formatos de archivo. La imposibilidad resultante de revisar los datos de investigaciones anteriores altera el proyecto de investigación científica en general. [2]

Acercarse

Brown Dog se describe a sí mismo como el "super perro mestizo" del software [3] (de ahí el nombre "Brown Dog"), que sirve como una infraestructura de datos de bajo nivel para interconectar contenido de datos digitales a través de Internet. Su enfoque es utilizar todas las fuentes posibles de ayuda automatizada (es decir, software) existentes de una manera robusta y que preserve la procedencia para crear un servicio que pueda manejar la mayor cantidad posible de estos datos. [4] El proyecto ve el impacto más amplio de su trabajo en su potencial para servir al público en general como una especie de "DNS para datos", con el objetivo de hacer que todos los datos y todos los formatos de archivo sean tan accesibles como lo son las páginas web en la actualidad.

Tecnología

Brown Dog busca resolver los problemas relacionados con el uso de colecciones de datos no estructurados y no curados mediante el desarrollo de dos servicios: el Data Access Proxy (DAP) para ayudar en la conversión de formatos de archivos y el Data Tilling Services (DTS) para la extracción automática de metadatos del contenido de los archivos. Una vez desarrollados, los investigadores y los usuarios del público en general podrán descargar complementos de navegador y otras herramientas del catálogo de herramientas de Brown Dog. [1] [5]

Servicio de recolección de datos

El servicio Data Tilling Service (DTS) permitirá a los usuarios buscar colecciones de datos utilizando un archivo existente para descubrir otros archivos similares en una colección. Se agregará un campo de búsqueda DTS a los navegadores configurados donde se pueden colocar archivos de ejemplo. Esto le indica a DTS que busque todos los archivos bajo una URL dada para encontrar archivos similares al archivo colocado. Por ejemplo, mientras se explora una colección de imágenes en línea, un usuario podría colocar una imagen de tres personas en el campo de búsqueda y DTS devolvería todas las imágenes de la colección que también contengan tres personas. Si DTS encuentra un formato de archivo extraño, utilizará DAP para hacer que el archivo sea accesible. DTS también indexa los datos y extrae y agrega metadatos a los archivos y colecciones, lo que permite a los usuarios tener una idea del tipo de datos que están encontrando.

Este servicio se ejecuta en el puerto 9443.

Proxy de acceso a datos

El proxy de acceso a datos (DAP) permite a los usuarios acceder a archivos de datos que de otro modo serían ilegibles. De forma similar a una puerta de enlace de Internet o un servicio de nombres de dominio , la configuración del DAP se ingresaría en la configuración del navegador y la máquina del usuario. El DAP examinaría primero las solicitudes de datos a través de HTTP para determinar si el formato de archivo nativo es legible en el dispositivo cliente. De lo contrario, el DAP convierte el archivo al mejor formato disponible que pueda leer la máquina cliente. Como alternativa, el usuario podría especificar el formato deseado por sí mismo.

Este servicio se ejecuta en el puerto 8184.

Casos de uso

Brown Dog se centra en tres casos de uso propuestos por grupos dentro de las comunidades de investigación de EarthCube. Los desarrolladores e investigadores de estas comunidades trabajarán juntos en casos de uso que abarcan geociencias , ingeniería , biología y ciencias sociales .

Datos de vegetación de cola larga en ecología y biología del cambio global

Este caso de uso está dirigido por Michael Dietze, de la Universidad de Boston.

Los datos sobre la abundancia, la composición de las especies y la estructura del tamaño de la vegetación son de importancia crítica para una amplia gama de subdisciplinas en ecología, conservación, gestión de recursos naturales y biología del cambio global. Sin embargo, para abordar muchas de las cuestiones urgentes en estas disciplinas será necesario que los modelos hidrológicos y de la biosfera terrestre sean capaces de asimilar la gran cantidad de datos de cola larga que existen pero que son en gran medida inaccesibles. El equipo de Brown Dog, en cooperación con investigadores del laboratorio de Dietze, facilitará la captura de un gran volumen de conjuntos de datos de vegetación más pequeños orientados a la investigación recopilados durante muchas décadas y datos históricos de vegetación integrados en datos de la Encuesta de Tierras Públicas que datan de 1785. Estos datos se utilizarán como condiciones iniciales para los modelos, para dar sentido a otros conjuntos de datos grandes y para la calibración y validación de modelos. [1] [6]

Diseño de infraestructura verde considerando las aguas pluviales y las necesidades humanas

Este caso de uso está dirigido por Barbara Minsker, Universidad de Illinois en Urbana-Champaign; William Sullivan, Universidad de Illinois en Urbana-Champaign; Arthur Schmidt, Universidad de Illinois en Urbana-Champaign

Este estudio de caso implica el desarrollo de nuevos criterios y modelos de diseño de infraestructura verde que integren los requisitos para la gestión de aguas pluviales y la salud y el bienestar de los ecosistemas y las personas. Para abordar los problemas científicos y sociales asociados con el diseño de espacios verdes, la accesibilidad y disponibilidad de datos es un desafío importante. Este estudio se centrará en áreas identificadas de la región de Planificación de Barrios Verdes y Saludables dentro de la ciudad de Chicago donde el desempeño actual del alcantarillado local es más deficiente y donde los cambios en el área impermeable a través de infraestructura verde serían beneficiosos para los vecindarios desatendidos. Se utilizará Brown Dog para extraer datos experimentales de cola larga sobre las preferencias de paisaje humano y los impactos en la salud. Estos datos se utilizarán para desarrollar un modelo de impactos en la salud humana que luego se vinculará con un modelo de biosfera terrestre y un modelo de aguas pluviales utilizando la tecnología Brown Dog. [1]

Desarrollo y aplicación para estudios de zonas críticas

Este caso de uso está dirigido por Praveen Kumar, de la Universidad de Illinois en Urbana-Champaign.

La zona crítica (ZC) es la "piel" de la Tierra que se extiende desde las copas de los árboles hasta el lecho rocoso, creada por procesos vitales que funcionan a escalas que van desde los microbios hasta los biomas. La zona crítica sustenta todos los sistemas vivos terrestres. Su parte superior es el biomanto. Aquí es donde la biota terrestre vive, se reproduce, utiliza y gasta energía, y donde sus desechos y restos se acumulan y descomponen. Abarca el suelo, que actúa como una geomembrana a través de la cual el agua y los solutos, la energía, los gases, los sólidos y los organismos interactúan con la atmósfera, la biosfera, la hidrosfera y la litosfera. Una variedad de factores afectan a esta zona biodinámica, que van desde el clima y la deforestación hasta la agricultura, el pastoreo y el desarrollo humano. Comprender y predecir estos efectos es fundamental para gestionar y mantener servicios ecosistémicos vitales como la fertilidad del suelo, la purificación del agua y la producción de recursos alimentarios y, a mayor escala, el ciclo global del carbono y el secuestro del carbono . La CZ proporciona un marco unificador para la integración de los entornos terrestres superficiales y cercanos a la superficie, y refleja una intrincada red de procesos biológicos y químicos e impactos humanos que ocurren en escalas temporales y espaciales muy diferentes. La naturaleza de estos datos crea desafíos significativos para los estudios interdisciplinarios de la CZ porque la integración de la variedad y cantidad de productos y modelos de datos ha sido una barrera. Por otro lado, los datos de la CZ brindan una excelente oportunidad para definir, probar e implementar tecnologías Brown Dog. En este contexto, los datos "no estructurados" se consideran en sentido amplio como una colección de datos heterogéneos con formatos que reflejan legados temporales y disciplinarios, datos de sensores basados ​​en hardware abierto de bajo costo emergentes y redes de sensores integrados que carecen de metadatos y características de sensores bien definidos, así como datos que están disponibles como mapas, imágenes y texto. [1]

Premio NSF

CIF21 DIBBs: Brown Dog se adjudicó en el invierno de 2013 con fecha de inicio el 1 de octubre de 2013. La fecha de vencimiento estimada es el 30 de septiembre de 2018. [7]

El monto del premio fue de $10,519,716.00, el premio más grande del DIBB. El investigador principal es Kenton McHenry de NCSA en la Universidad de Illinois en Urbana-Champaign. Los líderes son Jong Lee NCSA/UIUC; Barbara Minsker, Ingeniería Civil y Ambiental, Universidad de Illinois en Urbana-Champaign; Praveen Kumar, Ingeniería Civil y Ambiental, Universidad de Illinois en Urbana-Champaign; Michael Dietze, Departamento de Tierra y Medio Ambiente, Universidad de Boston.

Referencias

  1. ^ abcde "Brown Dog". NCSA Brown Dog . Consultado el 31 de julio de 2014 .
  2. ^ "DataUp: curación de datos para la larga cola de la ciencia". Blog de Microsoft Research Connections . Equipo de Microsoft Research Connections . Consultado el 7 de agosto de 2014 .
  3. ^ Woodie, Alex (6 de enero de 2014). "Proyecto NCSA tiene como objetivo crear un servicio similar al DNS para datos". datanami . Consultado el 7 de agosto de 2014 .
  4. ^ Pletz, John (diciembre de 2013). "Los investigadores de la U of I obtienen millones por un 'superperro' que detecte tendencias de big data". Chicago Business . Crain Communications, Inc . Consultado el 7 de agosto de 2014 .
  5. ^ Jewett, Barbara. "DATOS LIBRES". Revista NCSA Access . NCSA . Consultado el 7 de agosto de 2014 .
  6. ^ "Un científico de la BU y sus colaboradores obtienen una subvención de 10,5 millones de dólares para desarrollar software para datos no curados". www.newswise.com . Facultad de Artes y Ciencias de la Universidad de Boston . Consultado el 7 de agosto de 2014 .
  7. ^ "Premio n.° 1261582 - CIF21 DIBBs: Brown Dog". nsf.gov . Consultado el 31 de julio de 2014 .
  • Sitio web oficial
Obtenido de "https://es.wikipedia.org/w/index.php?title=Perro_marrón_de_NCSA&oldid=1145361399"