La Fundación Linux presentó el el lunes el Acuerdo de licencia de datos de la comunidad, un nuevo marco para compartir grandes conjuntos de datos necesarios para la investigación, el aprendizaje colaborativo y otros fines.

Estos permitirán a individuos y grupos compartir conjuntos de datos de la misma manera que comparten el código de software de código abierto, dijo la fundación.

“Como los sistemas requieren datos para aprender y evolucionar, ninguna organización puede construir, mantener y obtener todos los datos requeridos”, señaló Mike Dolan, vicepresidente de programas estratégicos de The Linux Foundation.

“Las comunidades de datos se están formando en torno a casos de uso de inteligencia artificial y aprendizaje automático, sistemas autónomos e infraestructura civil conectada. Los acuerdos de licencia de CDLA permiten compartir datos de forma abierta, incorporando las mejores prácticas aprendidas durante décadas de compartir el código fuente”.

El acuerdo podría ayudar a fomentar un aumento en el intercambio de datos en una variedad de industrias, apoyando la colaboración en modelos climáticos, seguridad automotriz, consumo de energía, procesos de permisos de construcción, gestión del uso del agua y otras funciones.

Reglas parejas

El acuerdo exige dos conjuntos principales de licencias, que están diseñadas para ayudar a los contribuyentes de datos y los consumidores a trabajar con un conjunto uniforme de directrices que aclaren las reglas del juego y mitiguen los riesgos.

La licencia para compartir fomenta las contribuciones de datos a la comunidad. La licencia “Permisiva” no requiere ningún intercambio adicional de datos.

Entre las implicaciones comerciales y creativas de las licencias:

Los generadores de datos pueden ser más específicos con respecto a lo que los destinatarios pueden hacer con los datos. Los generadores de datos pueden elegir entre las licencias Compartida y Permisiva, dependiendo de qué modelo se alinea mejor con sus necesidades. Cualquier tipo de licencia les da una mayor claridad de los términos del acuerdo y proporciona una mayor protección de responsabilidad y garantías.

Las licencias permiten a las comunidades compartir datos en términos de igualdad que equilibran las necesidades de los usuarios y productores de datos. Las comunidades de datos pueden agregar sus propias reglas y requisitos para compartir datos, particularmente con información de identificación personal.

Un usuario de datos que busca información que se utilizará para el entrenamiento en un sistema de inteligencia artificial o para otro uso tendrá acceso a los datos compartidos bajo un modelo de licencia conocido que tiene términos que están claramente detallados.

Los acuerdos son independientes en lo que respecta a la privacidad de datos, y corresponderá a los editores y curadores de datos crear su propia estructura de gobierno, teniendo en cuenta las leyes aplicables.

Mayor aprendizaje

El acuerdo llega en un momento en que las tecnologías como el aprendizaje automático y la inteligencia artificial son capaces de analizar conjuntos de datos de formas que anteriormente no eran posibles. Los acuerdos de licencia proporcionan un marco para que los depósitos de datos sean lo suficientemente uniformes como para permitir un análisis preciso y replicable.

Las organizaciones a menudo comparten datos para permitir que otros grupos intenten replicar sus resultados. Además, las organizaciones pueden publicar conjuntos de datos de manera especulativa para que otros grupos los procesen, y potencialmente elegir un proveedor para análisis avanzados, según cuán bien funcionen los diferentes algoritmos en un conjunto de datos en particular.

La nueva Licencia de Datos Comunitarios de The Linux Foundation refleja la creciente importancia de la información como un recurso para el análisis de big data, el aprendizaje automático y la inteligencia artificial.

En esencia, los datos proporcionan el combustible requerido para los procesos, incluidos los sistemas de ‘enseñanza’ para realizar con precisión funciones complejas y analizar las ocurrencias en curso.

Aumento de demanda

Ha habido un aumento en el nivel de interés en los conjuntos de datos en los últimos años.

Por ejemplo, los automóviles conectados pueden proporcionar una gran cantidad de datos, incluyendo GPS, millas por hora y la información de la lista de reproducción de música. Los dispositivos de “Internet of Things” podrían proporcionar información como la temperatura de la caldera o la velocidad del viento de los parques eólicos.

Los CDLA fomentarán un proceso más uniforme para compartir dichos datos.