IntelDig

Encontrando una buena lectura entre millones de opciones

La inteligencia artificial, con técnicas mejoradas de procesamiento de lenguaje natural, puede dar sugerencias cada vez más rápidas y más relevantes. En línea están disponibles miles de millones de libros, noticias, documentos, etc. por lo que decidirse por uno puede ser difícil. Por eso el profesor asistente en el MIT Justin Solomon considera que cualquier cosa que pueda ayudar a seleccionar material de lectura relevante es extremadamente útil.

El profesor Solomon, junto al MIT-IBM Watson AI Lab  y su  Grupo de Procesamiento de Datos Geométricos, presentó recientemente una nueva técnica para cortar grandes cantidades de texto en la  Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS). Su método combina tres herramientas populares de análisis de texto: modelado de temas, incrustaciones de palabras y el transporte óptimo, para ofrecer resultados mejores y más rápidos en la clasificación de documentos.

Si el algoritmo sabe lo que te gustó leer en el pasado, puede escanear millones de posibilidades que proponen algo similar. A medida que mejoran las técnicas de procesamiento del lenguaje natural, esas sugerencias de “también te pueden gustar” se vuelven más rápidas y más relevantes.

El método presentado tiene la capacidad de resumir una colección de libros en temas basados ​​en palabras de uso común en la colección. Luego divide cada libro en sus cinco a 15 temas más importantes, con una estimación de cuánto contribuye cada tema al libro en general. El algoritmo también puede comparar libros, para ello utiliza dos herramientas, la inserción de palabras y el transporte óptimo (un marco para calcular la forma más eficiente de mover objetos, o puntos de datos – entre múltiples destinos).

Con las incrustaciones de palabras se puede aprovechar el transporte dos veces, para comparar temas dentro de la colección en su conjunto, y para medir qué tan cerca se superponen los temas comunes entre al menos dos libros.

Modelar libros por sus temas representativos, en lugar de palabras individuales, hace posible las comparaciones de alto nivel. El resultado de este método es una comparación más rápida y precisa. Los investigadores compararon 1.720 pares de libros en el conjunto de datos del Proyecto Gutenberg en un segundo, más de 800 veces más rápido que el siguiente mejor método.

La técnica es más efectiva clasificando  con precisión los documentos que los métodos rivales, por ejemplo, agrupando libros en el conjunto de datos de Gutenberg por autor, reseñas de productos en Amazon por departamento e historias deportivas de la BBC por deporte. El método logra agrupar cuidadosamente los documentos por tipo.

Además de clasificar los documentos de forma rápida y más precisa, el método ofrece una ventana al proceso de toma de decisiones del modelo. Junto con la lista de temas que aparecen, los usuarios pueden ver por qué el modelo recomienda un documento.