NeurIPS 2022: siete artículos de investigación de Microsoft seleccionados para presentaciones orales - Microsoft Research

banner abstracto para Microsoft en NeurIPS 2022 — NeurIPS 2022: siete artículos de investigación de Microsoft seleccionados para presentaciones orales - Microsoft Research

Microsoft se enorgullece de ser patrocinador platino de la 36.ª conferencia anual sobre Sistemas de procesamiento de información neuronal (NeurIPS), que es ampliamente considerada como la conferencia de investigación más prestigiosa del mundo sobre inteligencia artificial y aprendizaje automático.

Microsoft vuelve a tener una fuerte presencia en NeurIPS este año, con más de 150 de nuestros investigadores participando en la conferencia y 122 de nuestros trabajos de investigación aceptados. Nuestros investigadores también participan en 10 talleres, cuatro concursos y un tutorial.

En uno de los talleres, AI para la ciencia: progreso y promesas, un panel de investigadores destacados discutirá cómo la inteligencia artificial y el aprendizaje automático tienen el potencial de avanzar en el descubrimiento científico. El panel incluirá a dos investigadores de Microsoft: Max Welling, vicepresidente y científico distinguido de Microsoft Research AI4Science, quien actuará como moderador, y Peter Lee, vicepresidente corporativo de Microsoft Research and Incubations.

De los 122 trabajos de investigación de Microsoft aceptados para la conferencia, siete han sido seleccionados para presentaciones orales durante la experiencia virtual NeurIPS la semana del 4 de diciembre.^el. Las presentaciones orales proporcionan una inmersión más profunda en cada uno de los temas de investigación destacados.

Además, otros dos trabajos de investigación de Microsoft recibieron los premios Outstanding Paper Awards para NeurIPS 2022. Uno de esos trabajos, Gradient Estimation with Discrete Stein Operators, explica cómo los investigadores desarrollaron un estimador de gradiente que logra una varianza sustancialmente menor que los estimadores de última generación con el mismo número de evaluaciones de funciones, lo que tiene el potencial de mejorar la resolución de problemas en el aprendizaje automático. En el otro artículo, A Neural Corpus Indexer for Document Retrieval, los investigadores demuestran que una red neuronal profunda de extremo a extremo que unifica las etapas de capacitación e indexación puede mejorar significativamente el rendimiento de recuperación de los métodos tradicionales de recuperación de documentos.

A continuación, proporcionamos los títulos, autores y resúmenes de los siete trabajos de investigación de Microsoft elegidos para presentaciones orales en NeurIPS, con enlaces a información adicional para aquellos que deseen explorar los temas más a fondo:

Uni[MASK]: Inferencia unificada en problemas de decisión secuencial

Micah Carroll, Orr Paradise, Jessy Lin, Raluca Georgescu, Mingfei Sun, David Bignell, Stephanie Milani, Katja Hofmann, Matthew Hausknecht, Anca Dragan, Sam Devlin

Resumen: El enmascaramiento aleatorio y la predicción de tokens de palabras ha sido un enfoque exitoso en el entrenamiento previo de modelos de lenguaje para una variedad de tareas posteriores. En este trabajo, observamos que la misma idea también se aplica de forma natural a la toma de decisiones secuenciales, donde muchas tareas bien estudiadas como clonación de comportamiento, RL fuera de línea, dinámica inversa y condicionamiento de waypoint corresponden a diferentes enmascaramientos de secuencia sobre una secuencia de estados, acciones, y regresa Presentamos el marco UniMASK, que proporciona una forma unificada de especificar modelos que se pueden entrenar en muchas tareas diferentes de toma de decisiones secuenciales. Mostramos que un solo modelo UniMASK a menudo es capaz de realizar muchas tareas con un rendimiento similar o mejor que los modelos de una sola tarea. Además, después de un ajuste fino, nuestros modelos UniMASK superan sistemáticamente a los modelos comparables de una sola tarea.

K-LITE: aprendizaje de modelos visuales transferibles con conocimiento externo

Sheng Shen, Chunyuan Li, Xiaowei Hu, Yujia Xie, Jianwei Yang, Pengchuan Zhang, Zhe Gan, Lijuan Wang, Lu Yuan, Ce Liu, Kurt Keutzer, Trevor Darrell, Anna Rohrbach, Jianfeng Gao

Resumen: La nueva generación de sistemas de visión por computadora de última generación se entrenan a partir de la supervisión del lenguaje natural, que van desde simples nombres de categorías de objetos hasta leyendas descriptivas. Esta forma de supervisión asegura una alta generalidad y usabilidad de los modelos visuales aprendidos, basada en la amplia cobertura de conceptos lograda a través del proceso de recopilación de datos a gran escala. Alternativamente, argumentamos que aprender con conocimiento externo sobre imágenes es una forma prometedora que aprovecha una fuente de supervisión mucho más estructurada y ofrece eficiencia de muestra.

En este artículo, proponemos K-LITE (Knowledge-augmented Language-Image Training and Evaluation), una estrategia simple para aprovechar el conocimiento externo para construir sistemas visuales transferibles: En el entrenamiento, enriquece entidades en lenguaje natural con conocimiento de WordNet y Wiktionary, lo que lleva a un enfoque eficiente y escalable para aprender representaciones de imágenes que utiliza el conocimiento sobre los conceptos visuales; En la evaluación, el lenguaje natural también se aumenta con conocimiento externo y luego se usa para hacer referencia a conceptos visuales aprendidos (o describir nuevos) para permitir la transferencia de disparos cero y pocos disparos de los modelos previamente entrenados. Estudiamos el rendimiento de K-LITE en dos importantes problemas de visión por computadora, la clasificación de imágenes y la detección de objetos, comparando 20 y 13 conjuntos de datos existentes diferentes, respectivamente. Los modelos de conocimiento aumentado propuestos muestran una mejora significativa en el rendimiento del aprendizaje por transferencia con respecto a los métodos existentes. Nuestro código se publica en https://github.com/microsoft/klite.

Compresión extrema para transformadores preentrenados simplificados y eficientes

Xiaoxia Wu, Zhewei Yao, Minjia Zhang, Conglong Li, Yuxiong He

Resumen: Se ha propuesto la compresión extrema, en particular la cuantificación de precisión de bit ultra baja (binaria/ternaria), para adaptarse a modelos NLP grandes en dispositivos con recursos limitados. Sin embargo, para preservar la precisión de esquemas de compresión tan agresivos, los métodos de vanguardia generalmente introducen canalizaciones de compresión complicadas, por ejemplo, costosa destilación de conocimientos en varias etapas con ajuste extensivo de hiperparámetros. Además, a menudo se enfocan menos en modelos de transformadores más pequeños que ya han sido fuertemente comprimidos a través de la destilación de conocimiento y carecen de un estudio sistemático para mostrar la efectividad de sus métodos.

En este documento, realizamos un estudio sistemático muy completo para medir el impacto de muchos hiperparámetros clave y estrategias de entrenamiento anteriores. Como resultado, descubrimos que las líneas de base anteriores para la cuantificación de precisión de bits ultrabaja están significativamente infraentrenadas. Con base en nuestro estudio, proponemos una canalización de compresión simple pero efectiva para la compresión extrema.

Nuestra canalización simplificada demuestra que:

(1) podemos omitir la destilación del conocimiento previo al entrenamiento para obtener un \bert de 5 capas mientras logramos un mejor rendimiento que los métodos de vanguardia anteriores, como TinyBERT;

(2) la cuantización extrema más la reducción de capas es capaz de reducir el tamaño del modelo en 50x, lo que da como resultado nuevos resultados de vanguardia en las tareas de GLUE.

Sobre la complejidad de la toma de decisiones contradictorias

Dylan J. Foster, Alexander Rakhlin, Ayush Sekhari, Karthik Sridharan

Resumen: Un problema central en el aprendizaje en línea y la toma de decisiones, desde los bandidos hasta el aprendizaje por refuerzo, es comprender qué suposiciones de modelado conducen a garantías de aprendizaje eficientes en la muestra. Consideramos un marco general de toma de decisiones contradictorio que abarca problemas de bandido (estructurados) con recompensas contradictorias y problemas de aprendizaje por refuerzo con dinámica contradictoria. Nuestro principal resultado es mostrar, a través de nuevos límites superior e inferior, que el coeficiente de estimación de decisión, una medida de complejidad introducida por Foster et al. en la contraparte estocástica de nuestro entorno, es necesario y suficiente para obtener un bajo arrepentimiento para la toma de decisiones adversarias. Sin embargo, en comparación con el entorno estocástico, se debe aplicar el Coeficiente de estimación de decisión al casco convexo de la clase de modelos (o hipótesis) bajo consideración. Esto establece que el precio de acomodar recompensas o dinámicas adversarias se rige por el comportamiento de la clase modelo bajo convexificación, y recupera una serie de resultados existentes, tanto positivos como negativos. En el camino hacia la obtención de estas garantías, brindamos nuevos resultados estructurales que conectan el Coeficiente de estimación de decisión con variantes de otras medidas de complejidad bien conocidas, incluida la Relación de información de Russo y Van Roy y el objetivo de Exploración por optimización de Lattimore y György .

Separación máxima de clases como polarización inductiva en una matriz

Tejaswi Kasarla, Gertjan J. Burghouts, Max van Spengler, Elise van der Pol, Rita Cucchiara, Pascal Mettes

Resumen: Maximizar la separación entre clases constituye un sesgo inductivo bien conocido en el aprendizaje automático y un pilar de muchos algoritmos tradicionales. Por defecto, las redes profundas no están equipadas con este sesgo inductivo y, por lo tanto, se han propuesto muchas soluciones alternativas a través de la optimización diferencial. Los enfoques actuales tienden a optimizar la clasificación y la separación de manera conjunta: alineando las entradas con los vectores de clase y separando los vectores de clase angularmente.

Este artículo propone una alternativa simple: codificar la separación máxima como un sesgo inductivo en la red al agregar una multiplicación de matriz fija antes de calcular las activaciones de softmax. La observación principal detrás de nuestro enfoque es que la separación no requiere optimización, pero puede resolverse de forma cerrada antes del entrenamiento y conectarse a una red. Describimos un enfoque recursivo para obtener la matriz que consta de vectores separables al máximo para cualquier número de clases, que se pueden agregar con un esfuerzo de ingeniería y una sobrecarga computacional insignificantes. A pesar de su naturaleza simple, esta multiplicación de una matriz proporciona un impacto real. Mostramos que nuestra propuesta impulsa directamente la clasificación, el reconocimiento de cola larga, la detección fuera de distribución y el reconocimiento de conjunto abierto, desde CIFAR hasta ImageNet. Encontramos empíricamente que la separación máxima funciona mejor como un sesgo fijo; hacer que la matriz se pueda aprender no agrega nada al rendimiento. La implementación de forma cerrada y el código para reproducir los experimentos están disponibles en GitHub.

Redes neuronales de regresión de cuantiles censurados para análisis de supervivencia sin distribución

Tim Pearce, Jong-Hyeon Jeong, Yichen Jia, Jun Zhu

Resumen: Este artículo considera hacer una regresión cuantil sobre datos censurados utilizando redes neuronales (NN). Esto se suma al conjunto de herramientas de análisis de supervivencia al permitir la predicción directa de la variable objetivo, junto con una caracterización de la incertidumbre sin distribución, utilizando un aproximador de función flexible. Comenzamos mostrando cómo un algoritmo popular en modelos lineales se puede aplicar a NN. Sin embargo, el procedimiento resultante es ineficiente y requiere la optimización secuencial de un NN individual en cada cuantil deseado. Nuestra principal contribución es un algoritmo novedoso que optimiza simultáneamente una cuadrícula de salida de cuantiles por un solo NN. Para ofrecer una visión teórica de nuestro algoritmo, mostramos en primer lugar que puede interpretarse como una forma de maximización de expectativas y, en segundo lugar, que exhibe una propiedad deseable de «autocorrección». Experimentalmente, el algoritmo produce cuantiles que están mejor calibrados que los métodos existentes en 10 de 12 conjuntos de datos reales.

Aprender modelos generativos (muy) simples es difícil

Sitan Chen, Jerry Li, Yuanzhi Li

Resumen: Motivados por los recientes éxitos empíricos de los modelos generativos profundos, estudiamos la complejidad computacional del siguiente problema de aprendizaje no supervisado. Para una red neuronal desconocida \(F:\mathbb{R}^d\to\mathbb{R}^{d’}\), sea \(D\) la distribución sobre \(\mathbb{R}^{ d’}\) dada al pasar la Gaussiana estándar \(\mathcal{N}(0,\textrm{Id}_d)\) a través de \(F\). Dadas las muestras de iid de \(D\), el objetivo es generar una distribución de \({any}\) cercana a \(D\) en distancia estadística.

Mostramos bajo el modelo de consulta estadística (SQ) que ningún algoritmo de tiempo polinomial puede resolver este problema incluso cuando las coordenadas de salida de \(F\) son redes ReLU de una capa oculta con \(\log(d)\) neuronas . Anteriormente, los mejores límites inferiores para este problema simplemente seguían los límites inferiores para \(supervisado\) \(aprendizaje\) y requería al menos dos capas ocultas y \(poli(d)\) neuronas [Daniely-Vardi ’21, Chen-Gollakota-Klivans-Meka ’22].

El ingrediente clave en nuestra prueba es una construcción basada en ODE de una función lineal por partes \(f\) con soporte compacto con pendientes acotadas polinómicamente de tal manera que el avance de \(\mathcal{N}(0,1)\) bajo \(f\) coincide con todos los momentos de bajo grado de \(\mathcal{N}(0,1)\).

Fuente