Resumen creado por Smart Answers AI
En resumen:
- Macworld informa que el nuevo artículo de investigación de Apple presenta el principio de grano grueso (PCG), un método para acelerar la generación de tokens de voz de Siri manteniendo la calidad.
- La técnica agrupa tokens acústicamente similares utilizando grupos de similitud acústica, evitando un rigor de procesamiento innecesario que ralentiza los sistemas actuales.
- Este avance podría conducir a un Siri significativamente más rápido y con mayor capacidad de respuesta, abordando las quejas de los usuarios sobre el rendimiento lento del asistente.
Las esperanzas de un asistente de voz Siri más preciso y funcional actualmente dependen en gran medida de la solución a corto plazo: la asociación recientemente anunciada de Apple con Google para utilizar la tecnología Gemini de este último para mejorar sus propias ofertas de inteligencia artificial. Pero a largo plazo, un nuevo artículo de investigación ofrece un método que podría permitir a Apple hacer que Siri sea más rápido por sí solo.
el papel, Aceptación general basada en principios para la decodificación especulativa del hablafue escrito por cinco investigadores que trabajan para Apple y la Universidad de Tel-Aviv y publicado a fines del mes pasado (a través de 9to5Mac). Propone un nuevo enfoque que podría, en palabras de los investigadores, «acelerar la generación de tokens de voz manteniendo la calidad de la voz».
La clave para la velocidad, sostienen los investigadores, es evitar un rigor innecesario. «Para los LLM de voz que generan tokens acústicos», escriben, «la coincidencia exacta de tokens es demasiado restrictiva: muchos tokens discretos son acústica o semánticamente intercambiables, lo que reduce las tasas de aceptación y limita las aceleraciones». En otras palabras, a un cierto nivel de similitud, no importa cuál de los dos posibles tokens de habla se seleccione, ya que suenan o significan esencialmente lo mismo, y es una pérdida de tiempo y recursos de procesamiento insistir en determinar cuál es el correcto.
La solución propuesta es agrupar fichas acústicamente de manera similar.
«Proponemos Principio Coarse-Graining (PCG), un marco que reemplaza la coincidencia exacta de tokens con verificación a nivel de grupo», explica el documento. «Construimos grupos de similitud acústica (ASG) en el espacio de incrustación de tokens del modelo objetivo, capturando su organización interna de similitud semántica y acústica. PCG realiza un muestreo especulativo en la distribución de grano grueso sobre los ASG y lleva a cabo un muestreo de rechazo a nivel de grupo».
Los investigadores afirman que esto aumentará la velocidad sin reducir significativamente la confiabilidad. En experimentos (consulte la página 4 del artículo), aumentar la cantidad de tokens por segundo reduce ligeramente la precisión, pero mucho menos que con la decodificación especulativa estándar.
El documento es bastante técnico, pero no muy extenso. Consulte el pdf para leerlo completo.


