
El profesor de informática y matemáticas Thibaud Lutellier ha identificado los errores más comunes en Jupyter Notebook, una plataforma de software que los científicos utilizan para hacer su trabajo, con miras a mejorar la seguridad de sus datos. Crédito: John Ulan
Una plataforma de software que los científicos utilizan para hacer su trabajo podría tener menos fallas gracias a una investigación de la Universidad de Alberta.
Un estudio exhaustivo de las vulnerabilidades en Cuaderno Jupyteruna popular aplicación web de código abierto que los investigadores utilizan para explorar y analizar los datos de sus estudios, identifica los errores más comunes en el software, un primer paso para mejorarlo.
«Al comprender las debilidades de Jupyter Notebook, se pueden crear herramientas más inteligentes y confiables para usuarios y desarrolladores», dice Thibaud Lutellier, profesor asistente de ciencias de la computación y matemáticas en el Campus de Augustana y autor principal del estudio. al corriente hacia arXiv servidor de preimpresión.
Para sustentar la investigación en industrias centrales como la atención médica, las finanzas y la tecnología, la precisión en la ciencia de datos es vital, agrega, señalando que en Canadá, inversión en el campo casi se duplicó en 10 años, con estimaciones que oscilan entre 15.000 y 21.000 millones de dólares en 2008 y entre 29.000 y 40.000 millones de dólares en 2018.
Jupyter Notebook, ampliamente utilizado en ciencia de datos y aprendizaje automático, crea un documento único e interactivo que combina código en vivo, resultados y notas explicativas para estudios de investigación, lo que lo convierte en una herramienta todo en uno eficaz. También ofrece más flexibilidad que las configuraciones de programación tradicionales, porque los datos se pueden cargar de forma no secuencial.
«Es una forma interactiva de programar, explorar e interpretar datos, sin tener que recargar todo; puedes rebobinar un poco, lo que lo hace muy conveniente», dice Lutellier.
Pero esa característica única también hace que Jupyter Notebook sea vulnerable a errores, señala. «Es mucho más fácil romper accidentalmente algo en el código o configurar el sistema incorrectamente, porque estás cambiando cosas todo el tiempo».
Y como una amplia gama de usuarios (muchos de ellos no expertos en informática) pueden acceder al software, eso aumenta la probabilidad de defectos y configuraciones erróneas, afirma Lutellier. Esas vulnerabilidades pueden causar problemas como pérdida de datos o interpretación inexacta de los resultados, e incluso pueden provocar ataques de ransomware, señala.
Para descubrir qué factores contribuyen a los errores, los investigadores recopilaron y analizaron casi 9.000 Jupyter Notebooks de GitHub y Kaggle, dos importantes «archivadores» en línea para desarrolladores de software.
Lutellier, Harsh Darji, participante de la investigación universitaria de Augustana, e investigadores de la Universidad Concordia y ETH Zurich exploraron si ciertos rasgos, como la complejidad de un cuaderno o la cantidad de personas que trabajaban en él, estaban relacionados con tener más errores. También crearon una taxonomía de errores detallada para clasificar los diferentes tipos que encontraron y revisaron actualizaciones e informes de seguridad para determinar los riesgos potenciales al usar estos portátiles.
Su evaluación demostró que tener varias personas trabajando juntas en el mismo portátil tenía más probabilidades de producir errores, un hallazgo sorprendente, afirma Darji. «Pensábamos que el problema sería la complejidad del código, pero lo que encontramos es que si un equipo de personas trabaja en el mismo código con Jupyter Notebook, es más probable que el código sea incorrecto. Cuantos más colaboradores haya, más probable será que se introduzcan errores».
La investigación también descubrió dos tipos principales de errores: los que se introducen cuando los usuarios instalan o configuran incorrectamente sus portátiles y el uso incorrecto de las funciones integradas.
Al revisar el ecosistema Jupyter Notebook, sus vulnerabilidades muestran que actualmente existe un equilibrio entre usabilidad y seguridad, sugiere Lutellier. «Es flexible y más rápido que otro software, pero el código escrito en él probablemente tendrá muchos más errores y será más difícil trabajar en colaboración. Eso genera preocupaciones sobre la reproducibilidad, mantenibilidad y seguridad de los proyectos realizados en Jupyter Notebook».
Los conocimientos del estudio resaltan la necesidad de que los desarrolladores de software y los ingenieros de IA creen mejores herramientas de gestión de configuración y trabajo colaborativo en torno a Jupyter Notebook, afirma Lutellier, cuya investigación ahora se centra en desarrollar una nueva herramienta de IA para detectar automáticamente esos errores.
Los proveedores deben mejorar las herramientas de soporte para ayudar a los equipos grandes a usar portátiles de forma segura y, como usuarios, los científicos de datos deben trabajar con cuidado y hacer un mejor uso de las herramientas colaborativas y los sistemas de detección de errores existentes, afirma.
«Al reducir estos errores, los portátiles se vuelven más confiables para todos, ayudando a los científicos de datos a concentrarse en resolver problemas en lugar de corregir errores de codificación».
Más información:
Wenyuan Jiang et al, Explorando el ecosistema Jupyter: un estudio empírico de errores y vulnerabilidades, arXiv (2025). DOI: 10.48550/arxiv.2507.18833
Citación: La investigación identifica errores en el software de divulgación científica (2025, 13 de noviembre) obtenido el 13 de noviembre de 2025 en https://techxplore.com/news/2025-11-bugs-popular-science-software.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.


