in

Un modelo para clasificar los textos financieros al tiempo que protege la privacidad de los usuarios

Un modelo para clasificar los textos financieros al tiempo que protege la privacidad de los usuarios

Un modelo para clasificar los textos financieros al tiempo que protege la privacidad de los usuarios

Diagrama que resume el pipeline del modelo ideado por los investigadores. Crédito: Basu et al.

Durante la última década, los científicos informáticos desarrollaron una variedad de modelos de aprendizaje automático (ML) que pueden analizar grandes cantidades de datos de manera rápida y eficiente. Sin embargo, para ser aplicados en situaciones del mundo real que involucran el análisis de datos altamente sensibles, estos modelos deben proteger la privacidad de los usuarios y evitar que la información llegue a terceros o que los desarrolladores accedan a ella.

Investigadores del Instituto de Tecnología Manipal, la Universidad Carnagie Mellon y la Universidad Técnica de Yildiz han creado recientemente un modelo habilitado para la privacidad para el análisis y clasificación de textos financieros. Este modelo, presentado en un artículo publicado previamente en arXiv, se basa en una combinación de procesamiento del lenguaje natural (NLP) y técnicas de aprendizaje automático.

«Nuestro artículo se basó en nuestro trabajo anterior, denominado ‘Evaluación comparativa de la privacidad diferencial y el aprendizaje federado para modelos BERT'», dijo Priyam Basu, uno de los investigadores que llevó a cabo el estudio. Tech Xplore. «Este trabajo fue nuestro modesto intento de combinar los dominios del procesamiento del lenguaje natural (NLP) y el aprendizaje automático que preserva la privacidad».

El principal objetivo del trabajo reciente de Basu y sus colegas fue desarrollar un modelo de PNL que preserva la privacidad de los usuarios, evitando que otros accedan a sus datos. Dicho modelo podría ser particularmente útil para el análisis de extractos bancarios, declaraciones de impuestos y otros documentos financieros sensibles.

«El aprendizaje automático se basa principalmente en datos y le brinda conocimientos y predicciones e información basada en datos», dijo Basu. «Por lo tanto, es muy importante para nosotros profundizar en la investigación sobre cómo preservar la privacidad del usuario al mismo tiempo».

El marco desarrollado por Basu y sus colegas se basa en dos enfoques conocidos como privacidad diferencial y aprendizaje federado, combinados con representaciones de codificadores bidireccionales de transformadores (BERT), que son modelos de PNL reconocidos y ampliamente utilizados. Las técnicas de privacidad diferencial agregan una cierta cantidad de ruido a los datos que se alimentan al modelo. Como resultado, la parte que procesa los datos (por ejemplo, desarrolladores, empresas de tecnología u otras empresas) no puede obtener acceso a los documentos y datos reales, ya que los elementos individuales están ocultos.

«El aprendizaje federado, por otro lado, es un método de entrenamiento de un modelo en múltiples dispositivos descentralizados para que ningún dispositivo tenga acceso a todos los datos a la vez», explicó Basu. «BERT es un modelo de lenguaje que proporciona incrustaciones contextualizadas para texto en lenguaje natural que se puede usar más adelante en múltiples tareas, como clasificación, etiquetado de secuencias, análisis semántico, etc.»

Basu y sus colegas utilizaron la estrategia que desarrollaron para entrenar varios modelos de PNL para clasificar textos financieros. Luego evaluaron estos modelos en una serie de experimentos, donde los usaron para analizar datos del conjunto de datos del Financial Phrase Bank. Sus resultados fueron muy prometedores, ya que encontraron que los modelos de PNL funcionaban tan bien como otras técnicas de vanguardia para el análisis de textos financieros, al tiempo que aseguraban una mayor protección de datos.

El estudio de estos investigadores podría tener implicaciones importantes para varias industrias, incluido el sector financiero y otros campos que involucran el análisis de datos sensibles de los usuarios. En el futuro, los nuevos modelos que desarrollaron podrían ayudar a aumentar significativamente la privacidad asociada con las técnicas de PNL que analizan información personal y financiera.

«La clasificación y categorización basadas en datos en lenguaje natural se utiliza en muchos dominios y, por lo tanto, hemos proporcionado una forma de hacer lo mismo mientras mantenemos la privacidad de los datos del usuario, lo cual es muy importante en finanzas, donde los datos utilizados son muy sensibles. y confidencial «, dijo Basu. «Ahora planeamos mejorar la precisión lograda por nuestro modelo, sin tener que perder demasiado en el compromiso de privacidad. También esperamos explorar otras técnicas para lograr lo mismo, así como realizar otras tareas de PNL como NER, Semantic análisis y agrupación mediante DP y FL. »


Entrenando enormes modelos de inteligencia artificial en el cuidado de la salud mientras se protege la privacidad de los datos


Más información:
La privacidad habilitó la clasificación de textos financieros utilizando privacidad diferencial y aprendizaje federado. arXiv: 2110.01643 [cs.CL]. arxiv.org/abs/2110.01643

Evaluación comparativa de privacidad diferencial y aprendizaje federado para modelos BERT. arXiv: 2106.13973 [cs.CL]. arxiv.org/abs/2106.13973

© 2021 Science X Network

Citación: Un modelo para clasificar textos financieros al tiempo que protege la privacidad de los usuarios (2021, 13 de octubre) recuperado el 24 de octubre de 2021 de https://techxplore.com/news/2021-10-financial-texts-users-privacy.html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.



Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

El primer vistazo del evento Free Fire Diwali 2021 revela recompensas, máscaras y más

macOS Monterey en la función MBP

macOS Monterey: aquí están todas las funciones que su Mac Intel no admite