Las personas decididas a difundir mensajes tóxicos en línea han optado por enmascarar sus palabras para evitar los filtros de moderación automatizados.
Un usuario puede reemplazar letras con números o símbolos, por ejemplo, escribiendo «Eres estúpido» en lugar de «Eres estúpido».
Otra táctica consiste en combinar palabras, como «IdiotFace». Hacer esto enmascara la intención dañina de los sistemas que buscan palabras tóxicas individuales.
De manera similar, los términos dañinos se pueden modificar con espacios o caracteres adicionales, como «hate » o «h@te», pasando efectivamente por filtros basados en palabras clave.
Si bien la intención sigue siendo dañina, las herramientas de moderación tradicionales a menudo pasan por alto esos mensajes. Esto deja a los usuarios (particularmente a los grupos vulnerables) expuestos a su impacto negativo.
Para abordar esto, hemos desarrollado un nueva técnica de preprocesamiento diseñado para ayudar a las herramientas de moderación a manejar de manera más efectiva las sutiles complejidades de la toxicidad oculta.
Un asistente inteligente
Nuestra herramienta funciona en conjunto con la moderación existente. Actúa como un asistente inteligente, preparando el contenido para una evaluación más profunda y precisa reestructurando y refinando el texto de entrada.
Al abordar los trucos comunes que emplean los usuarios para disfrazar intenciones dañinas, se garantiza que los sistemas de moderación sean más efectivos. La herramienta realiza tres funciones clave.
- Primero simplifica el texto. Los elementos irrelevantes, como la puntuación excesiva o los caracteres superfluos, se eliminan para que el texto sea sencillo y esté listo para su evaluación.
- Luego estandariza lo que está escrito. Se resuelven variaciones de ortografía, redacción y gramática. Esto incluye interpretar errores ortográficos deliberados («h8te» por «odio»).
- Finalmente, busca patrones. Se identifican y normalizan estrategias recurrentes, como dividir palabras tóxicas («I didt») o incorporarlas en frases benignas, para revelar la intención subyacente.
Estos pasos pueden separar palabras compuestas como «IdiotFace» o normalizar frases modificadas como «Y0u’re st00pid». Esto hace que el contenido dañino sea visible para los filtros tradicionales.
Es importante destacar que nuestro trabajo no consiste en reinventar la rueda, sino en garantizar que la rueda existente funcione con la eficacia que debería, incluso cuando se enfrente a mensajes tóxicos disfrazados.
Detectar formas sutiles de toxicidad
Las aplicaciones de esta herramienta se extienden a una amplia gama de entornos en línea. Para las plataformas de redes sociales, mejora la capacidad de detectar mensajes dañinos, creando un espacio más seguro para los usuarios. Esto es particularmente importante para proteger al público más joven, que puede ser más vulnerable al abuso en línea.
Al detectar formas sutiles de toxicidad, la herramienta ayuda a evitar que comportamientos dañinos como el acoso persistan sin control.
Las empresas también pueden utilizar esta tecnología para salvaguardar su presencia en línea. Las campañas negativas o los ataques encubiertos a las marcas suelen emplear mensajes sutiles y disfrazados para evitar la detección. Al procesar dicho contenido antes de moderarlo, la herramienta garantiza que las empresas puedan responder rápidamente a cualquier amenaza a su reputación.
Además, los formuladores de políticas y las organizaciones que monitorean el discurso público pueden beneficiarse de este sistema. La toxicidad oculta, particularmente en discusiones polarizadas, puede socavar los esfuerzos por mantener un diálogo constructivo.
La herramienta proporciona una forma más sólida de identificar contenidos problemáticos y garantizar que los debates sigan siendo respetuosos y productivos.
Mejor moderación
Nuestra herramienta marca un avance importante en la moderación de contenidos. Al abordar las limitaciones de los filtros tradicionales basados en palabras clave, ofrece una solución práctica al persistente problema de la toxicidad oculta.
Es importante destacar que demuestra cómo mejoras pequeñas pero específicas pueden marcar una gran diferencia en la creación de entornos en línea más seguros e inclusivos. A medida que la comunicación digital continúa evolucionando, herramientas como la nuestra desempeñarán un papel cada vez más vital en la protección de los usuarios y el fomento de interacciones positivas.
Si bien esta investigación aborda los desafíos de detectar toxicidad oculta en el texto, el viaje está lejos de terminar.
Es probable que los avances futuros profundicen en las complejidades del contexto, analizando cómo cambia el significado dependiendo de la dinámica conversacional, los matices culturales y la intención.
Basándose en esta base, la próxima generación de sistemas de moderación de contenidos podría descubrir no sólo lo que se dice sino también las circunstancias en las que se dice, allanando el camino para espacios en línea más seguros e inclusivos.
Este artículo se republica desde La conversación bajo una licencia Creative Commons. Lea el artículo original.
Citación: Desenmascarar el odio oculto en línea: una nueva herramienta ayuda a detectar comentarios desagradables, incluso cuando están disfrazados (28 de noviembre de 2024), recuperado el 28 de noviembre de 2024 de https://techxplore.com/news/2024-11-unmasking-hidden-online -herramienta-nasty.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.
GIPHY App Key not set. Please check settings