PAAKAT: Revista de Tecnología y Sociedad

Desarrollo de Software Dedicado a la Traducción de la Lengua Mexicana de Señas mediante Deep Learning y Machine Learning

Héctor Caballero Hernández, Vianney Muñoz Jiménez, Marco Antonio Ramos Corchado

Resumen


Existen diversas propuestas para abordar la interpretación de las lenguas de señas (LS) a lenguajes escritos y hablados, empleando desarrollos basados en dispositivos electrónicos y en técnicas de visión computacional. Entre los problemas más comunes para la interpretación de las LS se encuentra la falta de conjuntos de datos estandarizados para generar modelos de interpretación de LS y la ausencia de software multiplataforma. Esta investigación presenta el desarrollo de un software para equipos móviles y de sobremesa dedicado a la interpretación de la Lengua de Señas Mexicana (LSM). Adicionalmente, el software tiene la función de detección de objetos que se encuentren en espacios como casa-habitación y oficinas para su traducción a la LSM y a texto en español para facilitar la integración del vocabulario de la LSM, tanto como para personas sordomudas y sin discapacidad auditiva o del habla. Por otro lado, se ha desarrollado un conjunto de datos para la LSM con 42 clases, basado en distintos escenarios de 30 participantes e imágenes provenientes de internet para desarrollar una red neuronal convolucional (RNC) con el algoritmo YOLOv8 y un modelo de reconocimiento de Machine Learning (ML) mediante MediaPipe, el cual pude ser actualizado a través de un servicio en la nube. Los resultados para la RCN dedicada a la LSM muestran 90% de mAP50 y para el modelo ML un accuracy de 0.817. La RNC dedicada a la traducción de objetos al español consta de 79 clases provenientes del conjunto de datos COCO.


Palabras clave


Inteligencia artificial; conjunto de datos; visión computacional; personas sordomudas; discapacidad; LSM

Texto completo:

PDF

Referencias


Amorós-Pons, Anna, Comesaña-Comesaña, Patricia e Inna Alexeeva-Alexeev (2022). “Violencia de género en período de pandemia de coronavirus en los países del G-20: Campañas publicitarias en redes sociales”, en Historia y Comunicación Social, 27(2), 389-400. https://doi.org/10.5209/hics.84387 14 de agosto de 2023.

Basnin, N., Nahar, L. & Hossain, M. S. (2021). An integrated CNN-LSTM model for Bangla lexical sign language recognition. In Proceedings of International Conference on Trends in Computational and Cognitive Engineering: Proceedings of TCCE 2020, Springer-Singapore, 695-707. https://doi.org/10.1007/978-981-33-4673-4_57.

Breland, D. S., Skriubakken, S. B., Dayal, A., Jha, A., Yalavarthy, P. K. & Cenkeramaddi, L. R. (2021). Deep learning-based sign language digits recognition from thermal images with edge computing system. IEEE Sensors Journal, 21(9), 10445-10453. 10.1109/JSEN.2021.3061608

Cruz-Aldrete, M. (2018). La evaluación del modelo educativo bilingüe para la comunidad sorda en México: un problema sin voz. Voces de la Educación. https://www.revista.vocesdelaeducacion.com.mx/index.php/voces/article/view/91.

Ferdoush, S. & Li, X. (2014). Wireless sensor network system design using Raspberry Pi and Arduino for environmental monitoring applications. Procedia Computer Science, 34, 103-110. https://doi.org/10.1016/j.procs.2014.07.059.

González-Rodríguez, J. R., Córdova-Esparza, D. M., Terven, J. & Romero-González, J. A. (2024). Towards a Bidirectional Mexican Sign Language–Spanish Translation System: A Deep Learning Approach. Technologies, 12(1), 7. https://doi.org/10.3390/technologies12010007.

Gortarez-Pelayo, J. J., Morfín-Chávez, R. F. & López-Nava, I. H. (2023). DAKTILOS: An Interactive Platform for Teaching Mexican Sign Language (LSM). In International Conference on Ubiquitous Computing and Ambient Intelligence, Cham: Springer-Nature-Switzerland, 264-269. https://doi.org/10.1007/978-3-031-48642-5_25.

Hernández, R. R., Jaimes, E. I. G., Mora, V. T., Chau, A. L. & Morán, C. O. G. (2023). Impacto del sistema para la enseñanza y traducción de la lengua de señas mexicana UAEMex en instituciones públicas. Ciencia Latina Revista Científica Multidisciplinar, 7(1), 822-838. https://doi.org/10.37811/cl_rcm.v7i1.4434.

Jones, B. (2008). An EGEE Comparative Study: Grids and Clouds Evolution or revolution. Report comparing EGEE grid to Amazon Web Services, Dated, 11(06).

Juárez-Trujillo, I. A., Zavala de Paz, J. P., Palillero Sandoval, O. & Castillo Velásquez, F. A. (2023). Calibración de cámara multiespectral utilizando redes neuronales convolucionales. Computación y Sistemas, 27(3), 801-810. https://doi.org/10.13053/cys-27-3-4605.

Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D. & Zitnick, C. L. (2014). Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Springer International Publishing, Proceedings, Part V, 13, 740-755. https://doi.org/10.1007/978-3-319-10602-1_48.

Lugaresi, C., Tang, J., Nash, H., McClanahan, C., Uboweja, E., Hays, M. & Grundmann, M. (2019). Mediapipe: A framework for building perception pipelines. arXiv preprint arXiv:1906.08172. https://doi.org/10.48550/arXiv.1906.08172.

Martínez-Sánchez, V., Villalón-Turrubiates, I., Cervantes-Álvarez, F. & Hernández-Mejía, C. (2023). Exploring a Novel Mexican Sign Language Lexicon Video Dataset. Multimodal Technologies and Interaction, 7(8), 83. https://doi.org/10.3390/mti7080083.

Mehta, R., Sahni, J. & Khanna, K. (2018). Internet of things: Vision, applications and challenges. Procedia computer science, 132, 1263-1269. https://doi.org/10.1016/j.procs.2018.05.042.

Mejía-Pérez, K., Córdova-Esparza, D. M., Terven, J., Herrera-Navarro, A. M., García-Ramírez, T. & Ramírez-Pedraza, A. (2022). Automatic recognition of Mexican Sign Language using a depth camera and recurrent neural networks. Applied Sciences, 12(11), 5523. https://doi.org/10.3390/app12115523.

Morfín-Chávez, R. F., Gortarez-Pelayo, J. J. & López-Nava, I. H. (2023, November). Fingerspelling Recognition in Mexican Sign Language (LSM) Using Machine Learning. In Mexican International Conference on Artificial Intelligence. Cham: Springer-Nature-Switzerland, 110-120. https://doi.org/10.1007/978-3-031-47765-2_9.

Novillo-Vicuña, J., Rojas, D. H., Olivo, B. M., Ríos, J. M. & Villavicencio, O. C. (2018). Arduino y el Internet de las cosas (Vol. 45). 3 ciencias.

Palos-Sánchez, P. R., Arenas-Márquez, F. J. & Aguayo-Camacho, M. (2017). Cloud computing (SaaS) adoption as a strategic technology: Results of an empirical study. Mobile Information Systems, 2017(1), 2536040. https://doi.org/10.1155/2017/2536040.

Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2(1): 37–63. https://doi.org/10.48550/arXiv.2010.16061.

Quasim, M. T., Khan, M. A., Abdullah, M., Meraj, M., Singh, S. P. & Johri, P. (2019, December). Internet of things for smart healthcare: a hardware perspective. In 2019 first international conference of intelligent computing and engineering (ICOICE), IEEE, 1-5. 10.1109/ICOICE48418.2019.9035175.

Redmon, J., Divvala, S., Girshick, R. & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, 779-788. https://doi.org/10.48550/arXiv.1506.02640.

Ríos-Figueroa, H. V., Sánchez-García, A. J., Sosa-Jiménez, C. O. & Solís-González-Cosío, A. L. (2022). Use of Spherical and Cartesian Features for Learning and Recognition of the Static Mexican Sign Language Alphabet. Mathematics, 10(16), 2904. https://www.mdpi.com/2227-7390/10/16/2904.

Sánchez, J. A., Flores-Rivera, J. A. & Prietch, S. S. (2023, October). Designing a sign language training platform for hearing healthcare personnel. In Proceedings of the XI Latin American Conference on Human Computer Interaction, 1-9. https://doi.org/10.1145/3630970.3631057.

Sincan, O. M. & Keles, H. Y. (2020). Autsl: A large scale multi-modal turkish sign language dataset and baseline methods. IEEE, 8, 181340-181355.10.1109/ACCESS.2020.3028072.

Sosa-Jiménez, C. O., Ríos-Figueroa, H. V. & Solís-González-Cosío, A. L. (2022). A Prototype for Mexican Sign Language Recognition and Synthesis in Support of a Primary Care Physician. IEEE, 10, 127620-127635. 10.1109/ACCESS.2022.3226696

Trujillo-Romero, F. & García-Bautista, G. (2023). Mexican Sign Language Corpus: Towards an automatic translator. ACM Transactions on Asian and Low-Resource Language Information Processing. https://doi.org/10.1145/3591471.

Varela-Santos, H., Morales-Jiménez, A., Córdova-Esparza, D. M., Terven, J., Mirelez-Delgado, F. D. & Orenday-Delgado, A. (2021). Assistive device for the translation from Mexican sign language to verbal language. Computación y Sistemas, 25(3), 451-464. https://doi.org/10.13053/cys-25-3-3459.

Villanueva, J. G., Islas, L. J. O. & Ramírez, C. I. H. (2023). Experiencias de docentes sobre la enseñanza de la Lengua de Señas Mexicana como lengua natural en personas sordas desde una perspectiva de género. Revista de psicología de la Universidad Autónoma del Estado de México, 12(30), 217-249. https://doi.org/10.36677/rpsicologia.v12i30.20983.

Wen, T. H., Vandyke, D., Mrksic, N., Gasic, M., Rojas-Barahona, L. M., Su, P. H. & Young, S. (2016). A network-based end-to-end trainable task-oriented dialogue system. arXiv preprint arXiv:1604.04562.

Zepeta, H. Z., Rosales, G. A. G., Santiago, H. J. J. & Lee, M. M. (2022). Métricas de rendimiento para evaluar el aprendizaje automático en la clasificación de imágenes petroleras utilizando redes neuronales convolucionales. Ciencia Latina Revista Científica Multidisciplinar, 6(5), 4624-4637. https://doi.org/10.37811/cl_rcm.v6i5.342






PAAKAT: Revista de Tecnología y Sociedad, año 14, número 27, septiembre 2024- febrero de 2025, es una publicación electrónica semestral editada por la Universidad de Guadalajara, a través de Centro Universitario de Guadalajara. Calle Guanajuato. Núm. 1045; Guadalajara, Jalisco, México. Tels. 33 31 34 22 22. Dirección electrónica: http://www.udgvirtual.udg.mx/paakat/index.php/paakat. Correo electrónico:paakat@cugdl.udg.mx paakat.asistente.editorial@cugdl.udg.mx Editor responsable: Dr. Lázaro Marcos Chávez Aceves. Número de Reserva de Derechos al Uso Exclusivo del Título de la versión electrónica: 04-2011-111117155600-203, e-ISSN: 2007-3607, otorgados por el Instituto Nacional del Derecho de Autor. Responsable de la última actualización de este número: Centro Universitario de Guadalajara, Lázaro Marcos Chávez Aceves. Fecha de la última modificación: 1 de Diciembre de 2024.


Las opiniones expresadas por los autores no necesariamente reflejan la postura del editor de la publicación.

 

 

 

 

 

 



Esta obra está bajo Licencia Creative Commons Atribución-NoComercial 4.0 Internacional.