Es especialista en cultura digital. Doctora en Humanidades por el Tecnológico de Monterrey.
Este trabajo efectúa una clasificación y una descripción sistemática de las técnicas digitales aplicadas al estudio de datos producidos por usuarios en redes sociodigitales. Se identifican los actores institucionales que las producen y promueven, se evalúan las herramientas disponibles y su ámbito de aplicación, y se presentan ejemplos de estudios que las utilizan. Se clasifican las técnicas en función del lugar que ocupan en una secuencia de investigación formada por cuatro etapas: recolección, limpieza, procesamiento y visualización de datos. Asimismo, se enfoca tanto en técnicas de procesamiento de textos como de imágenes; en el primer caso se aborda el análisis cuantitativo de contenidos, el análisis de redes y el análisis de sentimientos, mientras que en el segundo caso se centra en la analítica visual de fotografías y video en línea. También se incluye el análisis cuantitativo de reacciones, como likes y compartidos. En las conclusiones se evalúan de manera crítica los alcances de este estudio, dentro de los que se encuentran: su eficacia para la apreciación de conjuntos extensos de datos producidos en el contexto dinámico y fluido de las redes sociodigitales, y la posibilidad de identificar patrones y recurrencias dentro de estos.
This work makes a systematic classification and description of digital techniques applied to the study of data produced by users in social media. The institutional actors that produce and promote them are identified, the available tools and their scope are evaluated, and examples of studies that use them are presented. It Classifies the techniques according to the place they occupy in a research sequence formed by four stages: data collection, cleaning, processing and visualization. It focuses on both textual and image processing techniques. In the first case it addresses textual analytics, network analysis and sentiment analysis, while in the second case it focuses on the visual analysis of photographs and online video. The quantitative analysis of reactions, such as likes and shares, is also addressed. In the conclusions a critical evaluation of its scopes is carried out, among which are its effectiveness for the appreciation of extensive data sets produced in the dynamic and fluid context of social media, and the possibility of identifying patterns and recurrences in them.
En la última década ha surgido un fuerte interés por el uso de los contenidos generados por los usuarios de las redes sociodigitales para la investigación social, lo que pone el acento en su doble función: por un lado, constituyen una fuente primaria que permite estudiar las tendencias que la opinión pública expresa, en general, en las diferentes plataformas sociales, además de que permiten comprender la compleja lógica de las plataformas sociales como nuevos medios de comunicación (
En este contexto emergen varios programas de investigación, dentro de los que se destacan la iniciativa de métodos digitales (
En relación con análisis anteriores sobre las prácticas y entornos digitales, como la etnografía digital (
La implementación de técnicas digitales para la investigación social y el desplazamiento desde las prácticas hacia los objetos no representan solamente un cambio de procedimientos, sino que significa, por un lado, la posibilidad de entender la lógica de las plataformas sociales y la manera en que estas modelan la expresión pública y la cultura actual (
Este trabajo efectúa una clasificación y descripción sistemática de las técnicas digitales aplicadas al estudio de datos producidos por los usuarios en las redes sociodigitales, y evalúa las herramientas disponibles y su ámbito de aplicación. Consideraremos técnicas digitales a los modos de hacer que incluyen herramientas digitales o software para el estudio de objetos digitales, sean estos originados en la web o inicialmente analógicos y luego digitalizados (
Con el propósito de sistematizar un panorama heterogéneo y dinámico, es importante distinguir entre técnicas y herramientas. Las técnicas de investigación científica son procedimientos validados por la práctica, orientados generalmente a obtener y transformar información útil para la solución de problemas de conocimiento en las disciplinas científicas (
Respecto a las técnicas digitales, el software es el instrumento o herramienta de la técnica. Las herramientas son programas de software, algoritmos, desarrollados por una persona o un conjunto de estas; se encuentran disponibles de forma pública o privada, dependientes de su contexto de uso o aplicación. Además, las técnicas pueden ser más estables que las herramientas. Una herramienta puede desaparecer, pero otras pueden sustituirla. Generalmente, existe más de una herramienta para una técnica. La selección de la más adecuada deberá responder a un conjunto de parámetros entre los que se encuentran el ámbito de su desarrollo, el tipo de licenciamiento, la complejidad de su interfaz, entre otros.
Al basarse en la escritura de algoritmos complejos que escapan al conocimiento de los científicos sociales, las herramientas digitales son cajas negras: dispositivos que procesan información de entrada y arrojan información de salida, cuyo funcionamiento desconocemos (
Actualmente, una cantidad de diferentes actores sociales intervienen en la producción de herramientas digitales para el análisis de datos; no todos ellos, aunque sí un número significativo, pertenecen a las comunidades académicas. Existen herramientas provenientes del marketing, la ciencia de datos o, incluso, desarrolladas por las plataformas sociales que pueden usarse para la investigación social. En un sentido inverso, hay emprendimientos de origen académico que se han transformado en empresariales, como el paquete de visualización de datos Tableau, desprendimiento comercial de una investigación llevada a cabo en la Universidad de Stanford (
Estas condiciones de producción distinguen a la investigación digital de los métodos habitualmente usados en las ciencias sociales, en los que el investigador es quien diseña sus instrumentos de recolección y análisis de datos. Una consecuencia de esta apertura es que se debe delegar parte de la investigación a un artefacto construido por terceros.
Con el viraje de los estudios sociales y humanísticos hacia los objetos digitales y digitalizados, diferentes centros de investigación universitarios (varios de los cuales renovaron sus denominaciones como Media Lab o laboratorios de medios) desarrollaron instrumentos de recolección, análisis y visualización de datos. Estos fueron puestos, en mayor o menor medida, a disposición de las comunidades académicas. Varias de estas herramientas recolectan, procesan y visualizan datos, y entregan un producto terminado que combina los tres tipos de técnicas; existen otras que entregan datos y metadatos en formatos planos. Los investigadores deberán aplicar después diferentes técnicas e instrumentos para organizar los datos, asignarles sentido y contestar sus preguntas de investigación.
Las técnicas digitales para la investigación social han sido trabajadas exhaustivamente en la literatura en inglés. Se destacan las sistematizaciones sobre minería textual de
Ante el escenario heterogéneo y cambiante en el que se presentan técnicas y herramientas, no se trata de renunciar a la categorización, sino de trabajar sobre múltiples modos de clasificar instrumentalmente las técnicas digitales. En este caso, nos centraremos en la función de las técnicas en el proceso de investigación, pero existen otras posibilidades: según la materialidad del objeto digital, las características del software que se empleará y la pertenencia del objeto a una plataforma. La
El
Existen tres clases de
Un ejemplo de
El
Si la plataforma no habilita su API para recolectar información, no podremos obtener sus datos, al menos a través de esta. En general, las plataformas habilitan sus API para que los desarrolladores independientes creen nuevas aplicaciones para los datos, pero no para extraer información a fin de ser analizada; por ejemplo, Facebook habilita sus API para la creación de videojuegos, encuestas y aplicaciones de publicidad y
La limpieza de las bases de datos es un paso intermedio entre la recolección y el procesamiento de datos. Implica tiempo y esfuerzo, pero es la base para obtener un corpus que pueda manipularse y visualizarse correctamente. Una base de datos limpia posee una estructura de datos clara, confiable y bien organizada, de manera que podamos encontrarle sentido mediante una rápida exploración (
La estructura de datos se corresponde con una organización semántica. En una base de datos limpia cada columna es una variable, cada fila es una observación que contiene uno o más valores, usualmente formados por números o texto, y cada conjunto de observaciones es una tabla. El orden de una base de datos no forma parte de su estructura, pero hace más fácil explorar los datos antes de procesarlos. El orden estándar ubica en primer lugar a las variables fijas y en segundo a las variables numéricas; las variables relacionadas deben ubicarse contiguamente y las filas pueden ordenarse por la primera variable.
Existen problemas comunes en la limpieza de las bases de datos que pueden ser resueltos con los programas usuales de almacenamiento de datos o con
Una vez que hemos capturado los datos deberemos procesarlos para darles sentido. La ciencia de datos denomina
La denominación de analítica textual o minería textual proviene de la ciencia de la computación y es una derivación del concepto de minería de datos. Desde la ciencia de datos,
La literatura especializada menciona entre las principales técnicas la extracción de información, el resumen de textos, las respuestas a preguntas formuladas en lenguaje natural (
Voyant-Tools
La herramienta comienza a ser empleada en diversas áreas de la investigación social, no solamente en la que corresponde al análisis de medios sociales. En el área de la economía, por ejemplo,
En el área de la administración del conocimiento,
En el contexto de las plataformas sociales, el análisis de sentimientos se orienta a identificar si las interacciones contienen expresiones de estados de ánimo y si expresan sentimientos positivos (como entusiasmo o alegría) o negativos (como desacuerdo o ironía). Se basa en clasificadores de léxico que estiman el nivel de valencia emocional en orden de realizar una predicción. Los clasificadores se almacenan en diccionarios que pueden ser producidos automáticamente o creados por los usuarios. El
El principal problema de su aplicación a los contenidos de las redes sociales es que las interacciones, principalmente en los temas políticos y controversiales, suelen contener ironía y sarcasmo. Estas formas son difíciles de identificar por los algoritmos (
Visualizar e interpretar fenómenos como redes es parte de las culturas digitales actuales, estructuradas como espacios de interacción donde la información fluye y se comparte sin orden ni jerarquías aparentes. A la estrategia general de investigación diseñada sobre la base de estructuras de red se le denomina
El AVR se centra en dos rubros esenciales: los nodos y las aristas. Los primeros son las entidades que se relacionan entre sí; las segundas son los elementos que construyen las relaciones. Además, pueden caracterizarse según su peso o importancia en la red. Los nodos que establecen más relaciones con los demás, por ejemplo, los más retuiteados por otros, pueden verse más grandes, mientras que las aristas, como los tuits más retuiteados pueden verse más gruesas (
Las zonas de mayor aglomeración constituyen los
Los colores representan operaciones de clasificación de nodos, las comunidades, clústeres o agrupamientos entre nodos que pueden encontrarse en una red, la cual es determinada por el algoritmo de modularidad. Cuanto más se acerca a 1 el coeficiente de modularidad, más estructura de comunidades contiene la red (
En el estudio de Twitter, el AVR se ha usado especialmente para modelizar las conversaciones entre usuarios a través de retuits y menciones; se consideran los primeros como nodos y los segundos como aristas. Al aplicar el algoritmo de centralidad se identifican los usuarios centrales de la red, quienes pueden ser tanto los que más tuitean como los que son más retuiteados.
El AVR hace visible quiénes son los que más conversan en las redes, cuánto lo hacen y con qué otros usuarios lo hacen; lo que no identifica es qué se conversa. Si la discusión deriva en una disputa de sentidos y de influencias sobre las agendas mediáticas, se vuelve necesario saber no solamente quiénes son los que ejercen la influencia y en qué direcciones se esparcen, sino también qué sentidos se construyen.
En la investigación sobre plataformas sociales, varios estudios de caso han usado AVR. En la investigación social tradicional se había aplicado al estudio de los movimientos sociales no virtuales, y después se incorporó en los que suceden en línea.
Otra manera de implementar el AVR es aplicándolo a hashtags concurrentes (es cuando dos o más hashtags se encuentran en una misma publicación). Si se entiende que estos son macrotérminos que cristalizan y sintetizan los discursos, el análisis de redes se combina, en este caso, con el análisis textual de contenido, y agrega un componente que permite obtener la variedad de temas que se tratan en un conjunto de publicaciones (
El uso de hashtags concurrentes es más habitual en Instagram que en Twitter.
A pesar de que las plataformas sociales están repletas de imágenes, la cultura visual no ha sido un objeto central para los estudios digitales, en especial sobre lo que hace al experimentar y difundir metodologías relacionadas con el estudio de temáticas y estilos vinculados a plataformas (
El concepto de analítica visual, renombrado por
Nota: clústeres por color. Verde claro: ciudades globales. Rosado: moda, estilos de vida, arte y decoración. Verde oscuro: arte urbano, grafiti y turismo local. Celeste: comidas y bebidas. Naranja: turismo, viajes y colectivos de Instagram globales. Turquesa: turismo local y colectivos de Instagram locales.
El programa de procesamiento de imágenes Image-J es el instrumento usado por la fase técnica de la analítica cultural. Image-J es de código abierto y fue desarrollado por el Instituto Nacional de Salud de Estados Unidos, readaptado para su uso en el ámbito de las humanidades digitales y el estudio de medios mediante la extensión Image Plot. El programa actúa en dos fases: en la primera realiza una medición de valores de brillo, saturación y tonalidad de las imágenes; en la segunda reconstruye las imágenes en un montaje o collage, las transforma en miniaturas y las organiza según la medida o variable que el usuario elija.
En estos montajes o collages se pueden identificar patrones estéticos de color, brillo y saturación. Aunque existen modos de producir montajes de acuerdo con categorías de contenido previamente determinadas, los alcances de la propuesta se limitan a la identificación de patrones estéticos y, en ocasiones, temporales. Otras herramientas de uso más simple pueden ofrecer prestaciones similares, por ejemplo Image Sorter.
Existe un artículo paradigmático sobre el uso de la analítica cultural en el estudio de medios sociales escrito por
La
Además de la analítica visual,
Los avances realizados en los últimos tres años en el campo de la visión computacional han permitido el desarrollo y la comercialización de programas de clasificación automática de contenidos (
El análisis del video
La metodología no consiste en mirar los videos uno a uno como en una lectura cercana; por el contrario, la propuesta radica en la construcción de una base de datos con los metadatos de los videos. A partir de su análisis, los autores realizan una interpretación de las prácticas de las culturas participativas en YouTube, lo que sitúa su mirada en una tipificación de los productores de los videos, así como en las diferentes maneras en las que los usuarios expresan sus reacciones ante estos, y distinguen entre las acciones de mirar, comentar y compartir un video.
Las métricas de reacciones se definen como las maneras de medir la recepción y la circulación de una publicación en las plataformas sociales. Se basan en los indicadores de recepción de los usuarios, como los
La literatura proveniente del
La investigación en métodos digitales entiende que la métrica de reacciones es valiosa para comprender las interacciones en los medios sociales, pero propone una reorientación que consiste en identificar qué nivel de interés social presentan los usuarios sobre un asunto determinado y cómo se expresa y construye ese interés en términos de conversaciones y conexiones entre usuarios.
La cantidad de reacciones que recibe un
La producción de una visualización consiste en codificar información en un conjunto de elementos básicos como el tamaño, la forma, el color y la posición de cada uno de los ítems que la forman (
A los efectos de las técnicas revisadas en este artículo podemos considerar que las etapas de procesamiento y visualización se combinan en varias de ellas. Esto es lo que sucede con las nubes de palabras que produce la minería de textos, con los montajes fotográficos que resultan de la analítica visual y con los grafos que elabora el AVR. En otros casos existe un
Se cuenta con varias herramientas para la elaboración de gráficos. En general, pueden desarrollarse con las herramientas gráficas de las planillas de cálculo comunes. Además de estas, el paquete comercial de Tableau Software
Otro emprendimiento académico es Wrangler,
Este artículo revisó un repertorio de técnicas digitales para el estudio de contenidos generados por los usuarios en las redes sociodigitales. Consideradas en su producción, diferentes ámbitos, actores académicos y no académicos han desarrollado técnicas y herramientas para el tratamiento de datos producidos en estas redes. Si las técnicas y herramientas provienen del
Las técnicas digitales reciben diferentes modos de clasificación: según el lugar que ocupan en el proceso de investigación, en las técnicas de recolección, de limpieza, de procesamiento y de visualización; además, pueden distinguirse según el tipo de objeto a analizar: texto, imagen, video o reacciones. En la etapa de recolección de información, la técnica de
Si la función fundamental de una técnica es operar sobre un conjunto de datos para extraer información de ellos, las técnicas presentadas son eficientes; aunque no todas poseen la misma capacidad de acceso y uso. De las presentadas en este trabajo, las técnicas de minería textual y las de analítica textual pueden llevarse a cabo mediante herramientas de uso simple que no necesitan mayor capacitación para los investigadores; otras, como el análisis visual de redes o la visión computada, requieren de entrenamientos específicos en el primer caso, y de trabajos interdisciplinarios con la ciencia de datos, en el segundo. Futuros trabajos podrán aportar, mediante diversos métodos al conocimiento acerca de los tipos de técnicas digitales y sus contextos de investigación en Latinoamérica.
Ver
Ver
Tutorial sobre Image Plot en
Ver
Ver
Ver
Ver
Ver
Ver
CÓMO CITAR ESTE ARTÍCULO:Sued, G. E. (2020). Repertorio de técnicas digitales para la investigación con contenidos generados en redes sociodigitales.