[:es]
La investigación centrada en TUI, uno de los mayores operadores turísticos del mundo, analiza 20 años de catálogos en alemán correspondientes a los destinos de Egipto, Chipre, Malta, Turquía, Baleares y Canarias. El objetivo principal de este estudio es analizar la imagen proyectada de estos lugares a través del lenguaje y las imágenes, comparando sistemáticamente el texto y el contenido visual de las páginas de introducción de cada destino a lo largo de dos décadas.
Para llevar a cabo este análisis, se emplearon técnicas de scraping y estructuración de datos mediante programación en Python, lo que permitió extraer textos e imágenes de los catálogos en formato PDF utilizando patrones de texto específicos.
Esta información se almacenó en diccionarios que fueron limpiados, ordenados e integrados en una base de datos robusta que contiene registros históricos de 20 años. En cuanto al análisis de sentimiento, se utilizó el lexicón SentiWS, específico para el idioma alemán, junto con la librería spaCy para comprender el contexto lingüístico y evaluar con precisión el tono emocional de los textos de cada destino.
A través del análisis de contenido textual, el equipo de investigación logró identificar las palabras más frecuentes y aquellas que más contribuyen al sentimiento, facilitando la realización de comparaciones exhaustivas entre los distintos destinos turísticos. Los resultados obtenidos hasta el momento han permitido identificar diferencias significativas en el tono y el vocabulario con el que TUI presenta cada lugar en sus catálogos. Como fase final de innovación, se está entrenando una inteligencia artificial para automatizar la obtención del índice de imagen proyectada.
[:en]The research focused on TUI, one of the world’s largest tour operators, analyzes 20 years of German-language catalogs for the destinations of Egypt, Cyprus, Malta, Turkey, the Balearic Islands, and the Canary Islands. The primary objective of this study is to analyze the projected image of these locations through language and visuals, systematically comparing the text and visual content of the introductory pages for each destination over two decades.
To conduct this analysis, scraping and data structuring techniques were employed using Python programming, which allowed for the extraction of texts and images from PDF catalogs through specific text patterns. This information was stored in dictionaries that were cleaned, organized, and integrated into a robust database containing 20 years of historical records.
Regarding sentiment analysis, the SentiWS lexicon (specifically for German) was used alongside the spaCy library, which enables the understanding of the linguistic context in German to accurately evaluate the emotional tone of the texts for each destination. Through textual content analysis, the research team identified the most frequent words and those that contribute most to sentiment, facilitating exhaustive comparisons between the various tourist destinations.
The results obtained thus far have identified significant differences in the tone and vocabulary TUI uses to present each destination in its catalogs. As a final phase of innovation, an Artificial Intelligence is currently being trained to automate the calculation of the projected image index.
[:]