Para consultar, descargar, usar, compartir.
En el desarrollo de sus funciones, la Administración Pública Nacional (APN) genera y utiliza datos periódicamente. La apertura de estos datos constituye una política que promueve la transparencia en la gestión pública, a la vez que genera valor agregado para terceros1.
El valor de abrir datos públicos reside en que deben ser:
Fáciles de encontrar
Accesibles para distintos tipos de usuarios y herramientas
Útiles para el análisis (comparables, interoperables con otros datos, etc.)
Fáciles de integrar a sistemas, aplicaciones y otros desarrollos
En el 2020, la Dirección Nacional de Mercados y Estadística (DNMyE) del Ministerio de Turismo y Deportes inauguró el portal de datos vinculados a la actividad turística del país, siguiendo los lineamientos y estándares de datos abiertos.
Podés acceder al Portal dentro del Sistema de Información Turística de la Argentina (SINTA).
Al día de la fecha, el portal cuenta con un total de:
11 conjuntos de datos o datasets
114 recursos publicados o distribuciones, con frecuencias mensuales, trimestrales y anuales
Más de 1260 series de tiempo, accesibles por medio de la API de Series de Tiempo de la República Argentina
770 usuarios mensuales que consultan datos del portal desde distintas partes de la Argentina y el mundo
El portal está basado en la tecnología de Andino desarrollada por el equipo de Datos Argentina con el fin de facilitar la ditribución de datos de organismos pertenecientes a la APN. Andino se construye a su vez sobre CKAN, un sistema de gestión de datos de código abierto.
La DNMyE trabaja con numerosas fuentes de información que permiten analizar la actividad turística de manera integral. Para organizar el contenido que se comparte, el portal se encuentra estructurado de acuerdo a temas dentro del turismo.
En la página de inicio del sitio se pueden visualizar los seis grupos o temas en los que se organizan los datos actualmente. Dentro de cada grupo, podemos encontrar uno o más datasets.
Un dataset es un agrupamiento de recursos de datos, permite la organización de archivos y la documentación de los metadatos de la información.
A su vez, dentro de cada dataset podemos encontrar los recursos o distribuciones. Estos constituyen la unidad de información más pequeña y son la pieza fundamental del portal ya que contienen los datos a consumir por el usuario.
Así, podemos acceder al grupo Sector hotelero dentro del cual nos encontramos con dos datasets: uno de la Encuesta de Ocupación Hotelera (EOH) y otro del Padrón Único Nacional de Alojamiento turístico de la Argentina (PUNA). Cada uno de estos datasets contiene un conjunto de recursos o distribuciones relacionados, por ejemplo, dentro de EOH encontramos archivos en formato CSV (separados por coma) con la cantidad de viajeros hospedados hoteles y parahoteles según tipo de residencia, pernoctes, estadía media, etc.
A continuación te presentamos una interfaz interactiva para navegar por el catálogo2 del portal, desagregando cada grupo en datasets, y cada dataset en distribuciones.
catalogo <- readxl::read_excel("catalog.xlsx")
collapsibleTree::collapsibleTree(catalogo,
colnames(catalogo),
linkLength = 200, #nodeSize = "leafCount",
root = "TURISMO",
fontSize = 10)
Dentro de los recursos que se disponibilizan en cada dataset se encuentran los recursos denominados Serie de tiempo. Estos recursos resumen los datos de las demás distribuciones en formato de series de tiempo, es decir, que contienen la evolución en un período (sea mensual, trimestral, etc.) de un indicador puntual. Las series de tiempo son accesibles a través de la API3 para su consulta rápida y gráfica, entrando a la pestaña de Series.
La EOH es un relevamiento realizado en forma continua desde el 2004, bajo la coordinación del MINTURDEP y el Instituto Nacional de Estadísticas y Censos (INDEC), que tiene como objetivo medir el impacto del turismo interno e internacional sobre la actividad de los establecimientos hoteleros y para-hoteleros.
Dentro del dataset de la EOH, van a encontrar recursos que ofrecen información de viajeros hospedados, pernoctaciones, estadías promedio, tasas de ocupación (en plazas y habitaciones), facturación, ingresos (por habitación disponible y ocupada) y puestos de trabajo. Esta información se ofrece desagregada por región de destino (o localidad) y categoría del establecimiento; y por residencia, en el caso de los recursos relacionados con viajeros hospedados, pernoctaciones y estadías promedio.
El dataset de la EOH actualiza sus recursos de manera mensual, en el mismo momento en que se publica el informe técnico del relevamiento en el portal de SINTA; existiendo una distancia de (aproximadamente) dos meses entre la publicación y el relevamiento de los datos (por ejemplo, el 21 de junio de 2022 se publicaron los datos correspondientes al mes de mayo de 2022).
El PUNA lista todos los establecimientos de alojamiento turístico de la Argentina, a partir de las siguientes fuentes de información: organismos provinciales y municipales de turismo que elaboran el padrón de alojamiento de su provincia o localidad; el INDEC a través de la Encuesta de Ocupación Hotelera y fuentes secundarias especializadas en turismo relevadas desde la DNMYE.
En este dataset se encuentran recursos con información de la cantidad de plazas, habitaciones y establecimientos turísticos por provincia, categoría y cadena hotelera. También se encuentra disponible una base agrupada con datos por ruta natural, región, provincia, localidad, clasificación y tipo de establecimiento. Toda la información refiere al año 2020, última actualización del PUNA.
Los datos que se ofrecen en este dataset se producen en base a la información de la Dirección Nacional de Migraciones y de la Encuesta de Turismo Internacional (INDEC-Ministerio de Turismo y Deportes) y comprenden todos los pasos de ingreso/egreso al/del país.
El dataset incluye un recurso de turismo receptivo, desagregado por país o región de origen de los turistas, según vía de ingreso al país (aérea, terrestre o fluvial/marítimo); mismo recurso para el turismo emisivo, desagregado por país o región de destino, según vía de egreso del país; y un recurso donde se calcula el saldo de turistas, desagregado por país o región y vía de ingreso/egreso.
La información se actualiza de manera mensual, en el mismo momento en el que se postea el informe de Turismo Internacional.
La ETI es un operativo de encuesta continuo desde el año 2004 realizado conjuntamente el INDEC y el MINTURDEP. Refiere a estadísticas de turismo internacional de Argentina en los siguientes pasos relevados: Aerop. Int. de Ezeiza, Aeroparque J. Newbery, Aerop. Int. de Córdoba, Aerop. Int. de Mendoza, Puerto de Bs. As. y en el paso terrestre Cristo Redentor. Se cuenta con información de turistas residentes y no residentes, pernoctes, gasto, tipo de alojamiento, motivo del viaje, entre otras variables.
Los recursos del dataset ofrecen datos tanto del turismo internacional emisivo como del receptivo, incluyendo información de turistas, pernoctaciones, estadía media y gasto (en USD), con desagregación por paso, origen/destino de los turistas, motivo de viaje y principal tipo de alojamiento utilizado en el destino.
Mención aparte merecen los recursos de turistas no residentes que visitan nuestro país, ingresados por los pasos Ezeiza/Aeroparque, que aportan información desagregada por provincia visitada y por tipo de recorrido del viaje (se diferencia a los que visitaron solo la provincia de destino, los que visitaron dicha provincia y otra provincia, y los que no visitaron la provincia). En estos recursos se agrega la variable “casos_muestrales”, que debe ser tenida en cuenta a la hora de analizar la información ofrecida (se recomienda no sacar conclusiones en base a muestras poco robustas).
Por motivos de diseño muestral, tanto la desagregación a nivel temporal de los recursos como la actualización de la información dependen de tres factores: el paso de ingreso o egreso al/del país; el tipo de información presentada; y el nivel de desagregación de la misma.
Los recursos que se actualizan de manera mensual (a la par de la publicación del Informe de Turismo Internacional) son los que presentan información de turistas, pernoctes y estadías promedio, desagregadas por origen/destino de los turistas, para los pasos Ezeiza/Aeroparque. El recurso que ofrece misma información de turistas no residentes, desagregada por provincia de destino y recorrido de viaje, también se actualiza mensualmente. El resto de los recursos se actualizan trimestralmente, junto con la publicación de datos del mes que cierra un trimestre (marzo, junio, septiembre, diciembre).
Al igual que en el caso de la EOH, existe una distancia aproximada de dos meses entre el momento de relevar la información y la publicación de la misma.
La EVyTH tiene como objetivo medir la evolución de los viajes realizados por los hogares argentinos, sus características y computar aspectos socio-demográficos que permitan caracterizar a los turistas residentes.
Podés conocer más sobre este operativo con información trimestral visitando los posts de nuestra Bitácora.
Existen dos conjuntos de datos sobre EVyTH.
Base de microdatos de la EVyTH: contiene los datos surgidos de las encuestas a nivel de hogares, permitiendo realizar procesamientos que excedan a la información ya publicada en informes, reportes y otros recursos del portal. También se cuenta con el respectivo diseño de registro, con el cual se pueden identificar el nombre de las variables (columnas), las categorías de respuesta y sus respectivas etiquetas. La base tiene datos del año 2012 hasta la última actualización y se encuentra en dsitintos formatos (.csv, .txt, etc.)
Recursos de la EVyTH: cuenta con estadísticas de turistas residentes por región de destino, región de origen, edad, sexo, quintil de ingresos, tipo de transporte, tipo de alojamiento y pernoctaciones.
Se dispone información de los certificados de circulación emitidos para ir de vacaciones durante la emergencia sanitaria. Presenta datos de cantidad de certificados totales emitidos y cantidad de personas que lo solicitaron por fecha de ingreso (día), provincia de origen y destino, desde el 01 de diciembre de 2020 al 01 de marzo de 2021.
Se cuenta con un dataset de estadísticas de parques nacionales cuya fuente es el Registro Nacional de Autorizaciones, Recaudaciones e Infracciones (RENARI) de la Administración de Parques Nacionales. Los datos refieren al total de visitas registrados en 35 parques nacionales según tipo de residencia del visitante (residente o no residente) y región de destino a nivel mensual.
Se recopila información del Sistema Argentino de Calidad Turística (SACT), un conjunto de herramientas especialmente diseñadas para promover la calidad bajo estándares de sustentabilidad social, económica, cultural y ambiental en cada una de las prestaciones turísticas que brindan los destinos de Argentina.
En este dataset se puede analizar la cantidad de organizaciones turísticas distinguidas y/o certificadas por el SACT, con identificación de rubro, subrubro, ubicación geográfica, programa y subprograma al cual se adhirieron, fecha de distinción y/o certificación.
Aquí se presentan datos del Programa Nacional de Inversiones Turísticas (PNIT) respecto de los fondos deseignados para inversiones de interés turístico. El objetivo de este programa es fortalecer los destinos y productos turísticos con vistas a la captación y radicación de inversiones privadas, posibilitando generar más empleo y desarrollo socio-económico territorial.
El recurso de este tema permite conocer el listado de proyectos turísticos con identificación de año de firma de convenio, provincia, departamento y municipio en el que se ejecutó.
Para conocer las fechas de publicación de los informes mencionados/actualización de datasets, podés acceder al calendario de la DNMyE.
Al abrir datos permitimos la libre descarga, distribución, transformación, exhibición y representación de los mismos, con la correspondiente cita a la DNMyE, a cualquier usuario para que incluya en sus propios proyectos e investigaciones.
Veamos un ejemplo de uso de datos abiertos con el lenguaje de programación R y el software Rstudio. Partiendo del recurso de Visitas a los Parques Nacionales por región de destino según tipo de residencia del visitante en base a datos de la Administración de Parques Nacionales, generaremos un gráfico para visualizar la evolución en la cantidad de visitas a Parques Nacionales por residencia. Luego haremos otro breve análisis de la proporción de residentes y no residentes por región.
1. Leyendo los datos
Empezamos por traer los datos a nuestro espacio de trabajo. Para esto tenemos dos opciones:
A. Descargar el recurso del portal en nuestro dispositivo y cargarlo en el programa de nuestra preferencia.
B. Utilizar la URL del recurso para levantar los datos sin necesidad de descargar el archivo.
Optaremos por la segunda opción, usando la función read.csv() para leer archivos separados por coma.
Así luce nuestra base de datos:
indice_tiempo region_de_destino origen_visitantes visitas
1 2008-01-01 buenos aires no residentes 0
2 2008-01-01 buenos aires residentes 885
3 2008-01-01 buenos aires total 885
4 2008-01-01 cordoba no residentes 145
5 2008-01-01 cordoba residentes 717
observaciones
1
2
3
4
5
2. Transformación de datos
El recurso viene con una pre-limpieza y una estructura sencilla para poder trabajarlo, sin embargo vamos a hacer unas pequeñas transformaciones antes de armar las visualizaciones.
Para el gráfico de evolución quitamos la fila con los subtotales regionales, ya que agruparemos por mes y residencia para comparar la cantidad de visitas por cada categoría (residentes y no residentes). Además filtramos los datos a partir del 2018 para acortar el volumen de datos a graficar y pasamos la columna indice_tiempo a formato fecha.
library(tidyverse) #Cargo librería
#Creo tabla
evolucion_pn <- datos_pn %>%
filter(origen_visitantes != "total", #Filtro datos
indice_tiempo >= "2018-01-01") %>%
group_by(indice_tiempo, origen_visitantes) %>%
summarise(visitas = sum(visitas, na.rm = T)) %>% #Calculo visitas por mes y origen
ungroup() %>%
mutate(indice_tiempo = as.Date(indice_tiempo)) #Transformo columna a formato fecha
Ahora nuestra tabla se ve así:
# A tibble: 5 × 3
indice_tiempo origen_visitantes visitas
<date> <chr> <int>
1 2018-01-01 no residentes 167987
2 2018-01-01 residentes 514310
3 2018-02-01 no residentes 142845
4 2018-02-01 residentes 373521
5 2018-03-01 no residentes 121394
Para nuestro gráfico por región, filtramos los datos de diciembre 2019 para contar con información representativa del flujo de visitas “normal” (ya que a partir de marzo 2020 el turismo se vio afectado por la pandemia). Luego pasamos la columna que contiene los nombres de las regiones a mayúsculas y agregamos la tilde en “Cordoba”.
Finalmente, calculamos la proporción por residencia para cada región de destino.
regiones_pn <- datos_pn %>%
filter(origen_visitantes != "total", #Filtro datos
indice_tiempo == "2019-12-01") %>%
mutate(region_de_destino = str_to_title(region_de_destino), #Ajusto nombres de regiones
region_de_destino = ifelse(region_de_destino == "Cordoba",
"Córdoba", region_de_destino)) %>%
group_by(region_de_destino) %>%
mutate(proporcion = visitas/sum(visitas)) %>% #Calculo proporción de visitas por región
ungroup()
Nuestra tabla queda así:
# A tibble: 5 × 6
indice_tiempo region_de_destino origen_vis…¹ visitas obser…² propo…³
<chr> <chr> <chr> <int> <chr> <dbl>
1 2019-12-01 Buenos Aires no resident… 10 "" 0.00835
2 2019-12-01 Buenos Aires residentes 1188 "" 0.992
3 2019-12-01 Córdoba no resident… 195 "" 0.159
4 2019-12-01 Córdoba residentes 1032 "" 0.841
5 2019-12-01 Cuyo no resident… 237 "" 0.132
# … with abbreviated variable names ¹origen_visitantes,
# ²observaciones, ³proporcion
3. Visualizaciones
Usando el paquete ggplot2 vamos a armar nuestros gráficos.
Para la evolución elegimos un gráfico de líneas y trazamos una línea con un color distinto para cada categoría de origen, de manera de distinguir residentes de no residentes.
options(scipen = 99) #Cantidad máxima de dígitos que se muestran en los gráficos
# Armo gráfico de evolución
evolucion_pn %>%
ggplot() +
geom_line(aes(indice_tiempo, visitas, #Capa con líneas por categoría
color = origen_visitantes)) +
geom_point(aes(indice_tiempo, visitas, color = origen_visitantes)) + #Capa con puntos por categoría
scale_color_manual(values = c("residentes" = "red",
"no residentes" = "blue")) + #Asigno colores a cada categoria
scale_x_date(date_breaks = "3 month", #Configuro etiquetas del eje X como fecha
date_labels = "%b%y") +
theme_minimal() +
theme(axis.text.x = element_text(size = 10, angle = 45), #Personalizo el theme
legend.position = "bottom",
title = element_text(size = 10),
plot.caption = element_text(size = 7)) +
labs(title = "Evolución mensual de las visitas a Parques Nacionales según origen", #Defino etiquetas de título, ejes y fuente
x="", y = "Visitas", color = "Visitantes",
caption = "Fuente: Dirección Nacional de Mercados y Estadística, Ministerio de Turismo y Deportes, en base a datos suministrados \npor la Dirección de Mercadeo de la Dirección Nacional de Uso Público de la Administración de Parques Nacionales.")
Nota: al ver el gráfico se evidencia la falta de visitantes durante el 2020 por causa de la pandemia. Si bien esta información es conocida, desde la DNMyE incorporamos una columna de observaciones en los recursos para hacer este tipo de aclaraciones en caso de eventos extraordinarios que impactan en los datos.
Ahora nos interesa saber si existen regiones con mayor proporción de visitantes residentes o no residentes, en otras palabras, conocer si las regiones reciben más turismo interno o internacional. Para esto hacemos un gráfico de barras apiladas de acuerdo a los porcentajes que representa cada categoría al interior de la región, algo que calculamos anteriormente.
#Armo gráfico por región
regiones_pn %>%
ggplot(aes(fill=origen_visitantes, y=proporcion, x=region_de_destino)) +
geom_col(position="fill") + #Gráfico de columnas
geom_text(aes(x = region_de_destino, y = proporcion,
label = paste0(round(proporcion*100,1), " %"), group = origen_visitantes),
position = position_stack(vjust = 0.5), size = 3) + #Agrego etiquetas con porcentajes
scale_y_continuous(labels = scales::percent, limits = c(0,1)) + #Ajusto eje Y como porcentaje
theme_minimal() + #Personalizo theme
theme(legend.position = "none",
title = element_text(size = 10),
plot.caption = element_text(size = 7)
) + #Agrego etiquetas
labs(title = "Participación de las visitas en Parques Nacionales según origen",
subtitle = "en porcentaje, diciembre 2019",
x="",y="",
caption = "Fuente: Dirección Nacional de Mercados y Estadística, Ministerio de Turismo y Deportes, en base a datos suministrados \npor la Dirección de Mercadeo de la Dirección Nacional de Uso Público de la Administración de Parques Nacionales.")
Este gráfico nos permite ver rápidamente que las regiones Litoral y Patagonia son las que reciben más visitas de no residentes en Parques Nacionales.
Ya tenemos nuestras visualizaciones sobre visitas a parques nacionales. ¡Animáte a hacer la tuya!
Conocé más sobre datos abiertos y el acceso a la información pública visitando: https://www.argentina.gob.ar/aaip/accesoinformacion/datospublicos↩︎
El catálogo recopila y ordena todos los metadatos del conjunto de datos abiertos de una organización.↩︎
Una Application Programming Interface (API) es una interfaz de programación de aplicaciones que permite la consulta programática y personalizada de datos.↩︎