Representación del flujo de navegación en R

Una fuente de información interesante al analizar el comportamiento de los usuarios en una web es el estudio de las páginas que se han visitado. Para ello, tener una representación del flujo de navegación de un site puede ser una herramienta realmente útil. ¿Qué nos va a aportar el flujo de navegación? Por ejemplo, nos puede ayudar a detectar por dónde entran los usuarios, los puntos de abandono de la web, los patrones de navegación en una compra y otros muchos factores.

Si además, contamos con la posibilidad de filtrar los datos usados para la representación del flujo de navegación de la web podemos obtener aún más información de forma muy visual cómo el éxito de una campaña  o el efecto de la mejora de ciertos pasos del proceso de compra de un producto.

En este artículo nos centraremos en las principales opciones que se pueden aplicar para la representación del flujo de navegación de una web. En particular todos los modelos propuestos se pueden implementar desde R con la ayuda de D3, una librería para construir objetos interactivos desde JavaScript. Existen varios tipos de representación, el resultado escogido dependerá básicamente del objetivo que se persiga y el nivel de agrupación de los datos que usemos.

Previo a la representación del flujo web será necesario definir los contenidos del flujo. Para páginas sencillas podemos considerar cada url como un contenido diferente, pero para páginas más complejas se tendrá que agrupar las diferentes direcciones url de la página bajo algún criterio particular para una mayor comprensión del flujo de navegación. Una vez delimitados los contenidos con los que la representación trabajará, proponemos cuatro alternativas de representación, las indicamos con su nombre en inglés por estar su uso más extendido : sankey, sunburst, networkchord diagram.

Sankey

El diagrama de Sankey consiste en una técnica de visualización para contenidos con formato de flujo ya sea de navegación o de otros como podría ser el de flujos de energía. En este diagrama la amplitud de las flechas de enlace de un contenido a otro se muestra proporcional al flujo de este. Un diagrama Sankey está formado básicamente por dos elementos, los nodos y los enlaces.  Los nodos corresponden a los diferentes contenidos que forman parte de la navegación. Por otro lado, los enlaces consisten en las flechas que unen dos contenidos o nodos.

Para trabajar con este diagrama desde R destacamos dos librerías, networkD3 googleVis. Ambas librerías presentan un amplio rango de personalización a nivel de nodos, enlaces, colores… Dejamos un ejemplo de la visualización de un ejemplo para cada una de ellas, los datos observados no consisten en ningún de los casos a un flujo de navegación web.

Imagen 1. Diagrama desarrollado en R con la librería networkD3  mediante la función sankeyNetwork.


Imagen 2. Diagrama desarrollado en con la librería googleVis mediante la función gvisSankey.

A favor: Engloba en una sola imagen todos los pasos de un modo ordenado sin perder la información de flujo.

En contra: Para que el diagrama sea interpretable se requiere tener los contenidos muy filtrados y preferiblemente manipular los contenidos de modo que el retorno se entienda como un paso más del Sankey.

Sunburst

El Sunburst consiste en la representación escalonada de coronas completas y fragmentadas circunscritas. Cada corona representa un nivel del flujo de navegación siendo la más interior, la entrada al site y la más exterior la salida. Dentro de cada nivel o corona, se puede observar el contenido visitado con la proporción que representa en ese nivel respecto a la corona anterior. Este tipo de representación del flujo de navegación permite una interpretación muy intuitiva de los contenidos visitados, pero aporta menos información a modo global.

Resultado de imagen de sunburst plot gif

Imagen 3. Diagrama desarrollado en R con la librería sunburstR mediante la función sund2b.

A favor: Permite detectar fácilmente el peso de un camino particular y ver el retorno a un contenido particular sin manipulación alguna.

En contra: Alto coste computacional desde R. No podemos fijar un camino sin interactuar con el diagrama.

Network

Un diagrama en forma de red está formado por nodos y enlaces. Pero a diferencia del Sankey, la estructura y disposición de estos no se distribuye por pasos ni por amplitud, si no que todos los enlaces tienen el mismo grosor y los nodos se encuentran más cercanos entre ellos si existe una mayor conexión. Este diagrama nos permite visualizar mejor las relaciones entre los nodos y como se agrupan.

enter image description here

Imagen 4. Diagrama desarrollado en con la librería networkD3 y la función forceNetwork.

A favor: Si queremos estudiar la relación entre un conjunto de contenidos (nodos) este método simplifica la tarea.

En contra: Con muchos enlaces se complica la interpretación del diagrama. Perdemos a nivel visual la información de los enlaces que otros diagramas tienen.

Chord Diagram

El Chord Diagram consiste en la representación circular de las relaciones entre los nodos. En este caso, cada nodo se distribuye alrededor de la corona circular con un longitud circular proporcional al volumen total de la métrica analizada. En cuánto a los enlaces, la amplitud de la salida corresponde a su volumen para el nodo de salida, lo mismo ocurre para el nodo de entrada y la amplitud del enlace que llega.

Resultado de imagen de chord diagram gif

Imagen 5. Diagrama desarrollado en con la librería chordiagg y la función chordiagg.

A favor: Si queremos estudiar la distribución de nuestra métrica entre dos contenidos podemos sacar conclusiones muy fácilmente.

En contra: Con muchos contenidos (nodos) se complica la interpretación del diagrama. No está pensado para seguir los pasos de un camino de navegación particular.

La representación del flujo de navegación web evidentemente no se limita a los cuatro diagramas propuestos. Estos consisten solo en una muestra de los que, a título personal, presentan un mejor entendimiento del flujo. Según la complejidad del site analizado será más conveniente usar un método u otro, incluso la combinación de varios de estos diagramas, pero esto es un ejercicio que dejamos para el criterio del lector.

Autor:

Leave Comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.