Analytics Premium ComScore ClickTale Analytics Certified Partner Klipfolio Coremetrics

Visualización de datos con Python

13/12/2016 a las 07:59

En un post anterior hicimos una introducción a Python, enfocado al análisis de datos. En él instalamos Python, el paquete pip (encargado del mantenimiento del sistema y la instalación de otros paquetes) y numpy (permite calculo matricial y uso de funciones estadísticas).

Hoy trataremos la visualización de datos con matplotlib, un paquete que pone a nuestra disposición gran variedad de gráficos. Con pocas líneas de código seremos capaces de generar gráficos de tendencia, barras, dispersión, histogramas…

A continuación exponemos tres tipos de visualización de los más usados.

 

1. Gráfico de tendencia: muy útil cuando tenemos escalas de tiempo en el eje horizontal.

plot1_script
1_plot
 

2. Gráfico de burbujas: es un gráfico de dispersión para medir la asociación entre dos variables, introduciendo una tercera que determina el tamaño de la burbuja, o incluso una cuarta, que asigna un color.

plot2_script
2_plot
 

3. Histograma: en la fase exploratoria nos da una idea de la distribución de los datos.

plot3_script
3_plot
 

Recuerden que para consultar la documentación sobre un tipo de gráfico hacemos uso del comando:

help(plt.nombre_función_gráfico), donde plt es el alias de matplotlib.pyplot

A practicar!!!

Conectando BigQuery y R Statistics

16/11/2016 a las 17:01

En anteriores posts hemos comentado el potencial de la herramienta de análisis estadístico R (véase Cómo empezar a usar R Statistics, Visualización de datos de Google Analytics con R o Una conexión de titanes: Google Analytics y R Statistics).

Hoy retomaremos el tema de las conexiones, en concreto con BigQuery, un almacén de datos que la plataforma Google Cloud pone a nuestra disposición para realizar consultas SQL de manera rápida, eficaz y con un coste reducido.

Los clientes de Google Analytics 360 (antes Premium) pueden acceder a sus datos crudos, asociando una vista de Google Analytics a un proyecto de BigQuery.

Actualmente BigQuery usa por defecto su lenguaje propio, Legacy SQL, aunque con el lanzamiento de BigQuery 2.0 se recomienda la migración a Standard SQL.

Podemos ver más en detalle cómo plantear una consulta en BigQuery.

A continuación se detallan los pasos a seguir para realizar una consulta en BigQuery desde R:

 
1. Accediendo a BigQuery.

Para acceder a la interfaz de BigQuery, iniciamos sesión con nuestra cuenta Google.

En este caso práctico queremos establecer una conexión desde R con el dataset ‘LondonCycleHelmet’, perteneciente al proyecto ‘google.com:analytics-bigquery’. En él encontramos la tabla ‘ga_sessions_20130910’, con los datos de navegación de una web ficticia en dicha fecha.

Al no tener permisos de edición en este proyecto, haremos una copia de dicha tabla para almacenarla en ‘My Project’, sobre el que sí tenemos permisos. En él creamos un nuevo dataset llamado ‘bigrquery’, del que colgará la tabla ‘ga_sessions_20130910_copy’.

0_r-bq

La notación para hacer referencia a una tabla es la que sigue:

proyecto:dataset.tabla
1_r-bq

Para saber el nombre del proyecto pasaremos el cursor sobre ‘My Project’:

2_r-bq
 
2. Iniciando R.

Iniciamos sesión en R y ejecutamos el siguiente código, asignando los valores que corresponda:

3_r-bq
 
3. En la consola de R nos aparecerá el siguiente mensaje:
4_r-bq

Al seleccionar la opción 1 y permitir el acceso a la actual cuenta de Google, se creará un archivo ‘.httr-oauth’ en el directorio de trabajo de R, en el que se almacenan las credenciales entre sesiones de R.

 
4. Con el paso anterior se realiza la conexión entre R y BigQuery, almacenando el resultado de la consulta en el data.frame ‘datos’:
5_r-bq
 

En este ejemplo nuestra consulta es simple y calcula valores agregados. El verdadero potencial de esta conexión reside en importar los datos de navegación y luego trabajar con ellos en R.

Keep trying and enjoy R!!!

Ave, Python, los analistas de datos te saludan

25/08/2016 a las 11:24

Como usuarios de R, alguna vez hemos hecho llamadas a la librería rPython.

En anteriores posts se ha hecho una introducción a R y llega el turno de Python, un lenguaje de programación en código abierto que, entre otros, dispone de paquetes específicos para almacenar, manipular y analizar datos.

Hoy instalaremos numpy, un paquete que permite el uso de funciones estadísticas y el cálculo matricial.

Hay dos maneras de trabajar:

  • De forma interactiva: tecleamos código e inmediatamente vemos los resultados. Para ello usamos el intérprete IPython:

    https://www.python.org/shell/

0_python shell
  • Ejecutando scripts: son archivos de texto (.py) con comandos Python línea a línea. Permite realizar cambios y volver a ejecutar. En este caso no se muestran los resultados de forma automática, para ello usamos la función print().

Haremos una demo de instalación en Windows, para otros sistemas operativos encontramos la ayuda en cada uno de los links que se citan a continuación.

 

1. Instalando Python.

Podemos descargar la última versión en el siguiente enlace y ejecutar el .exe.

https://www.python.org/downloads/

1_python download
 

2. Instalando pip.

El paso siguiente es instalar el paquete pip, encargado de la instalación de otros paquetes y el mantenimiento del sistema en Python. Lo podemos descargar en:

http://pip.readthedocs.org/en/stable/installing/

2_pip

2.1. Abrir línea de comandos de Windows.

Inicio > Buscar > teclear cmd

3_cmd

2.2. Cambiar al directorio en que tenemos el get-pip.py que acabamos de descargar:

> cd C:\Users\metriplica\Downloads

2.3. Ejecutar:
> get-pip.py

Sale un mensaje ‘Requirement already up-to-date:…’ que pide la actualización si nuestra versión es Python 2 >=2.7.9 or Python 3 >=3.4.

2.4. Buscar en el directorio donde se ha instalado Python el archivo pip.py, que suele colgar de \Scripts\ y arrastrarlo a la línea de comandos.

4_instalar pip

Aparecerá un listado con los comandos y opciones que admite pip.
Con esto ya podemos usar pip para instalar paquetes de Python.

 

3. Instalando numpy.

3.1. Cambiar al directorio \Scripts\ (asegurarnos de que pip.exe se encuentra en esta carpeta y en caso contrario modificar la ruta a la que lo contenga):

> cd C:\Users\metriplica\AppData\Local\Programs\Python\Python35-32\Scripts

3.2. Instalar paquete:

> pip3 install numpy

3.3. Cambiar al directorio en que está instalado Python:
> cd C:\Users\metriplica\AppData\Local\Programs\Python\Python35-32
o

> cd.. (sube un nivel en el path)

3.4. Ejecutar Python. Con esto pasamos de la línea de comandos del sistema al intérprete de Python:
> python
>>>

 

4. Importando numpy.

4.1. Para poder hacer uso de los objetos y funciones de un paquete es preciso importarlo una vez instalado:

>>> import numpy

5_instalar numpy

4.2.En la ayuda encontramos una descripción detallada:

>>> help(numpy)

6_help numpy
 

5. Saliendo del intérprete de Python.

>>> quit()

 

Hasta aquí la instalación del paquete numpy. Disponemos de otros como matplotlib (gráficos) y scikit-learn (machine learning) que le complementan en la apasionante aventura del análisis de datos 

Se advierte al usuario del uso de cookies propias y de terceros de personalización y de análisis al navegar por esta página web para mejorar nuestros servicios y recopilar información estrictamente estadística de la navegación en nuestro sitio web. Política de cookies Acepto