Jupyter Notebook

Jupyter Notebook es una aplicación web de código abierto que permite incluir texto, video, audio e imágenes además, de ofrecer la posibilidad de ejecutar código en diferentes lenguajes de programación. Por defecto, provee el kernel de Python incluido. Sin embargo soporta otros kernels como Octave, Julia, R, Haskell, Ruby, C/C++, Fortan, Java, SageMath, Scala, Matlab, Mathematica

Integración de KNIME con R

Recientemente tuvimos una sesión de presentación de KNIME, una plataforma open-source que ha conseguido posicionarse entre las primeras en el cuadrante de Gartner en la categoría de Data Science y Machine Learning. Introducción. Entre las características que nos animan a probarla encontramos: Capacidad para construir flujos de análisis de datos fácilmente comprensibles, basados en nodos

BigQuery ML: machine learning desde BigQuery

Hace unos meses Google anunció una nueva funcionalidad de Google BigQuery llamada BigQuery ML, la cual está actualmente en Beta. Consiste en un conjunto de extensiones del lenguaje SQL que permiten crear modelos de aprendizaje automático (machine learning, en inglés), evaluar su capacidad predictiva y hacer predicciones para nuevos datos directamente desde dentro de BigQuery.

Asistimos a Vertical Big Data Days 2: Brand Analysis in social network

Las redes sociales proporcionan una ingente cantidad de datos, pero la mayoría sin etiquetar. El Deep Learning nos ayuda a explorarlos para obtener insights sobre nuestra marca. Introducción. La semana pasada tuvimos la oportunidad de asistir a Vertical Big Data Days 2: Brand Analysis in social network, un evento promovido por mVentures en el que

Datos no balanceados. Sobremuestreo, submuestreo y ponderación

Una situación común al enfrentarnos al desarrollo de modelos, ya sean predictivos o de aprendizaje automático, es encontrarnos con datos no balanceados (la probabilidad de ocurrencia de un suceso es muy baja). Introducción. En estos casos, un modelo estimado sobre la base de datos completa tiene menos oportunidad de reconocer diferencias que sobre una base

Análisis de la dependencia entre dos variables

El objetivo de este artículo es presentar diferentes metodologías para estudiar la dependencia estadística entre dos variables aleatorias cuantitativas. Decimos que dos variables serán independientes cuando no exista ningún tipo de relación entre ellas. Sean X y Y dos variables aleatorias cuantitativas de modo que formen un conjunto de n parejas: Queremos conocer la relación de

Asistimos a Data Augmentation, o cómo hacer grandes algoritmos con pocos datos

Un problema habitual en deep learning es la gran cantidad de datos necesaria para el entrenamiento de modelos, lo que podemos solucionar con datos aumentados. La semana pasada tuvimos la oportunidad de asistir a Data Augmentation, o cómo hacer grandes algoritmos con pocos datos, un evento promovido por Trovit en el que Francisco Rodríguez, Data

El extenso mundo de los segmentos en googleAnalyticsR

Segmentos en googleAnalyticsR En posts anteriores se ha explicado las funcionalidades de la versión 4 de la API de Google Analytics y, en particular, la nueva versión del paquete googleAnalyticsR que permite interactuar con los informes y nuevas funcionalidades que incorpora la V4 de la API de Google Analytics. En este post nos centraremos en cómo añadir segmentos avanzados