La semana pasada el equipo de I+D de Metriplica asistimos al 1st Data Science Workshop de Barcelona ofrecido por la Barcelona Graduate School of Mathematics (BGSMath).

Ya desde el inicio de la jornada se discutió cual es realmente la definición de Data Scientist. Francesc Subirada, Director General de Investigación de la Generalitat de Catalunya, nos dejó la siguiente frase: “Data Science es como el sexo en los adolescentes: Todo el mundo habla de ello, pero nadie sabe en realidad qué es”.

Después de la charla de presentación empezamos con la ponencia de Jordi Vitrià, director del grupo de Investigación DataScience de la Universitat de Barcelona. Este grupo de investigación está altamente definido por su transversalidad, así como interdisciplinaridad, estando formado por matemáticos, físicos e informáticos. Uno de sus objetivos es conectar sus investigaciones con empresas privadas por tal de solucionar problemas reales, así como seguir investigando en el terreno, por ejemplo, del reconocimiento de imágenes.

Seguidamente habló Ricard Gavaldà, investigador del grupo Laboratory for Relational Algorithmics, Complexity and Learning (LARCA). En su ponencia se discutió las dificultades que un investigador se encuentra en el estudio de datos en tiempo real (data streaming mining). El grupo de investigación está actualmente involucrado en análisis de redes sociales, así como en proyectos de medicina personalizada.

Joan del Castillo, del Servei d’Estadística de la Universitat Autònoma de Barcelona nos instruyó en el conocimiento del marco teórico y práctico de la Teoría de Valores Extremos. Aunque altamente enfocado en el estudio de fenómenos extremos en los mercados financieros, también nos explicó como esta teoría podía ser utilizada para predecir crecidas de cabales en ríos o crecidas del nivel del mar.

Antes del descanso del mediodía, fue el turno de Joan Bruna del grupo Math and Data (MAD) del Courant Institute (New York University). Su ponencia fue claramente enfocada a la explicación de las investigaciones del grupo MAD en el terreno del reconocimiento y reconstrucción de imágenes. En su presentación discutió cómo el marco teórico de la Física Estadística tiene un papel importante en el terreno del desarrollo de técnicas de Data Science. Finalmente hizo hincapié en la colaboración que tuvieron con el grupo ATLAS del CERN cuyo objetivo fue predecir la energía liberada en las colisiones de partículas.

Después de comer las ponencias se reanudaron con Daniel Villatoro, Data Scientist en Vodafone. El título de su ponencia ya dejaba entrever el hilo de su charla: “How to do evil with data?”. En ella nos explicó cómo un Data Scientist debe ser crítico y prudente en cómo muestra los datos y cómo decide mostrarlos, ya que si no, se puede caer en errores de interpretación y hasta de manipulación. Finalmente apostó por obtener perfiles de Data Scientists críticos y pedagógicos.

Esta ponencia la siguió la de Paolo di Tomasso, del Centre de Regulació Genòmica (CRG). Esgrimió argumentos a favor de la reproducibilidad de los procesos y su escalabilidad. Como sabemos, estos conceptos deben estar siempre en la mente de cualquier Data Scientist, para que el trabajo realizado una vez no sea farragoso de volver a procesar o repetir en nuevos datos que vengan.

El escogido para concluir las ponencias fue David Torrents del Centro Nacional de Computación e ICREA. Expuso el estado de las investigaciones en medicina personalizada a partir de la secuencia del genoma del paciente. Explicó que actualmente las investigaciones se están poniendo las pilas en enfocar el problema de las mutaciones como procesos complejos i entrelazados, es decir dentro del marco de las redes complejas. En otras palabras, las enfermedades no vienen descritas por una mutación puntual del genoma si no en varios puntos de éste. Es por eso que nos introdujo el concepto de enfermedad compleja o complex desease.

A modo de conclusión se organizó una mesa redonda con José Antonio Rodríguez Serrano que es Data Scientist en BBVA, Pau Agulló que es CEO de la consultoría analítica de Kernel Analytics, Marc Torrent que es el representante de Eurecat y Àngel Faus como CTO de vLex. Los temas que trataron fueron, por un lado, como Barcelona se está transformando en una cuna para perfiles de este tipo, con mucha oferta educativa del ámbito (grados, masters, postgrados, cursos y summers schools), muchos eventos de divulgación y las cada vez más empresas que están poniendo aquí sedes.

Todos estaban de acuerdo en que este perfil debe tener conocimientos de Matemáticas, Programación y de Negocio. Tanto la Universitat de Barcelona, Universitat Autònoma de Catalunya y la Universitat Politècnica de Catalunya ofrecen dobles-grados universitarios, en los cuales se forma a los estudiantes en dos disciplinas distintas pero siempre relacionadas, como Matemáticas-Física, Matemáticas-Informática, …. Se destacó que la UB ya ofrece un doble grado de ADE-Matemáticas, el cual es una iniciativa a la aclamada diversificación de las matemáticas en distintos ámbitos, no necesariamente técnicos.

En esta primera edición no hubo ninguna ponencia sobre Márqueting Digital, ya fuese on-line u off-line. ¡Así que, hay un hueco para nosotros! ¡A ver si nos animamos y para la próxima presentamos nuestro trabajo! 😉

Metriplica en el BGSMath Data Science Workshop

Leave Comment

Your email address will not be published. Required fields are marked *