Formación en el proyecto DataScience



Este curso presentará brevemente los lenguajes y herramientas de programación más importantes que los científicos de datos utilizan a diario.

Se esbozará el contexto y el propósito en el que se suelen utilizar y se presentarán los comandos más valiosos para los principiantes:

SQL se ha convertido en la piedra angular de la gestión de datos moderna. En este curso exploraremos diferentes formas en que SQL se puede utilizar para recuperar datos de bases de datos.

Discutiremos qué es GitHub , qué características ofrece, y cómo los/as desarrolladores/as de software pueden beneficiarse de él.

Al final de este curso, los/as  estudiantes conocerán el campo de actividad y los comandos más comunes.

Go to course

Este curso presenta el concepto de Software RStudio. Aprenderemos la historia el entorno informático, Comunidad de Técnicas de Análisis, cómo instalarlo, y exploraremos RStudio Creación de un Cuaderno de Proyecto.

Go to course

En este módulo de formación se te introducirá en el uso del Análisis Discriminante Lineal (LDA). LDA es un método para encontrar las combinaciones lineales de variables que mejor separan las observaciones en grupos o clases, y fue desarrollado originalmente por Fisher (1936).

Este método maximiza la relación entre la varianza entre clases y la varianza dentro de clase en cualquier conjunto de datos concreto. De este modo, se maximiza la variabilidad entre grupos, lo que se traduce en una separabilidad máxima.

El LDA puede utilizarse con fines puramente clasificatorios, pero también con objetivos predictivos.

Go to course

En este módulo de formación se te presentarán los fundamentos de la teoría del muestreo. En relación con la teoría de la inferencia estadística, más concretamente con las herramientas que permiten calcular intervalos de confianza, estudiaremos los procedimientos que se utilizan para encontrar tamaños de muestra óptimos, en función de la característica que se desee estimar y de la técnica de muestreo utilizada.

En este módulo estudiaremos las diferencias entre datos muestrales y datos poblacionales y las técnicas de muestreo más comúnmente aplicadas:  muestreo simple y estatificado. Además, exploraremos las reglas para encontrar tamaños muestrales óptimos, condicionados a algunos objetivos relacionados con la confianza y el margen de error que queremos tener en nuestras inferencias.

Go to course

En este módulo se le presentarán los conceptos básicos del análisis de la varianza (ANOVA) de uno y dos factores, que puede entenderse como un modelo lineal básico.

En este curso aprenderá cómo ANOVA puede ser útil para probar, comprender e identificar las condiciones necesarias para aplicar estas técnicas y realizar análisis de varianza unidireccionales y múltiples e interpretar los resultados obtenidos.

Go to course

Este curso presenta los conceptos de cuadro de mando, la estructura de un cuadro de mando, la finalidad y los objetivos de la elaboración de un cuadro de mando, así como los tipos de cuadros de mando.  

La última parte del módulo se dedicará a un caso práctico

Go to course

En este módulo de formación se te presentará la técnica de análisis multidimensional denominada Análisis de clústeres, también llamada análisis automático de grupos.

Los análisis de clústeres se utilizan para agrupar unidades estadísticas que tienen características en común y asignarlas a categorías no definidas a priori. Los grupos que se forman deben ser lo más homogéneos posible en su interior (intracluster) y heterogéneos en su exterior (intercluster).

Las aplicaciones de este tipo de análisis son múltiples: informática, medicina, biología, marketing.

La última parte del módulo se dedicará a la aplicación del análisis cluster con el software R.

Go to course

En este módulo de formación se te presentará la técnica de análisis multidimensional denominada Análisis de Correspondencias, AC.

El Análisis de Correspondencias es una forma de escalado multidimensional, que esencialmente construye una especie de modelo espacial que muestra las asociaciones entre un conjunto de variables categóricas. Si el conjunto incluye sólo dos variables, el método suele denominarse Análisis de Correspondencias Simple (ACS). Si el análisis incluye más de dos variables, suele denominarse Análisis de Correspondencias Múltiples (ACM). En este módulo trataremos el análisis de correspondencias simples, el objetivo de este análisis es reducir la dimensionalidad del fenómeno investigado preservando la información que contiene. La técnica es aplicable a fenómenos medidos con variables cualitativas.

La última parte del módulo estará dedicada a la aplicación de AC con el software R.

Go to course

En este módulo de formación se presentará la técnica de análisis multidimensional denominada Análisis de Componentes Principales (ACP), cuyo objetivo es reducir la dimensionalidad de un fenómeno investigado preservando la información que contiene. La técnica es aplicable a fenómenos medidos con variables cuantitativas, distinguiéndose así de otras técnicas de reducción de la dimensionalidad, como el análisis de correspondencias simple (AC) o el análisis de correspondencias múltiple (ACM), desarrolladas para el análisis de variables cualitativas.

La última parte del módulo se dedicará a la aplicación de PCA con R.

Go to course

Este curso presenta los conceptos de periodismo de datos y narrativa de datos. Estos conceptos se describen y explican en relación con el mundo de los datos. Se explica cómo fusionar la ciencia de datos, un campo de estudio caracterizado por las habilidades duras, con las habilidades blandas y cuáles son las ventajas de esta combinación.

Go to course

Esta guía proporciona definiciones de los conceptos fundamentales del machine learning (aprendizaje automático), así como descripciones de los principales métodos utilizados, incluidos algunos ejemplos y aplicaciones específicos.  Puede optar por leer el guión a un nivel superficial, para adquirir una comprensión básica del campo, o leer las descripciones más profundas, en particular la sección de métodos, para obtener una comprensión de nivel intermedio del aprendizaje automático. 

La estadística y el machine learning proporcionan las herramientas principales para tu trabajo como científico/a de datos. Comprender los distintos métodos de aprendizaje automático -cómo funcionan, cuáles son sus principales ventajas y cómo evaluar su rendimiento en una tarea determinada- puede ayudarte a tomar mejores decisiones sobre cuándo utilizarlos y te convertirá en un experto/a en ciencia de datos más versátil.

Go to course

En este curso, echaremos un vistazo a las muchas aplicaciones de la ciencia de datos que pueden hacer del mundo un lugar un poco mejor. A continuación, entraremos en detalle en el seguimiento de las redes sociales realizado en nombre de Amnistía Internacional Italia para comprender cómo puede funcionar una aplicación de este tipo.

En la siguiente sección, exploraremos algunos de los efectos perjudiciales que pueden tener la ciencia de datos y la IA. Esto nos ayudará a comprender por qué es necesario que los sistemas de IA sean fiables.

Por último, nos familiarizaremos con algunos de los retos de las métricas de imparcialidad y veremos lo que estas métricas pueden significar en la práctica.

Go to course

La extracción de textos es una confluencia del procesamiento del lenguaje natural, la extracción  de datos, el aprendizaje automático y la estadística que se utiliza para extraer conocimientos de textos no estructurados.

En este curso aprenderás qué es la minería de textos, los retos que plantea y el flujo del proceso. También estudiarás técnicas de extracción de textos y al final del módulo verás un caso práctico con Python.

Go to course

Miembros

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI