Contenido del bootcamp
0 – Preparatorio
Conceptos Básicos
En este módulo de iniciación, se detallan todos los conceptos básicos de programación, y también se explicará las principales herramientas que se van a utilizar para el desarrollo en Python como son Jupyter Notebook y Spyder.
Programación Básica en Python
Este módulo realiza una introducción al lenguaje de programación de Python. Tanto la teoría como los retos propuestos están presentados en formato Jupyter Python por lo que el alumno debe tener instalado Anaconda Suite. Los detalles y el uso básico de Jupyter Notebook se explican en el módulo 0 del prework. Los temas que cubren este módulo es:
- Variables y Tipos de Datos
- Condicionales
- Bucles
- Funciones
- Retos Adicionales
- Enlaces de Interés
1 & 2 – Python y Extracción y Almacenamiento de Datos
Programación en Python
Comenzando nuestro programa, nos dedicaremos a desarrollar y consolidar los fundamentos de la programación en Python, el lenguaje más extendido en el entorno de Big Data y Data Science por su versatilidad y potencia.
El propósito del módulo I es familiarizarse con este lenguaje, para que el alumno aprenda a importar, limpiar, manipular y visualizar datos, desarrollando habilidades esenciales para convertirse en un científico de datos, transformando data en conocimientos que aportan valor a la cadena de negocio.
- Introducción y Tipos de datos
- Condicionales
- Bucles y Excepciones
- Funciones
- POO
- Git
- MiniProyecto Fin de Módulo
Extracción y Almacenamiento de Datos
Una vez asentadas las bases, aprenderás el primer paso que un Data Scientist tiene que dominar: la extracción y el almacenamiento de los datos. En este módulo aprenderás a consumir las principales APIs, a almacenar y gestionar tus datos en los motores de bases de datos más utilizados.
- Uso de API
- SQL
- Mongo
- Cassandra
3 & 4 – Big Data y Data Fundamentals & Data Science Method
Big Data Fundamentals
Dominaremos los conocimientos necesarios para implantar y comprender cualquier arquitectura de Big Data, abordaremos diferentes tecnologías de almacenamiento, se desarrollarán habilidades para entender y conocer proyectos en distintas áreas trastocados por el Big Data y dar así respuesta a la demanda creciente por parte de las compañías.
- Virtualización por contenedores: Docker
- Sistemas de almacenamiento distribuido: HDFS
- Sistemas de procesamiento distribuido (Hadoop: MapReduce, Hive, PySpark)
- Procesamiento en tiempo real (Spark Streaming, Kafka)
Data Fundamentals & Data Science Method
Los expertos en Data Science han de ser expertos en estadística aplicada. Se profundizará la metodología para trabajar como un data scientist y potenciar el razonamiento lógico para convertir data en respuestas de valor.
- Funciones lambda + map/filter/reduce
- Numpy
- Arrays
- Estadística básica con numpy + tipos de datos
- Pandas
- Dataframes
- Series
- Operations
- Advance filtering
- Visualización Básica con Python
5 & 6 – Preprocesamiento y Visualización y Fundamentos de Matemáticas y Estadística
Llegados a este punto, ya serás capaz de almacenar y acceder a tus data sets. Ahora será el momento de empezar a tratar los datos. Antes de sacar ninguna conclusión, es esencial que estudies el dataset, que descartes las columnas que no te aporten valor y que homogenices y limpies los datos. En este módulo aprenderás todas las técnicas necesarias para que seas capaz de hacer un preprocesamiento correcto de tus datos:
Preprocesamiento y Visualización de Datos
- Proyectos reales de data science
- Expresiones Regulares
- Feature Selection
- Contraste de Hipótesis
- Regularización
- Visualización Avanzada
- Web scrapping
- Dashboards & Tableau
Fundamentos de Matemáticas, Estadística y Aprendizaje automático
Para comprender y dominar el Aprendizaje automático se necesitan unos fundamentos básicos de diferentes disciplinas. En este módulo repasararemos los siguientes campos:
- Matemáticas
- Algebra Lineal
- Cálculo
- Estadística
7 & 8 – Machine Learning y Proyecto final
Machine Learning
El aprendizaje automático combina aspectos de la informática y las estadísticas para extraer información útil y predicciones de los datos. A través del aprendizaje automático podremos hacer predicciones y recomendaciones útiles, buscar automáticamente grupos y categorías en conjuntos de datos complejos.
En esta sección del curso se aprenderá a utilizar los principales algoritmos de aprendizaje automático supervisados y no supervisados, nociones de Deep Learning y de NLP, cuándo es conveniente usar cada algoritmo y las diversas métricas que pueden usar para evaluar su rendimiento.
- Problemas de Clasificación (K-NN, Regresión Logística, SVM, Árboles de decisión, Naive Bayes)
- Problemas de Regresión (KNN, Regresión Linear, Descenso de gradiente, SVM)
- Problemas de aprendizaje no supervisado (Clustering: k-means, Reducción de la dimensionalidad: PCA, TSNE)
- Métodos avanzados (Métodos de ensemble)
- Deep Learning
- NLP
Proyecto Final
De forma transversal a las últimas semanas del curso, el alumno realizará un proyecto final que formará parte de su portafolio. Aplicando los conocimientos aprendidos y eligiendo datos de diversas fuentes, se utilizarán las técnicas y herramientas aprendidas en el programa para desarrollar un proyecto que resuelva una problemática y pueda ser contado por cada alumno a través del Data Storytellings.
- Elaborar una idea y una propuesta de proyecto.
- Buscar y enriquecer datos combinando diversas fuentes.
- Utilizar técnicas de análisis de datos exploratorios para comprender datos.
- Pre-procesar y crear un conjunto de datos de entrenamiento.
- Construir un modelo de trabajo.
- Documentación y presentación de proyecto de valor con conclusiones a través del Storytelling.
- Utilización de herramientas colaborativas