DataFluency.Academy

Autor: albertoscappini

Regularización

La regularización es una técnica utilizada para evitar el sobreajuste que se produce cuando un modelo es demasiado complejo y se ajusta demasiado a los datos de entrenamiento, lo que da lugar a un escaso rendimiento a la hora de aplicarlo a nuevos datos. La regularización añade un término de penalización a la función de coste que el modelo intenta optimizar, lo que le disuade de ajustarse al ruido o a las fluctuaciones de los datos de entrenamiento.

Lee mas

Data Literacy: ¿Qué es y por qué es importante?

En los últimos años el análisis de datos se ha convertido en un elemento fundamental de ventaja competitiva para las empresas. Sin embargo, si por un lado las empresas han invertido mucho en herramientas, procesos, y adquisición de datos, por otro lado, la inversión en recursos humanos se ha quedado atrás, en particular en formar en análisis de datos a todos los empleados.

Lee mas

¿Cualquiera puede ser científico de datos?

Hace unas semanas tuve una conversación interesante con Marcos que acababa de comprar mi libro “The Art of Data Analysis” y que necesitaba unos consejos para empezar en el mundo de la ciencia de datos. Durante la conversación surgieron unas preguntas que escucho a menudo: “¿Es tarde para empezar en análisis de datos?, Tengo experiencia en XXX, ¿es posible aprender ciencia de datos?, ¿No he trabajado nunca con los números, puedo ser analista de datos?

Lee mas

¿Cómo aprende un modelo de Machine Learning?

En este artículo hablaré de cómo los modelos supervisados aprenden de los datos. Veremos que este problema de aprendizaje se traduce en un problema matemático de optimización, es decir que un algoritmo trata de resolver un problema de optimización. Dado que hablar de manera generalizada resultaría complicado, vamos a explicar este problema utilizando una regresión lineal que utiliza el algoritmo de “Descenso de Gradiente” (gradient descent algorithm) para encontrar el modelo que mejor se ajusta a los datos.

Lee mas

Introducción a los modelos supervisados

La mayoría de los modelos de Machine Learning se pueden dividir en supervisados y no supervisados. Se llaman “supervisados” cuando en el conjunto de datos tenemos unas cuantas variables de predicción y una variable resultado, y nuestro objetivo es definir la función capaz de reproducir la variable resultado (y).

Lee mas

Ciencia de datos, Machine Learning, Inteligencia Artificial… ¿Qué es qué?

A menudo escuchamos ciencia de datos, “machine learning” o inteligencia artificial en diferentes contextos y a veces usándolas como sinónimos. Si no te dedicas a ello o acabas de empezar en el mundo de la ciencia de datos, estos términos pueden resultar poco claros y algo de ciencia ficción. Sin embargo, muchos de los procesos relacionados son relativamente simples y quiero intentar aclararlos en este post.

Lee mas

¿Qué es la estadística inferencial?

La estadística inferencial utiliza los datos y la probabilidad para ayudarnos a responder a preguntas como ¿Este medicamente es efectivo contra esta enfermedad?, ¿El botón rojo convierte más que el botón azul? En este post explico los principios y los límites de la estadística inferencial.

Lee mas

Árboles de decisiones

Un árbol de probabilidad es una manera sencilla de representar un “espacio de probabilidad” con acontecimientos dependientes y/o independientes (probabilidades condicionales). En este post te explico qué es, cómo se construye y te regalo una plantilla Excel con un ejemplo.

Lee mas

¿Qué es la Correlación?

Nunca te has preguntado ¿Cómo Netflix o Amazon pueden recomendar una buena película o un buen producto? Quizás estés pensando en algoritmos complejos que utilizan lo que viste, tu puntuación… en parte es verdad, pero también están utilizando los datos de otros usuarios para determinar lo que te recomiendan. Y sí, se trata de algoritmos que pueden llegar a ser bastante complejos, pero que en el fondo se basan en un concepto básico, la correlación. En este post te explicaré que es y como calcularla.

Lee mas

Cómo usé la desviación típica para mejorar la satisfacción de los empleados

El uso de la estadística descriptiva pude parecer a priori un ejercicio meramente teórico, pero si nos fijamos bien, todos los días estamos usando promedios, rangos, sumas etc. Estas estadísticas, y en general las medidas de centralidad como la media, son un método muy interesante pare simplificar la realidad. En este post explico cómo he utilizado las estadísticas descriptivas para identificar y priorizar las acciones necesarias para mejorar la satisfacción de los empleados.

Lee mas

8 maneras de hacer fracasar un proyecto de datos

Invertir en datos y su explotación es cada vez más necesario para no quedarse atrás frente a los competidores. Sin embargo, esta carrera hacia el “Big Data” ha generado una serie de fracasos por no enfocar de la manera correcta este tipo de inversión, generando frustración y, en algunos casos, desilusión con las ventajas de ser más data-driven. Hay varias razones por las cuales una estrategia de datos fracasa y he querido resumir las que a mi parecer son las más comunes.

Lee mas

Análisis de precio, volumen y mix

Cuando tenemos que analizar los ingresos del último periodo comparado con el anterior (u otro periodo de comparación) es importante entender qué ha producido el cambio. El análisis de “Precio Volumen Mix” es una manera de descubrir lo que ha provocado la variación en ingresos y en qué medida. En este post explico los cálculos para poder realizar este análisis.

Lee mas

Pin It on Pinterest