software2

La Minería De Datos Trampa

En un post titulado Minería de Datos – Un Cuento con Moraleja, yo comparto la idea de que la minería de datos puede ser peligroso por compartir la historia de Cornell Brian Wansink, que ha tenido varios papeles se retractó debido a los diferentes métodos de minería de datos que no son éticas (o incluso corregir).

Recientemente, Gary Smith en más de Cable escribió un artículo llamado La Exagerada Promesa de los llamados Imparcial de Minería de Datos con otro buen ejemplo del peligro de la minería de datos.

En el artículo, Gary escribe de un tiempo que señaló que el físico y premio Nobel Richard Feynman dio su clase un ejercicio para determinar la probabilidad de ver una licencia específica de la placa int estacionamiento en el camino a clase (les dio un ejemplo específico de una placa de matrícula). Los estudiantes trabajaron en el problema y determinar que la probabilidad era de menos de 1 en 17 millones de dólares que Feynman vería una licencia específica de la placa.

Según Smith, lo que Feynman no se lo digas a los estudiantes fue que él había visto la licencia específica de la placa de la mañana en el estacionamiento antes de venir a clase, por lo que la probabilidad era realmente 1. Smith llama a esto la ” Feynman Trampa.’

Si esta historia es verdadera – yo no recuerdo nunca la lectura de Feynman directamente (aunque él tiene una cita acerca de las placas de la licencia), de una muy buena descripción de uno de los peligros de la minería de datos — conocer lo que será la respuesta antes de comenzar el trabajo. En otras palabras, el sesgo.

El sesgo está en todas partes en ciencia de datos. Algunos dicen que hay 8 tipos de sesgo (no estoy seguro de que estoy completamente de acuerdo con el 8 como el número, pero su un buen lugar para empezar como cualquier otra parte). La clave es saber que el sesgo existe, ¿cómo es que existe y cómo manejar el sesgo. Usted tiene que manejar su propio sesgo así como cualquier sesgo que pudiera ser inherente en los datos que se están analizando. El sesgo es muy difícil de superar, pero sabiendo que existe hace que sea más fácil de manejar.

La Minería De Datos Trampa

El ‘Feynman Trampa’ (es decir, el sesgo) es realmente una buena cosa a tener en cuenta cada vez que usted realice cualquier análisis de datos. Pensando en volver a la historia compartida en la Minería de Datos – Un Cuento con Moraleja sobre el Dr. Wansink, fue absolutamente sesgada, en casi todo lo que él hizo en la investigación de la que se retractó. Había una respuesta que quería encontrar y, a continuación, encontrar los datos para apoyar la respuesta.

Ahí está la trampa. En lugar de entrar en el análisis de datos con preguntas y buscando información para ayudar a encontrar respuestas, entras con respuestas y tratar de encontrar patrones para apoyar su respuesta.

No caigas en la minería de datos de la trampa. Mantener una mente abierta, administrar sus prejuicios y buscar las respuestas. También, no hay nada malo con la búsqueda de otras preguntas (y las respuestas), mientras que la minería de datos y mantener el sesgo de verificación y usted estará en el camino correcto para evitar la minería de datos de la trampa.

Foto por James & Carol Lee en Unsplash

Software almacen de Cea Ordenadores

Comentarios desactivados en La Minería De Datos Trampa