domingo, 10 de abril de 2016

Pescando lo que sea en Big Data–Metáfora de la red anchovetera



Buscando valor en los datos-Metáfora  de la red anchovetera o la pesca ineficiente


Imaginemos un capitán de barco pesquero que se dirige al mar para pescar atún u otras especies mayores. El buque fue construido y equipado para pescar atún o especies icticas similares, y para que el viaje resulte rentable,  el capitán debe asegurarse de varias cosas: La disponibilidad de aparejos y equipos de pesca adecuados (sonar, redes con la malla adecuada para el tipo de peces, entre otras); mapas con la ubicación precisa de los bancos de peces y la trayectoria que debe  seguirse, permisos de pesca y otros asuntos.

Cuando llega a la zona de pesca, descubre que alguien llevó a  abordo algunas redes con malla anchovetera. En apariencia, estas redes son mejores porque permiten la captura de atunes pequeños y especies menores, sin embargo generan problemas por varias razones. Se puede pescar especies de tamaño menor a lo permitido, lo que  creará desbalance en la población que queda libre; se puede pescar especies más pequeñas para las cuales no hay equipamiento ni permisos. La tarea innecesaria siguiente es la selección del atún y la exclusión de otras especies para tirarlas al mar, salvo que sea un buque factoría depredador donde todo se convierte en harina.

Una pérdida de tiempo, desperdicio de recursos y la posibilidad de confiscación de la nave, fuertes multas o suspensión de los permisos cuando es descubierto por autoridades  marítimas honestas. Asumamos un mundo utópico en el que no hay posibilidad de coimas ni mercados donde vender la pesca ilegal. El efecto final es la pérdida de tiempo, desperdicio, de recursos y posiblemente regreso al puerto de origen con menos pesca de la esperada, una pérdida de valor en la actividad pesquera; todos estos efectos negativos surgen por usar los aparejos de pesca incorrectos.



La historia anterior nos permite aplicar la metáfora de las redes equivocadas al mundo de los negocios donde los peces equivalen a los datos que se encuentran disponibles para las empresas.  En el mundo actual donde los datos son captados de diferentes fuentes, distintos formatos, en todo momento  y con distintos medios las organizaciones deben ser capaces de encontrar, seleccionar, filtrar, procesar y generar información a partir de los datos que les son útiles para tomar decisiones acertadas con las que se crea valor para la empresa y los clientes, al ofrecer a los clientes lo que ellos desean, vender y obtener una rentabilidad adecuada. Es decir, deben tener a la mano y emplear  con prudencia  las técnicas y procedimientos correctos para obtener valor de los datos.

Los datos están en el “mar abierto virtual”, Big Data, un escenario inmenso, que a diferencia del océano físico real que es fijo, crece continuamente. El Big Data se caracteriza por las tres V clásicas  (Volumen, variedad, velocidad) y una cuarta adicional  que puede ser decisiva, la Veracidad. Por volumen se entiende la inmensa  cantidad de datos disponibles en el mundo y que se crean sin cesar; por variedad nos referimos a los distintos formatos en que se encuentra  (texto, audio video, imágenes, etc.,);  por velocidad a la gran cantidad de datos que se agregan al stock disponible. La veracidad es una cualidad vital para tomar decisiones críticas. Si los datos son falsos la información es espuria,  cualquier decisión será errada y originará pérdidas y otros problemas.

Davenport y Dyche (2013:3) señalan que las nuevas tecnologías d de información como Big Data pueden generar fantásticas reducciones de costos, mejoramiento sustancial en los tiempos de proceso de datos, creación de un producto o un nuevo servicio. Las tecnologías y los conceptos  detrás de ellas, permiten alcanzar una variedad de objetivos, que tienen influencia  en los resultados financieros, en los procesos y la calidad de gestión de la organización.

En el costo, el uso de tecnologías como los clústeres o redes Hadoop permite llevar el costo de almacenamiento de 1 terabyte (un millón de gigabytes) desde $37,000 en una base de datos relacional típica, a  $5,000 en una aplicación de base de datos  y a sólo  $2,000 en un clúster Hadoop.

Davenport y Dyche (2013:5) también consideran que el segundo objetivo común de las empresas con la tecnología Big data es la reducción del tiempo. Por ejemplo, la empresa minorista  Macy´s redujo el tiempo de optimización para la fijación de precios de 73 millones de ítems desde 27 horas a sólo una hora. Esta función “analítica de big data” permite a la cadena renovar precios con mayor frecuencia y adaptarse mejor al mercado y las condiciones cambiantes en el mercado minorista.

Algunos analistas afirman que la humanidad ha creado  5 exabytes (es decir,  5 billones de gigabytes) de datos desde la Edad de Piedra hasta el año 2003; en el año 2011 esa cantidad fue creada en sólo dos días, en el año 2013 solo se requirieron 10 minutos  (van der Aalst, 2014:15) Recuerden que en  EEUU, un billón equivale a mil millones.



Por esta razón, se ha creado  un nuevo concepto, una nueva metáfora para referirse a la inmensidad de datos disponibles. El concept de “gran lago de datos” (big data lake), una gran masa de datos que existe en estado natural o sin proceso. El desafío central es como se puede almacenar, procesar  y usar eficientemente la cantidad masiva de datos. Compañas como  Google y Facebook tienen tecnologías útiles para aprovechar el lago de datos, pero aun están en etapa inicial. Por ser el “lago de datos” un concepto reciente, también lo son las tecnologías pertinentes, pero sin duda se necesita una nueva forma de gestionar esta abundancia con eficacia.



¿Qué queremos mostrar con estos antecedentes? En las empresas, el personal el área de informática o Tecnología de la Información, por desconocimiento, apatía o por la comodidad pueden optar por acciones equivalentes al uso de redes anchoveteras. Estas personas pueden conocer lenguajes de programación, algoritmos y protocolos para usar el software y los equipos, pero muchas veces desconocen la esencia del negocio, por lo alguien debe encargarse de esta parte. En general, cuando se les solicita información a partir de los datos disponibles, suelen emplear aleatoriamente modelos matemáticos recurriendo al  método de "prueba y error",  tratando de encontrar el modelo que se ajusta mejor a los datos disponibles, ajuste que en apariencia puede ser bueno porque las propiedades  estadísticas básicas (media, desviación estándar, correlación) son aceptables pero pueden ser engañosas como lo demuestra el cuarteto de Anscombe (conjuntos de datos con las mismas propiedades estadísticos pero diagramas de dispersión totalmente diferentes).

Si el analista de sistemas tiene suerte, el modelo  se ajustará  a los datos en todo sentido, y el usuario final tiene información adecuada para tomar decisiones correctas. Podría decirse también que es un tipo con suerte, sólo que la suerte no es permanente y no se gana dos veces la lotería (Nota 1). El aspecto cuestionable es que el analista no logró estos resultados  actuando como profesional competente. Si la información es incorrecta, puede inducir al usuario a cometer errores. El uso de redes anchoveteras  permitirá pescar algunas veces el atún, pero la acción es ineficiente e ineficaz, tiene costos reales y costos ocultos que pueden y deben evitarse porque neutralizan las ventajas y beneficios que ofrece Big Data.

¿Quién es la persona apropiada para evitar, corregir y hasta sancionar la gitanería, la adivinación?  Es el Gerente General, CEO, empresario o las personas capacitadas, que conocen el negocio y tienen mucho sentido común. Estas personas no necesitan saber programación o todos los secretos del mundo de las computadoras, pero deben tener el conocimiento necesario para orientar la búsqueda y lograr las ventajas que como vimos antes, ofrece el uso de Big Data (alta velocidad, bajos costos, gran variedad).

En otras palabras, el CEO debe ser capaz  de evitar el usos de malla anchovetera sabiendo que el objetivo es la pesca de atún o especies grandes; debe identificar a quien lo hace y proponer las medidas correctivas. Es el capitán y debe administrar el barco, los procesos  y la tripulación de manera que se cumpla con el plan de trabajo.

La participación del CEO para impedir pasos en falso como el uso de redes inadecuadas (uso arbitrario y aleatorio de modelos para pescar  lo que sea) permite superar inconvenientes como:

i)  Falta de profesionalismo de los analistas de sistemas que actúan así
ii)    Posibilidad de caer en la trampa del cuarteto de Anscombe
iii) Desperdicio de recursos (tiempo, equipos, horas hombre, dinero pagado por los datos sin obtener resultados). Big data no es gratuito.
iv)  Retrasos  en la generación de información , factor que es crítico en estos tiempos de aceleración
v)Dificultad para que el   CEO obtenga una percepción, un insight, más completo de los datos pertinentes para su organización
vi)  Ineficiencia en el uso de las tecnologías asociadas a Big Data
vii)     Creación de un banco de ideas , identificación de modelos útiles, descubrimiento de nuevas relaciones entre los datos  para responder nuevas preguntas concernientes al negocio

En conclusión, usted es capitán de un buque atunero. El mar abierto es su destino y puede pescar siempre que lo desee, pero hágalo con los aparejos de pesca apropiados. Evite que su tripulación cometa errores porque el resultado será desastroso, no permita que pasen de contrabando redes con malla anchovetera.

Nota 1. El tomador de decisiones afortunado  no fue afectado por la regla básica de la computación, GIGO (garbage in, garbage out), o sea “entra basura, sale basura”, aludiendo a la situación en que al ingresar datos inútiles a un proceso, la información generada  también debe serlo.

Referencias

Thomas H. Davenport, Jill Dyche (2013) Big Data in Big Companies
Mayor, 2013, International Institute for Analytics

Data Scientist: The Engineer of the Future
Wil M. P. van der Aalst

Tableau(2015)  Top 7 Trends in Big Data for 2015