Buscando valor en los datos-Metáfora de la red anchovetera o la pesca ineficiente
Imaginemos un capitán de
barco pesquero que se dirige al mar para pescar atún u otras especies mayores.
El buque fue construido y equipado para pescar atún o especies icticas similares,
y para que el viaje resulte rentable, el
capitán debe asegurarse de varias cosas: La disponibilidad de aparejos y
equipos de pesca adecuados (sonar, redes con la malla adecuada para el tipo de
peces, entre otras); mapas con la ubicación precisa de los bancos de peces y la
trayectoria que debe seguirse, permisos
de pesca y otros asuntos.
Cuando llega a la zona
de pesca, descubre que alguien llevó a
abordo algunas redes con malla anchovetera. En apariencia, estas redes
son mejores porque permiten la captura de atunes pequeños y especies menores, sin
embargo generan problemas por varias razones. Se puede pescar especies de
tamaño menor a lo permitido, lo que creará desbalance en la población que queda
libre; se puede pescar especies más pequeñas para las cuales no hay
equipamiento ni permisos. La tarea innecesaria siguiente es la selección del
atún y la exclusión de otras especies para tirarlas al mar, salvo que sea un
buque factoría depredador donde todo se convierte en harina.
Una pérdida de tiempo,
desperdicio de recursos y la posibilidad de confiscación de la nave, fuertes multas
o suspensión de los permisos cuando es descubierto por autoridades marítimas honestas. Asumamos un mundo utópico
en el que no hay posibilidad de coimas ni mercados donde vender la pesca
ilegal. El efecto final es la pérdida de tiempo, desperdicio, de recursos y
posiblemente regreso al puerto de origen con menos pesca de la esperada, una
pérdida de valor en la actividad pesquera; todos estos efectos negativos surgen
por usar los aparejos de pesca incorrectos.
La historia anterior nos
permite aplicar la metáfora de las redes equivocadas al mundo de los negocios donde
los peces equivalen a los datos que se encuentran disponibles para las empresas. En el mundo actual donde los datos son
captados de diferentes fuentes, distintos formatos, en todo momento y con distintos medios las organizaciones deben
ser capaces de encontrar, seleccionar, filtrar, procesar y generar información
a partir de los datos que les son útiles para tomar decisiones acertadas con
las que se crea valor para la empresa y los clientes, al ofrecer a los clientes
lo que ellos desean, vender y obtener una rentabilidad adecuada. Es decir, deben
tener a la mano y emplear con prudencia las técnicas y procedimientos correctos para
obtener valor de los datos.
Los datos están en el “mar
abierto virtual”, Big Data, un escenario inmenso, que a diferencia del océano
físico real que es fijo, crece continuamente. El Big Data se caracteriza por
las tres V clásicas (Volumen, variedad,
velocidad) y una cuarta adicional que
puede ser decisiva, la Veracidad. Por volumen se entiende la inmensa cantidad de datos disponibles en el mundo y
que se crean sin cesar; por variedad nos referimos a los distintos formatos en
que se encuentra (texto, audio video,
imágenes, etc.,); por velocidad a la
gran cantidad de datos que se agregan al stock disponible. La veracidad es una
cualidad vital para tomar decisiones críticas. Si los datos son falsos la
información es espuria, cualquier
decisión será errada y originará pérdidas y otros problemas.
Davenport y Dyche (2013:3) señalan que
las nuevas tecnologías d de información como Big Data pueden generar fantásticas
reducciones de costos, mejoramiento sustancial en los tiempos de proceso de
datos, creación de un producto o un nuevo servicio. Las tecnologías y los
conceptos detrás de ellas, permiten
alcanzar una variedad de objetivos, que tienen influencia en los resultados financieros, en los procesos
y la calidad de gestión de la organización.
En el costo,
el uso de tecnologías como los clústeres o redes Hadoop permite llevar el costo
de almacenamiento de 1 terabyte (un millón de gigabytes) desde $37,000 en una base
de datos relacional típica, a $5,000 en
una aplicación de base de datos y a sólo $2,000 en un clúster Hadoop.
Davenport y Dyche (2013:5) también
consideran que el segundo objetivo común de las empresas con la tecnología Big
data es la reducción del tiempo. Por ejemplo, la empresa minorista Macy´s redujo el tiempo de optimización para
la fijación de precios de 73 millones de ítems desde 27 horas a sólo una hora.
Esta función “analítica de big data” permite a la cadena renovar precios con
mayor frecuencia y adaptarse mejor al mercado y las condiciones cambiantes en
el mercado minorista.
Algunos analistas afirman que la humanidad ha creado 5 exabytes (es decir, 5 billones de gigabytes) de datos desde la
Edad de Piedra hasta el año 2003; en el año 2011 esa cantidad fue creada en sólo
dos días, en el año 2013 solo se requirieron 10 minutos (van der Aalst, 2014:15) Recuerden que
en EEUU, un billón equivale a mil
millones.
Por esta razón, se ha creado
un nuevo concepto, una nueva metáfora
para referirse a la inmensidad de datos disponibles. El concept de “gran lago de
datos” (big data lake), una gran masa de datos que existe en estado natural o
sin proceso. El desafío central es como se puede almacenar, procesar y usar eficientemente la cantidad masiva de
datos. Compañas como Google y Facebook
tienen tecnologías útiles para aprovechar el lago de datos, pero aun están en
etapa inicial. Por ser el “lago de datos” un concepto reciente, también lo son
las tecnologías pertinentes, pero sin duda se necesita una nueva forma de
gestionar esta abundancia con eficacia.
¿Qué queremos mostrar con
estos antecedentes? En las empresas, el personal el área de informática o Tecnología
de la Información, por desconocimiento, apatía o por la comodidad pueden optar
por acciones equivalentes al uso de redes anchoveteras. Estas personas pueden
conocer lenguajes de programación, algoritmos y protocolos para usar el
software y los equipos, pero muchas veces desconocen la esencia del negocio,
por lo alguien debe encargarse de esta parte. En general, cuando se les solicita
información a partir de los datos disponibles, suelen emplear aleatoriamente modelos
matemáticos recurriendo al método de
"prueba y error", tratando de
encontrar el modelo que se ajusta mejor a los datos disponibles, ajuste que en
apariencia puede ser bueno porque las propiedades estadísticas básicas (media, desviación estándar,
correlación) son aceptables pero pueden ser engañosas como lo demuestra el cuarteto
de Anscombe (conjuntos de datos con las mismas propiedades estadísticos pero
diagramas de dispersión totalmente diferentes).
Si el analista de
sistemas tiene suerte, el modelo se ajustará
a los datos en todo sentido, y el
usuario final tiene información adecuada para tomar decisiones correctas. Podría
decirse también que es un tipo con suerte, sólo que la suerte no es permanente
y no se gana dos veces la lotería (Nota 1). El aspecto cuestionable es que el
analista no logró estos resultados actuando
como profesional competente. Si la información es incorrecta, puede inducir al usuario
a cometer errores. El uso de redes anchoveteras
permitirá pescar algunas veces el atún, pero la acción es ineficiente e ineficaz,
tiene costos reales y costos ocultos que pueden y deben evitarse porque neutralizan
las ventajas y beneficios que ofrece Big Data.
¿Quién es la persona
apropiada para evitar, corregir y hasta sancionar la gitanería, la
adivinación? Es el Gerente General, CEO,
empresario o las personas capacitadas, que conocen el negocio y tienen mucho
sentido común. Estas personas no necesitan saber programación o todos los secretos
del mundo de las computadoras, pero deben tener el conocimiento necesario para
orientar la búsqueda y lograr las ventajas que como vimos antes, ofrece el uso de
Big Data (alta velocidad, bajos costos, gran variedad).
En otras palabras, el
CEO debe ser capaz de evitar el usos de malla
anchovetera sabiendo que el objetivo es la pesca de atún o especies grandes; debe
identificar a quien lo hace y proponer las medidas correctivas. Es el capitán y
debe administrar el barco, los procesos y la tripulación de manera que se cumpla con
el plan de trabajo.
La participación del CEO
para impedir pasos en falso como el uso de redes inadecuadas (uso arbitrario y
aleatorio de modelos para pescar lo que
sea) permite superar inconvenientes como:
i) Falta
de profesionalismo de los analistas de sistemas que actúan así
ii)
Posibilidad de caer en la trampa
del cuarteto de Anscombe
iii) Desperdicio
de recursos (tiempo, equipos, horas hombre, dinero pagado por los datos sin obtener
resultados). Big data no es gratuito.
iv) Retrasos
en la generación de información , factor
que es crítico en estos tiempos de aceleración
v)Dificultad
para que el CEO obtenga una percepción,
un insight, más completo de los datos pertinentes para su organización
vi) Ineficiencia
en el uso de las tecnologías asociadas a Big Data
vii)
Creación de un banco de ideas ,
identificación de modelos útiles, descubrimiento de nuevas relaciones entre los
datos para responder nuevas preguntas concernientes
al negocio
En conclusión, usted es
capitán de un buque atunero. El mar abierto es su destino y puede pescar
siempre que lo desee, pero hágalo con los aparejos de pesca apropiados. Evite que
su tripulación cometa errores porque el resultado será desastroso, no permita
que pasen de contrabando redes con malla anchovetera.
Nota 1. El tomador de
decisiones afortunado no fue afectado
por la regla básica de la computación, GIGO (garbage in, garbage out), o sea
“entra basura, sale basura”, aludiendo a la situación en que al ingresar datos
inútiles a un proceso, la información generada
también debe serlo.
Referencias
Thomas
H. Davenport, Jill Dyche (2013) Big Data in Big Companies
Mayor, 2013, International Institute for Analytics
Data Scientist: The Engineer of the Future
Wil M. P. van der Aalst
Tableau(2015) Top 7 Trends in Big Data for 2015