domingo, 10 de abril de 2016

Fishing whatever in Big Data-network Metaphor anchovy



Looking for value in the Big data-network Metaphor or inefficient anchovy fishing
 

Imagine a fishing boat captain goes to sea to fish for tuna or other larger species. The ship was built and equipped for fishing tuna or similar fish species, and to make the trip profitable, the master should ensure several things: The availability of rigs and equipment appropriate fishing (sonar, networks with appropriate mesh type fish, among others); maps showing the precise location of fish stocks and the path to be followed, fishing permits and other matters.

When they reach the fishing area, he discovers that someone took on board some anchovy mesh networks. Apparently, these networks are better because they allow the capture of small tuna and minor species, however create problems for several reasons. They can fish species lower than permitted size, creating imbalance in the population is free; they  can fish smaller species for which no equipment or permits. The next task is unnecessary tuna selection and exclusion of other species to throw them into the sea, unless it is a predator factory ship where everything becomes fish flour.

A waste of time, waste of resources and the possibility of confiscating the ship, heavy fines or suspension of permits when discovered by honest maritime authorities. Let's assume a utopian world where there is no possibility of kickbacks or markets to sell illegal fishing. The final effect is the waste of time, waste of resources and possibly return to port with less fish than expected, a loss of value in the fishery; all these negative effects arising from incorrect use fishing gear.



The above story allows us to apply the wrong metaphor for the world of business where the fish are equivalent to the data that are available for business networks. In today's world where data are captured from different sources, different formats, at all times and with different media organizations should be able to find, select, filter, process and generate information from data they are useful to take right decisions with which value for the company and customers, to provide customers what they want, sell and obtain an adequate return is created. That is, they must have on hand and wisely use techniques and correct procedures for data value.

The data are in the "virtual open sea" Big Data, a huge stage, which unlike the actual physical ocean that is fixed, grows continuously. Big Data is characterized by the three classic V (volume, variety, velocity) and an additional fourth that can be decisive, Veracity. By volume it means the vast amount of data available in the world and constantly being created; by variety we refer to the different formats in which is (text, video, audio, images, etc.); velocity of the large amount of data being added to the stock available. Truthfulness is a vital quality to make critical decisions. If the data is false information is spurious, any decision is wrong and will cause losses and other problems.

Davenport and Dyche (2013: 3) indicate that new technologies of information as Big Data can generate fantastic cost reductions, substantial improvement in data processing times, creating a product or a new service. Technologies and concepts behind them, allow achieve a variety of objectives, which have influence on financial results, processes and quality management organization.

The cost, the use of technologies such as clusters or networks Hadoop can bring the cost of storing 1 terabyte (one million gigabytes) from $ 37.000 to a base of typical relational database, to $ 5,000 in an application database and only $ 2.000 on a Hadoop cluster.

Davenport and Dyche (2013: 5) also consider that the second common goal of business with Big data technology is the reduced time. For example, the retailer Macy´s  reduced optimization time for the pricing of 73 million items from 27 hours to just one hour. This feature "big data analytics" allows renew the chain prices more often and better adapt to changing market conditions in the retail market.

Some analysts say that mankind has created five exabytes (ie, 5 billion gigabytes) of data from the Stone Age until 2003; in 2011 that number was created in just two days in 2013 were required only 10 minutes (van der Aalst, 2014: 15) Remember that in the US, a trillion is a thousand billion.

For this reason, it has created a new concept, a new metaphor to describe the immensity of available data. The concept of "large lake data" (data big lake), a large mass of data that exists in the natural state or without trial. The central challenge is how you can store, process and efficiently use the massive amount of data. Compañas as Google and Facebook have useful to take advantage of the lake data technologies, but still are in an early stage. As the "lake of data" a recent concept, so are the relevant technologies, but certainly a new way to manage this wealth effectively it is needed.



What we want to show with this background? In business, staff area computer or Information Technology, through ignorance, apathy or comfort can opt for the use of equivalent shares anchoveteras networks. These people can know programming languages, algorithms and protocols for using the software and equipment, but are often unaware of the essence of the business, so someone must be responsible for this part. In general, when requesting information from available data, often used randomly mathematical models using the method of "trial and error" trying to find the model that best fits the available data, setting in appearance can be good because the basic statistics (mean, standard deviation, correlation) properties are acceptable but can be misleading as evidenced by the Anscombe quartet (data sets with the same statistical properties but totally different dispersion diagrams).

If the systems analyst is lucky, the model will fit the data in every way, and the end user have adequate information to make correct decisions. It could also be said to be a lucky guy, only that luck is not permanent and do not win the lottery twice (Note 1). The questionable aspect is that the analyst failed these acting as a competent professional results. If the information is incorrect, you can induce the user to make mistakes. Using anchoveteras networks allow tuna fishing sometimes, but the action is inefficient and ineffective, it has real costs and hidden costs that can and should be avoided because they neutralize the advantages and benefits of Big Data.

Who is the appropriate person to prevent, correct and to punish gitanería, divination? It is the General Manager, CEO, entrepreneur or trained people who know the business and have a lot of common sense. These people do not need to know programming or all the secrets of the world of computers, but they must have the necessary to guide the search and achieve the benefits as we saw earlier knowledge, offers the use of Big Data (high speed, low cost, variety ).

In other words, the CEO should be able to avoid the use of mesh anchovy knowing that the goal is fishing for tuna or large species; he must identify who does and propose corrective measures. He is the captain and must manage the ship and crew processes so that compliance with the work plan.

CEO involvement to prevent missteps as the use of inadequate networks (arbitrary and random use of models to fish whatever) overcomes drawbacks such as:

i) Lack of professionalism of operating systems analysts and
ii) Possibility of falling into the trap of Anscombe's quartet
iii) wasting resources (time, equipment, man hours, money paid for the data without results). Big data is not free.
iv) Delays in information generation, a factor that is critical in these times of acceleration
v) the CEO difficulty to obtain a perception, an insight, more full of relevant data for your organization
vi) Inefficient use of technologies associated with Big Data
vii) Lack in creating a bank of ideas, identification of useful models, discovering new relationships between data to answer new questions concerning the business

In conclusion, you are captain of a tuna boat. The open sea is your destination and you can always fish you want, but do it with appropriate fishing gear. Keep your crew to make mistakes because the result will be disastrous, do not let pass smuggling networks with anchovy mesh.

Note 1. The policy of lucky decisions was not affected by the basic rule of computing, GIGO (garbage in, garbage out), that is "garbage in, garbage out," referring to the situation when entering useless data to a process, the information generated must also be.

References

Thomas H. Davenport, Jill Dyche (2013) Big Data in Big Companies
Mayor, 2013, International Institute for Analytics

Data Scientist: The Engineer of the Future
P. M. Wil van der Aalst

Tableau (2015) Top 7 Trends in Big Data for 2015

Pescando lo que sea en Big Data–Metáfora de la red anchovetera



Buscando valor en los datos-Metáfora  de la red anchovetera o la pesca ineficiente


Imaginemos un capitán de barco pesquero que se dirige al mar para pescar atún u otras especies mayores. El buque fue construido y equipado para pescar atún o especies icticas similares, y para que el viaje resulte rentable,  el capitán debe asegurarse de varias cosas: La disponibilidad de aparejos y equipos de pesca adecuados (sonar, redes con la malla adecuada para el tipo de peces, entre otras); mapas con la ubicación precisa de los bancos de peces y la trayectoria que debe  seguirse, permisos de pesca y otros asuntos.

Cuando llega a la zona de pesca, descubre que alguien llevó a  abordo algunas redes con malla anchovetera. En apariencia, estas redes son mejores porque permiten la captura de atunes pequeños y especies menores, sin embargo generan problemas por varias razones. Se puede pescar especies de tamaño menor a lo permitido, lo que  creará desbalance en la población que queda libre; se puede pescar especies más pequeñas para las cuales no hay equipamiento ni permisos. La tarea innecesaria siguiente es la selección del atún y la exclusión de otras especies para tirarlas al mar, salvo que sea un buque factoría depredador donde todo se convierte en harina.

Una pérdida de tiempo, desperdicio de recursos y la posibilidad de confiscación de la nave, fuertes multas o suspensión de los permisos cuando es descubierto por autoridades  marítimas honestas. Asumamos un mundo utópico en el que no hay posibilidad de coimas ni mercados donde vender la pesca ilegal. El efecto final es la pérdida de tiempo, desperdicio, de recursos y posiblemente regreso al puerto de origen con menos pesca de la esperada, una pérdida de valor en la actividad pesquera; todos estos efectos negativos surgen por usar los aparejos de pesca incorrectos.



La historia anterior nos permite aplicar la metáfora de las redes equivocadas al mundo de los negocios donde los peces equivalen a los datos que se encuentran disponibles para las empresas.  En el mundo actual donde los datos son captados de diferentes fuentes, distintos formatos, en todo momento  y con distintos medios las organizaciones deben ser capaces de encontrar, seleccionar, filtrar, procesar y generar información a partir de los datos que les son útiles para tomar decisiones acertadas con las que se crea valor para la empresa y los clientes, al ofrecer a los clientes lo que ellos desean, vender y obtener una rentabilidad adecuada. Es decir, deben tener a la mano y emplear  con prudencia  las técnicas y procedimientos correctos para obtener valor de los datos.

Los datos están en el “mar abierto virtual”, Big Data, un escenario inmenso, que a diferencia del océano físico real que es fijo, crece continuamente. El Big Data se caracteriza por las tres V clásicas  (Volumen, variedad, velocidad) y una cuarta adicional  que puede ser decisiva, la Veracidad. Por volumen se entiende la inmensa  cantidad de datos disponibles en el mundo y que se crean sin cesar; por variedad nos referimos a los distintos formatos en que se encuentra  (texto, audio video, imágenes, etc.,);  por velocidad a la gran cantidad de datos que se agregan al stock disponible. La veracidad es una cualidad vital para tomar decisiones críticas. Si los datos son falsos la información es espuria,  cualquier decisión será errada y originará pérdidas y otros problemas.

Davenport y Dyche (2013:3) señalan que las nuevas tecnologías d de información como Big Data pueden generar fantásticas reducciones de costos, mejoramiento sustancial en los tiempos de proceso de datos, creación de un producto o un nuevo servicio. Las tecnologías y los conceptos  detrás de ellas, permiten alcanzar una variedad de objetivos, que tienen influencia  en los resultados financieros, en los procesos y la calidad de gestión de la organización.

En el costo, el uso de tecnologías como los clústeres o redes Hadoop permite llevar el costo de almacenamiento de 1 terabyte (un millón de gigabytes) desde $37,000 en una base de datos relacional típica, a  $5,000 en una aplicación de base de datos  y a sólo  $2,000 en un clúster Hadoop.

Davenport y Dyche (2013:5) también consideran que el segundo objetivo común de las empresas con la tecnología Big data es la reducción del tiempo. Por ejemplo, la empresa minorista  Macy´s redujo el tiempo de optimización para la fijación de precios de 73 millones de ítems desde 27 horas a sólo una hora. Esta función “analítica de big data” permite a la cadena renovar precios con mayor frecuencia y adaptarse mejor al mercado y las condiciones cambiantes en el mercado minorista.

Algunos analistas afirman que la humanidad ha creado  5 exabytes (es decir,  5 billones de gigabytes) de datos desde la Edad de Piedra hasta el año 2003; en el año 2011 esa cantidad fue creada en sólo dos días, en el año 2013 solo se requirieron 10 minutos  (van der Aalst, 2014:15) Recuerden que en  EEUU, un billón equivale a mil millones.



Por esta razón, se ha creado  un nuevo concepto, una nueva metáfora para referirse a la inmensidad de datos disponibles. El concept de “gran lago de datos” (big data lake), una gran masa de datos que existe en estado natural o sin proceso. El desafío central es como se puede almacenar, procesar  y usar eficientemente la cantidad masiva de datos. Compañas como  Google y Facebook tienen tecnologías útiles para aprovechar el lago de datos, pero aun están en etapa inicial. Por ser el “lago de datos” un concepto reciente, también lo son las tecnologías pertinentes, pero sin duda se necesita una nueva forma de gestionar esta abundancia con eficacia.



¿Qué queremos mostrar con estos antecedentes? En las empresas, el personal el área de informática o Tecnología de la Información, por desconocimiento, apatía o por la comodidad pueden optar por acciones equivalentes al uso de redes anchoveteras. Estas personas pueden conocer lenguajes de programación, algoritmos y protocolos para usar el software y los equipos, pero muchas veces desconocen la esencia del negocio, por lo alguien debe encargarse de esta parte. En general, cuando se les solicita información a partir de los datos disponibles, suelen emplear aleatoriamente modelos matemáticos recurriendo al  método de "prueba y error",  tratando de encontrar el modelo que se ajusta mejor a los datos disponibles, ajuste que en apariencia puede ser bueno porque las propiedades  estadísticas básicas (media, desviación estándar, correlación) son aceptables pero pueden ser engañosas como lo demuestra el cuarteto de Anscombe (conjuntos de datos con las mismas propiedades estadísticos pero diagramas de dispersión totalmente diferentes).

Si el analista de sistemas tiene suerte, el modelo  se ajustará  a los datos en todo sentido, y el usuario final tiene información adecuada para tomar decisiones correctas. Podría decirse también que es un tipo con suerte, sólo que la suerte no es permanente y no se gana dos veces la lotería (Nota 1). El aspecto cuestionable es que el analista no logró estos resultados  actuando como profesional competente. Si la información es incorrecta, puede inducir al usuario a cometer errores. El uso de redes anchoveteras  permitirá pescar algunas veces el atún, pero la acción es ineficiente e ineficaz, tiene costos reales y costos ocultos que pueden y deben evitarse porque neutralizan las ventajas y beneficios que ofrece Big Data.

¿Quién es la persona apropiada para evitar, corregir y hasta sancionar la gitanería, la adivinación?  Es el Gerente General, CEO, empresario o las personas capacitadas, que conocen el negocio y tienen mucho sentido común. Estas personas no necesitan saber programación o todos los secretos del mundo de las computadoras, pero deben tener el conocimiento necesario para orientar la búsqueda y lograr las ventajas que como vimos antes, ofrece el uso de Big Data (alta velocidad, bajos costos, gran variedad).

En otras palabras, el CEO debe ser capaz  de evitar el usos de malla anchovetera sabiendo que el objetivo es la pesca de atún o especies grandes; debe identificar a quien lo hace y proponer las medidas correctivas. Es el capitán y debe administrar el barco, los procesos  y la tripulación de manera que se cumpla con el plan de trabajo.

La participación del CEO para impedir pasos en falso como el uso de redes inadecuadas (uso arbitrario y aleatorio de modelos para pescar  lo que sea) permite superar inconvenientes como:

i)  Falta de profesionalismo de los analistas de sistemas que actúan así
ii)    Posibilidad de caer en la trampa del cuarteto de Anscombe
iii) Desperdicio de recursos (tiempo, equipos, horas hombre, dinero pagado por los datos sin obtener resultados). Big data no es gratuito.
iv)  Retrasos  en la generación de información , factor que es crítico en estos tiempos de aceleración
v)Dificultad para que el   CEO obtenga una percepción, un insight, más completo de los datos pertinentes para su organización
vi)  Ineficiencia en el uso de las tecnologías asociadas a Big Data
vii)     Creación de un banco de ideas , identificación de modelos útiles, descubrimiento de nuevas relaciones entre los datos  para responder nuevas preguntas concernientes al negocio

En conclusión, usted es capitán de un buque atunero. El mar abierto es su destino y puede pescar siempre que lo desee, pero hágalo con los aparejos de pesca apropiados. Evite que su tripulación cometa errores porque el resultado será desastroso, no permita que pasen de contrabando redes con malla anchovetera.

Nota 1. El tomador de decisiones afortunado  no fue afectado por la regla básica de la computación, GIGO (garbage in, garbage out), o sea “entra basura, sale basura”, aludiendo a la situación en que al ingresar datos inútiles a un proceso, la información generada  también debe serlo.

Referencias

Thomas H. Davenport, Jill Dyche (2013) Big Data in Big Companies
Mayor, 2013, International Institute for Analytics

Data Scientist: The Engineer of the Future
Wil M. P. van der Aalst

Tableau(2015)  Top 7 Trends in Big Data for 2015