Devant

Casos de estudio:
Symphony Health

Fundada en 2012, Symphony Health ofrece datos de alto valor, análisis y soluciones innovadoras con el objetivo de ayudar a sus clientes a mejorar su rendimiento, productividad y rentabilidad.

Es propiedad de PRA Health Sciences, una empresa global con más de 13.000 empleados ubicados en 80 países.

Retrasos en los análisis de datos

Los nuevos datos siempre son importantes, pero cuando tu negocio es el análisis de datos, son fundamentales. Symphony Health estaba limitada por una solución heredada que cargaba los datos en bases de datos Oracle por lo general una vez al día y en un almacén de datos semanal. Además de que los datos se retrasaban antes de estar disponibles para el análisis, realizar nuevos tipos de análisis con los datos de las bases de datos Oracle llevaba más tiempo.
Si los analistas necesitaban un nuevo esquema, tenían que solicitarlo a un administrador de bases de datos.
A continuación, la solicitud pasaba a una cola de trabajo y los analistas esperaban a que el esquema se creara. Este proceso retrasaba nuevos análisis.
Los retrasos en la disponibilidad de los datos, el descubrimiento temprano de datos y el análisis eran inaceptables, por lo que era necesario un nuevo enfoque.

Aprovechamiento de Big Data

Symphony Health transformó sus procesos de gestión y análisis de datos pasándose a Hadoop, lo que tiene una serie de ventajas. Por un lado, los analistas pueden definir con rapidez sus propios esquemas de datos en Hadoop, eliminando la necesidad de esperar a que un administrador de bases de datos lo haga por ellos.
Además, cuantos más datos almacenaba Symphony Health en el sistema de archivos distribuidos Hadoop (HDFS), menos tenía que almacenar en un RDBMS propietario de alto costo.

Podían utilizar hardware estándar del sector, en lugar de tener que comprar servidores más grandes y caros, por lo que los costos de almacenamiento se redujeron de manera drástica.

De hecho, algunos informes del sector afirman que la gestión de datos de código abierto en hardware estándar puede ser hasta un 90% más barata que las bases de datos relacionales tradicionales.

Reto

Symphony Health necesitaba minimizar la latencia de los datos, reducir costos y aprovechar al máximo Hadoop para aumentar el valor de sus análisis.

Solución Precisely

Connect (ETL).

Resultado

Los análisis se realizan con mayor facilidad y rapidez a partir de datos actualizados al minuto en un entorno Hadoop versátil y de alto rendimiento.

Industria

Ciencia de datos para el cuidado de la salud.

Solución

Symphony Health recurrió a la solución de integración de datos de Precisely Connect, para obtener los mejores resultados de su nuevo entorno Hadoop, incluido un aumento medio del rendimiento de 3 a 5 veces. En un módulo, al utilizar Connect en todo el clúster Hadoop el tiempo de ejecución se redujo de 20 minutos a 20 segundos.“Antes, todo el procesamiento ETL se realizaba en un único servidor, el nodo de borde. Cuando entró Precisely, el procesamiento se hizo en Hadoop de la forma en que debía hacerse”, explicó Robert Hathaway, Senior Manager Big Data.

“El objetivo del procesamiento en Hadoop es recibir instrucciones del nodo de borde y enviar el trabajo al clúster. Con Precisely, conseguimos el procesamiento paralelo para el que se diseñó Hadoop, y nadie tuvo que escribir código Java MapReduce o Spark.”

Además, Connect proporciona la flexibilidad necesaria para que Symphony Health ejecute cualquier tarea fuera del flujo de trabajo donde y cuando sea necesario. Y si quieren hacer parte del trabajo de otra manera, como usando PySpark, pueden hacerlo.

Ventajas

Symphony Health obtiene una serie de beneficios de Connect y Hadoop. El más evidente es el financiero, con al menos dos factores de reducción de costos.
No sólo las licencias de Connect son más baratas que su herramienta anterior, sino que, además, almacenar los datos en hardware estándar y Hadoop es mucho menos costoso que almacenarlos en las bases de datos Oracle y el almacén de datos de la empresa en costosos servidores.
Sin el cambio, la empresa habría tenido que comprar más bases de datos Oracle y el correspondiente hardware de gama alta para gestionar el creciente volumen de datos y de trabajo ETL.
Otra ventaja es la velocidad y esto tiene dos aspectos. En primer lugar, los datos están ahora disponibles para el análisis mucho más rápido que antes, lo que hace que los análisis de la empresa sean más oportunos. “Antes, parte de los datos no estaban disponibles hasta pasado un día, y otra parte hasta pasada una semana. Ahora están disponibles para su análisis en cuestión de minutos”.

A diferencia de otras soluciones que pueden tener un rendimiento deficiente porque sus flujos de trabajo no se han optimizado, Hathaway señaló que “Connect ya está optimizado. Utilizamos su Ejecución Inteligente y simplemente rinde”.

Ventajas

El segundo aspecto de la mayor velocidad es la capacidad de crear consultas y, por tanto, realizar análisis de manera más rápida. Esto se debe a la capacidad de los analistas para crear sus propios esquemas en Hadoop, así como a la intuitiva interfaz de usuario de Connect, que los analistas encontraron más fácil de usar. Con sólo unos días de formación, el equipo se puso en marcha. Ahora, los analistas y desarrolladores pueden crear nuevos flujos de trabajo ETL con gran rapidez y dedicar más tiempo al análisis de datos.

“Antes, parte de los datos no estaban
disponibles hasta pasado un día, y otra
parte hasta pasada una semana.
Ahora están disponibles para su análisis
en cuestión de minutos”.

– Robert Hathaway, Director de Big Data

 

“Esto ha hecho que la gente pueda hacer más preguntas y averiguar cosas con anticipación”, dice Hathaway. “Obtenemos el mismo resultado final, más rápido, más barato y con un mayor grupo de desarrolladores a los que recurrir que pueden hacer el trabajo. Soy un desarrollador de C# y Java que incluso sabe algo de Scala, y aun así me gusta usar Connect porque puedo hacer mucho más al mismo tiempo.”
Otra ventaja de Connect es su flexibilidad. Además de su integración con Hadoop, Connect envía datos a Amazon Redshift con una latencia mínima. Esto permite a los científicos de datos realizar consultas avanzadas en la nube, y facilita la provisión
de resultados analíticos a clientes en Amazon, a través de una aplicación front-end.
La opción de despliegue desacoplado de Connect ofrece otra ventaja. Si Symphony Health encuentra un software que hace mejor una parte del proceso, la empresa puede conectar enseguida ese nuevo software, sin tener que sustituir toda la solución.
En resumen, no están bloqueados. Connect está preparado para el futuro.

Salir de la versión móvil