RALF KIMBALL
Datawarehouse & Business Intelligence.
Ralf Kimball (1944) es considerado el inventor del Modelo Dimensional y pionero en Data Warehouse y Inteligencia de Negocios. Define un almacén de datos como: "una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis". También fue Kimball quien determinó que un data warehouse no era más que: "la unión de todos los Data Marts de una entidad". Defiende por tanto una metodología ascendente (buttom-up) a la hora de diseñar un almacén de datos.
Entre la bibliografia de Ralf Kimball se encuentran:
- Kimball, Ralph; Margy Ross (2013). The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling (3rd ed.). Wiley. ISBN 978-1-118-53080-1.
- Kimball, Ralph; Margy Ross (2010). The Kimball Group Reader. Wiley. ISBN 978-0-470-56310-6.
- Kimball, Ralph; Margy Ross, Warren Thornthwaite, Joy Mundy, Bob Becker (2008). The Data Warehouse Lifecycle Toolkit (2nd ed.). Wiley. ISBN 978-0-470-14977-5.
- Kimball, Ralph; Joe Caserta (2004). The Data Warehouse ETL Toolkit. Wiley. ISBN 0-7645-6757-8.
- Kimball, Ralph; Margy Ross (2002). The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (2nd ed.). Wiley. ISBN 0-471-20024-7.
- Kimball, Ralph; Richard Merz (2000). The Data Webhouse Toolkit: Building the Web-Enabled Data Warehouse. Wiley. ISBN 0-471-37680-9.
- Kimball, Ralph; et al. (1998). The Data Warehouse Lifecycle Toolkit. Wiley. ISBN 0-471-25547-5.
- Kimball, Ralph (1996). The Data Warehouse Toolkit. Wiley. ISBN 978-0-471-15337-5.
La Metodología de Kimball.
La metodología se basa en lo que Kimball denomina Ciclo de Vida Dimensional del Negocio (Business Dimensional Lifecycle). Este ciclo de vida del proyecto de Data Warehouse, está basado en cuatro principios básicos:
- Centrarse en el negocio: Hay que concentrarse en la identificación de los requerimientos del negocio y su valor asociado, y usar estos esfuerzos para desarrollar relaciones sólidas con el negocio, agudizando el análisis del mismo y la competencia consultiva de los implementadores.
- Construir una infraestructura de información adecuada: Diseñar una base de información única, integrada, fácil de usar, de alto rendimiento donde se reflejará la amplia gama de requerimientos de negocio identificados en la empresa.
- Realizar entregas en incrementos significativos: Crear el almacén de datos (DW) en incrementos entregables en plazos de 6 a 12 meses. Hay que usar el valor de negocio de cada elemento identificado para determinar el orden de aplicación de los incrementos. En esto la metodología se parece a las metodologías ágiles de construcción de software.
- Ofrecer la solución completa: Proporcionar todos los elementos necesarios para entregar valor a los usuarios de negocios. Para comenzar, esto significa tener un almacén de datos sólido, bien diseñado, con calidad probada, y accesible. También se deberá entregar herramientas de consulta ad hoc, aplicaciones para informes y análisis avanzado, capacitación, soporte, sitio web y documentación.
Tareas de esta metodología (Ciclo de Vida)
Como se puede apreciar en la figura, los Requerimientos del Negocio son el soporte inicial de las tareas subsiguientes. También tiene influencia en el plan de proyecto (puede notar la doble fecha entre la caja de definición de requerimientos y la de planificación).
Podemos también ver tres rutas o caminos que se enfocan en tres diferentes áreas:
- Tecnología (Camino Superior): Implica tareas relacionadas consoftware específico, por ejemplo, Microsoft SQL Analysis Services.
- Datos (Camino del medio): En la misma diseñaremos eimplementaremos el modelo dimensional, y desarrollaremos elsubsistema de Extracción, Transformación y Carga (Extract,Transformation, and Load - ETL) para cargar el DW.
- Aplicaciones de Inteligencia de Negocios (Camino Inferior): Enesta ruta se encuentran tareas en las que diseñamos ydesarrollamos las aplicaciones de negocios para los usuariosfinales.
Estas rutas se combinan cuando se instala finalmente el sistema. En la parte de debajo de la figura se muestra la actividad general de administración del proyecto. A continuación describiremos cada una de las tareas:
- PLANIFICACIÓN: En este proceso se determina el propósito del proyecto de DW/BI, sus objetivos específicos y el alcance del mismo, los principales riesgos y una aproximación inicial a las necesidades de información.
En la visión de programas y proyectos de Kimball, Proyecto, se refiere a una iteracion simple del Ciclo de Vida de Kimball, desde el lanzamiento hasta el despliegue.
Esta tarea incluye las siguientes acciones tipicas de un plan de proyecto:
- Definir el alcance (Entender los Requerimientos del Negocio)
- Identificar las tareas
- Programar las tareas
- Planificar el uso de los recursos
- Asignar la carga de trabajo a los recursos
- Elaboración de un documento final que representa un plan del proyecto
- ANÁLISIS DE REQUERIMIENTOS: La definición de los requerimientos es en gran medida un proceso de entrevistar al personal de negocio y técnico, pero siempre conviene tener un poco de preparación previa. Se debe aprender tanto como se pueda sobre el negocio, los competidores, la industria y los clientes del mismo. Hay que leer todos los informes posibles de la organización; rastrear los documentos de estrategia interna; entrevistar a los empleados, analizar lo que se dice en la prensa acerca de la organización, la competencia y la industria. Se deben conocer los términos y la terminología del negocio.
- MODELADO DIMENSIONAL: El proceso de diseño comienza con un modelo dimensional de alto nivel obtenido a partir de los procesos priorizados de la matriz descrita en el punto anterior. El proceso iterativo consiste en cuatro pasos:
- Elegir el Proceso de Negocio.
- Establecer el Nivel de Granularidad.
- Elegir las Dimensiones.
- Identificar medidas y las tablas de hechos.
- DISEÑO FÍSICO: En esta parte, intentamos contestar las siguientes preguntas:
- ¿Cómo puede determinar cuán grande será el sistema de DW/BI?
- ¿Cuáles son los factores de uso que llevarán a una configuración más grande y más compleja?
- ¿Cómo se debe configurar el sistema?
- ¿Cuánta memoria y servidores se necesitan? ¿Qué tipo de almacenamiento y procesadores?
- ¿Cómo instalar el software en los servidores de desarrollo, prueba y producción?
- ¿Qué necesitan instalar los diferentes miembros del equipo de DW/BI en sus estaciones de trabajo?
- ¿Cómo convertir el modelo de datos lógico en un modelo de datos físicos en la base de datos relacional?
- ¿Cómo conseguir un plan de indexación inicial?
- ¿Debe usarse la partición en las tablas relacionales?
- DISEÑO DEL SISTEMA DE EXTRACCIÓN, TRANSFORMACIÓN Y CARGA (ETL): Es la base sobre la cual se alimenta el Datawarehouse. Si el sistema ETL se diseña adecuadamente, puede extraer los datos de los sistemas de origen de datos, aplicar diferentes reglas para aumentar la calidad y consistencia de los mismos, consolidar la información proveniente de distintos sistemas, y finalmente cargar (grabar) la información en el DW en un formato acorde para la utilización por parte de las herramientas de análisis.
- ESPECIFICACIÓN Y DESARROLLO DE APLICACIONES BI: Las aplicaciones de BI son la cara visible de la inteligencia de negocios: los informes y aplicaciones de análisis proporcionan información útil a los usuarios. Las aplicaciones de BI incluyen un amplio espectro de tipos de informes y herramientas de análisis, que van desde informes simples de formato fijo a sofisticadas aplicaciones analíticas que usan complejos algoritmos e información del dominio. Kimball divide a estas aplicaciones en dos categorías basadas en el nivel de sofisticación, y les llama informes estándar y aplicaciones analíticas.
En conclusión, la metodología de Kimball proporciona una base empírica y metodológica adecuada para las implementaciones de almacenes de datos pequeños y medianos, dada su gran versatilidad y su enfoque ascendente, que permite construir los almacenes en forma escalonada. Además presenta una serie de herramientas, tales como planillas, gráficos y documentos, que proporcionan una gran ayuda para iniciarse en el ámbito de la construcción de un Datawarehouse.