Diseño del esquema en estrella en almacenamiento de datos

El esquema en estrella es el esquema fundamental entre los esquemas de data mart y es el más simple. Este esquema se usa ampliamente para desarrollar o construir un almacén de datos y data marts dimensionales. Incluye una o más tablas de hechos que indexan cualquier número de tablas dimensionales. El esquema de estrella es una causa necesaria del esquema de copo de nieve. También es eficiente para manejar consultas básicas. 

Se dice que es una estrella porque su modelo físico se asemeja a la forma de la estrella con una tabla de hechos en el centro y las tablas de dimensiones en su periferia que representan los puntos de la estrella. En este artículo, resolveremos un importante problema de diseño en Data Warehousing.

Planteamiento del problema

Considere una base de datos operativa de gestión de pedidos que rastree los números de pedido, las fechas, las fechas de envío solicitadas, los clientes y sus direcciones de envío y facturación, los productos y su cantidad y monto bruto en dólares, los representantes de ventas que toman y procesan los pedidos, las ofertas (promociones) y los descuentos. propuesto/ofrecido a los clientes. 
 
Debe diseñar un almacén de datos que se actualizará a partir de la base de datos operativa anterior y debe respaldar la toma de decisiones al ayudar a responder preguntas analíticas sobre los montos netos en dólares de los pedidos por cliente, productos, promociones u ofertas, y el desempeño de sus representantes de ventas o agentes El análisis de las fechas de envío solicitadas también es importante para el análisis. También es importante permitir realizar el análisis del monto de la orden en varias monedas: dólares, dirhams, euros.

 Dibuje los esquemas en estrella que muestren los atributos principales, incluidas las claves principales, las claves externas y los hechos.

Paso 1: Identificar el proceso de negocio a modelar para identificar la tabla de hechos.

Estamos hablando de Ventas aquí. La tabla de hechos se llamará ‘Ventas’.
Los hechos o medidas son:

  • Importe_neto_por_cliente
  • Importe_neto_por_producto
  • Importe_neto_por_promoción

Paso 2: Elija las dimensiones para la tabla de hechos.

Las dimensiones son

  • Representante de ventas
  • Tiempo
  • Cliente
  • Producto
  • Ordenar

Paso 3:  elija los atributos de las tablas de dimensiones. 

Atributos de la dimensión Representante de ventas:

  • Sales_rep_id (clave primaria y sustituta)
  • Nombre
  • Acuerdo
  • Descuento
  • Atributos de la dimensión del tiempo:
    • Time_id (clave primaria y sustituta)
    • día
    • mes
    • año
  • Atributos de la dimensión del cliente:
    • Customer_id (clave primaria y sustituta)
    • nombre
    • Dirección de Envio
    • Dirección de Envío
  • Atributos de la dimensión del producto:
    • Product_id (clave principal y clave sustituta)
    • calidad
    • precio
    • Número de producto
    • fecha_de_envío_solicitada
    • escribe
  • Atributos de la dimensión de la orden:
    • Order_id (clave principal y clave sustituta)
    • Número de orden
    • fecha
    • Monto

Paso 4: Dibuja el esquema de estrella.

Ahora tome un ejemplo de una clave sustituta en nuestro diseño. y ¿cuáles son los objetivos de usar esta clave sustituta?

En nuestro esquema en estrella, hemos utilizado una clave sustituta por tabla de dimensiones. Las claves sustitutas utilizadas son:

  • Sales_rep_id
  • id_tiempo
  • Identificación del cliente
  • Identificación de producto
  • Solicitar ID

La clave sustituta se utiliza para identificar de forma única las filas en cada tabla de dimensiones. No podemos usar claves comerciales en la tabla de dimensiones para identificar de forma única los registros. Porque las claves comerciales pueden cambiar con el tiempo o pueden reutilizarse.

Haga las suposiciones necesarias para calcular un tamaño aproximado en (MB) de su DW durante un período de 5 años.

Suponga que el tamaño inicial de cada tabla de dimensiones es de 1 KB.
Dado que la tabla de hechos está unida a cinco tablas de dimensiones, asuma su tamaño = 1 KB = (1 5 ) KB inicialmente.
Tamaño total inicial = 1 KB + 5 KB = 6 KB 

Suponga que el tamaño de las tablas de dimensiones aumenta 2 KB cada año.
Tamaño de cada DT después de 5 años = 10 KB
Tamaño de la tabla de hechos después de 5 años = 10 5 KB = 100 MB

Declaración del problema-2:

Considere una franquicia de tiendas minoristas que tenga la configuración comercial solo en India. Los requisitos de análisis de la franquicia incluyen conocer qué artículos se compran juntos por cada consumidor individual. Desean conocer las cifras de ventas en términos de cantidad de ventas en rupias, así como la cantidad de las tiendas individuales y también para la ciudad, el estado y la región en la que se encuentran. También desean saber cómo difieren las ventas en diferentes meses, trimestres y años; cómo cambian las cifras de ventas con la hora del día, por ejemplo, cómo las ventas de las horas de la mañana son diferentes de las ventas de las horas de la tarde, etc.; cómo los hábitos de compra de los consumidores masculinos son diferentes a los de las consumidoras femeninas; cómo los hábitos de compra de los consumidores casados ​​son diferentes de los de los consumidores solteros; cómo los hábitos de compra de los consumidores varían con sus idiomas nativos (p. ej.,

Diseñe un esquema en estrella para dicho almacén de datos que identifique claramente la tabla de hechos y las tablas de dimensiones, sus claves primarias y claves externas. Además, mencione qué columnas en la tabla de hechos representan dimensiones y cuáles representan medidas o hechos.

Paso 1: Identificar el proceso de negocio a modelar para identificar la tabla de hechos.

Estamos hablando de Ventas aquí. La tabla de hechos se llamará ‘Ventas’. Los hechos o medidas son 

1. Importe_ventas_total, 2. Cantidad_ventas_total.

Paso 2: Elija las dimensiones para la tabla de hechos.

Las dimensiones son: 

  • Ubicación (de las tiendas),
  • Fecha,
  • Cliente,
  • Producto,
  • Tiempo

Paso 3:  elija los atributos de las tablas de dimensiones.

Atributos de la dimensión Ubicación: 

  • Location_id (clave principal y clave sustituta)
  • ciudad
  • distrito
  • estado
  • región (rural o urbana)

Atributos de la dimensión Fecha: 

  • Data_id (clave principal y clave sustituta)
  • día
  • semana
  • mes
  • cuarto
  • año

Atributos de la dimensión Cliente: 

  • Customer_id (clave principal y clave sustituta)
  • nombre
  • género
  • Estado civil
  • idioma

Atributos de la dimensión del producto: 

  • Product_id (clave principal y clave sustituta)
  • nombre
  • escribe
  • precio

Atributos de la dimensión Tiempo: 

  • Time_id (clave principal y clave sustituta)
  • indicador_am_pm

La clave principal de la tabla de hechos es la clave compuesta, que consta de claves principales de las 5 dimensiones.
PK de ventas es {Location_id, Date_id, Customer_id, Product_id, Time_id}

Paso 4: Jerarquía de atributos en las tablas de dimensiones.

Location: city -> district -> state
Date: day -> week -> month -> quarter -> year.

Paso 5: Dibuja el esquema de estrella.

Escriba una instrucción SQL que se ejecute en su esquema y devuelva el número de compras realizadas durante las horas de la noche por los clientes casados ​​y los clientes solteros en el mes de mayo de 2005.

Consulta:

SELECT marital_status, SUM(Total_sales_quantity)
FROM Sales S, Date D, Customer C, Time T
WHERE S.Date_id = D.Date_id AND
S.Customer_id = C.Customer_id AND
S.Time_id = T.TIme_id AND
T.am_pm_indicator = 'PM" AND
D.month = 'May' AND
D.year = 2005
GROUP BY marital_status;

Dará como resultado 2 filas, cada una para clientes casados ​​y solteros.

Publicación traducida automáticamente

Artículo escrito por pintusaini y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *