El Data Quality Toolkit (dqT®) es un conjunto de herramientas de apoyo a las actividades de Calidad de Datos.
Estas herramientas permiten realizar análisis de datos y generar scripts para corregirlos. Pueden ser utilizadas en proyectos de migración de datos y en actividades de control, diagnóstico, mejora y mantenimiento de la calidad de datos. Cuentan con una base de conocimiento que puede ser enriquecida y con módulos de estandarización, matching, enriquecimiento, control de correctitud (validando contra un oráculo), GIS y chequeos de integridad (completitud, integridad referencial, control de claves), entre otros.
Características Detalladas
- Se conecta a la base de datos cuya información hay que analizar.
- Cuenta con una base de conocimiento extensible, en donde se encuentra un oráculo con información de diversos dominios.
- Almacena los resultados numéricos de los controles realizados, permitiendo la re ejecución de los mismos y la elaboración de estadísticas para el seguimiento de la evolución de la calidad de los datos.
- Facilita la exportación de resultados a Microsoft Excel a archivos de texto delimitados.
Cuenta con los siguientes módulos:
Estandarización. Estandariza datos de diferentes dominios de acuerdo al oráculo existente en la base de conocimiento. Por ejemplo, se generan scripts que modifican el valor ”Bs. As”. a “Buenos Aires”, “Nueve de Julio” a “9 de Julio” y “Avda” y “Av” a “Avenida”.
Matching. Cuenta con un conjunto de algoritmos que permiten determinar si dos datos se refieren a lo mismo o no. Por ejemplo, se puede detectar que la calle “Humboldt“ es probablemente la misma que “Humbolt“, “Buenoes Aires” lo mismo que “Buenos Aire”, entre otros, también se pueden detectar clientes con nombre similar.
Chequeos contra base de conocimiento. Permite revisar la correctitud de datos en base al oráculo almacenado en la base de conocimiento. Por ejemplo, se puede verificar que los datos de países estén en la lista de países existentes y que los datos de barrios estén dentro de los barrios existentes.
Enriquecimiento. Posibilita agregar datos de fuentes de datos internas o externas a la base de datos. Por ejemplo, a partir de CUIT o CUIL (DNI y sexo) genera CUIT/CUIL correcto.
Control de integridad. Permite detectar fácilmente problemas de integridad. Por ejemplo, detección de direcciones faltantes, de problemas de integridad referencial, como ser cuentas que no están asociadas a ningún cliente o números que no están en un rango válido.
Administrador de Consultas. Rápida visualización de la estructura y de los datos de la Base de Datos. Por ejemplo, existen funcionalidades básicas implementadas: browse, frecuency y cantidad de registros, que permiten conocer rápidamente las características de un conjunto de tablas. Se pueden ejecutar y almacenar consultas en SQL, visualizar estructura y datos de la Base de Datos.
GIS. Permite verificar la pertenencia de un punto a una región determinada y ubicar puntos en un mapa.
Si usted tiene alguna duda sobre instalación o uso de dqT, sugerencia de mejora o comentarios, puede contactarnos escribiéndonos a dqt@pragmaconsultores.com.