Búsqueda de duplicados con DeduplicationWizard

Los duplicados en las listas de direcciones que se usan en las campañas de marketing directo aumentan notablemente los gastos de la campaña y hacen disminuir su éxito. Y en el fondo no resulta nada difícil encontrar los duplicados en las listas de direcciones y borrarlos.

Para saber como surgen los duplicados y que aspecto pueden tener, podrá consultar el artículo 'Duplicados en listas de direcciones'. Como podrá leer en este artículo, no tiene mucho sentido usar herramientas sencillas para eliminar duplicados ni mucho menos hacerlo manualmente. Porque únicamente programas eficientes como por ejemplo DeduplicationWizard dan buenos resultados. Y con DeduplicationWizard resulta muy fácil encontrar las entradas repetidas en las listas de direcciones y borrarlas.

Para ello proceda de la siguiente manera:

  1. Si previamente no lo ha hecho, descargue DeduplicationWizard desde www.DataQualityApps.es. Instale el programa y solicite una activación de prueba. Ahora podrá trabajar con el programa durante una semana sin restricciones.
  2. La función necesitada es 'Deduplicación en un fichero'.
  3. Después de haber activado esta función, debemos primero seleccionar el criterio para la comparación. La búsqueda de duplicados se puede efectuar usando la dirección postal, el número de teléfono o la dirección de e-mail. Seleccionamos la dirección postal.
  4. Después de hacer clic en el botón 'siguiente' abrimos el fichero Excel que deseamos procesar. Si no deseamos usar la primera hoja sino otra diferente del correspondiente fichero Excel, ésta la podremos seleccionar más adelante en el diálogo donde se efectúa la asignación de campos.
  5. Después de abrir el fichero Excel, el programa nos lleva automáticamente al siguiente paso, es decir, la asignación de campos. Debemos indicar al programa en que columna de la tabla podrá encontrar que tipo de información, por ejemplo, en que columna se encuentra la calle o el nombre de la ciudad. Para ello, siempre debemos seleccionar de las listas con los nombres de las columnas de la tabla el campo de datos que se ajusta mejor a la denominación que se muestra en el lado izquierdo. El programa efectúa automáticamente una preasignación de esta asignación de campos mediante los nombres de columnas. Como querremos buscar duplicados usando la dirección postal, debemos indicar para todos los elementos de la dirección postal todas aquellas columnas de la tabla a procesar donde esté guardada esta información. Podemos comprobar el resultado de la asignación de campos con ayuda de 'controlar la asignación de campos', que se encuentra en la parte derecha de la pantalla.
  6. Mediante el botón 'siguiente' accedemos al diálogo donde se configura la propia función. Aquí debemos ante todo indicar el valor umbral de la máxima desviación admisible entre dos direcciones. Además podremos excluir determinados elementos de la dirección postal del proceso de comparación. Obviamente debemos indicar en la asignación de campos previamente realizada una columna de la tabla a procesar para cada elemento de la dirección postal que deseamos incluir en la comparación.
  7. Haciendo clic en el botón 'siguiente', iniciamos la búsqueda de duplicados. Después de muy poco tiempo se muestra un resumen de los resultados. Si el programa encontró duplicados en la tabla a procesar, entonces un clic en el botón 'OK' nos lleva a retoques manuales. Por lo demás, deberíamos seleccionar un valor umbral del grado de concordancia más bajo y reiniciar la comparación.
  8. En los 'retoques manuales' el resultado de la comparación se muestra en forma de tabla. Los registros que deberían ser borrados vienen marcados con una cruz roja, ésta se puede, cuando sea necesario, borrar o mover a otro registro del grupo de duplicados.
  9. Haciendo otra vez clic en 'siguiente' accedemos al diálogo con las funciones que nos permiten procesar el resultado. Por ejemplo, podríamos borrar directamente del fichero original aquellos registros que se hayan marcado para ser borrados. Para ello solamente necesitamos hacer clic en el botón 'borrar en el fichero original'.

La búsqueda de duplicados dentro de una tabla se puede realizar también con DataQualityTools, disponibles en www.DataQualityApps.es. Estos ofrecen muchas más opciones que DeduplicationWizard, no solamente por lo que se refiere a la búsqueda de duplicados.

Nota: También existe un video tutorial para DeduplicationWizard que nos introduce en el manejo del programa mediante una muestra de comparación de duplicados dentro de una tabla.

Para saber como se buscan con ayuda de DataQualityTools duplicados entre dos tablas, podrá consultar el artículo 'Procesar listas negras con DataQualityTools'. Y finalmente, en el artículo 'Búsqueda de duplicados temporizada con BatchDeduplicator' podrá consultar como automatizar la búsqueda de duplicados.

Autor: Thomas Hainke