База данных — как привести в порядок ?

Часто бывает, что при импорте данных в CRM у клиентов все данные хранятся в Excel.

При этом все телефоны могут быть в одной ячейке — мобильный, домашний, рабочий и др.  В CRM же для каждого типа есть своё поле данных.

Те же проблемы могут быть с ФИО — лежать всё в одной ячейке таблицы.

Для упорядочивания данных для будущего переноса их в CRM теперь есть выход — всё можно делать в автоматическом режиме,с помощью сервиса http://www.dataq.ru

Это сервис, который автоматически исправляет ошибки и восстанавливает недостающую информацию в адресах, именах, телефонах, реквизитах юридических лиц и других контактных данных.

Сервис создан на основе системы ФАКТОР производства HFLabs

ИСХОДНЫЕ ДАННЫЕ:  «ЛЕБЕДЕВ ДМИТРИЙ НИКОЛАВЕИЧ»

РЕЗУЛЬТАТ ОБРАБОТКИ КОММЕНТАРИЙ
Лебедев Выделили фамилию
Дмитрий Выделили имя
Николаевич Выделили отчество, исправили в нем опечатку

 

ФИО и пол

В большинстве баз данных фамилия, имя и отчество либо представлено единой строкой, либо разбито по полям. Но даже разбивка по полям не гарантирует того, что на месте фамилии не окажется имя или отчество.

Теперь с помощью сервиса, мы можем разбить ФИО, заданное единой строкой на компоненты, или переставить компоненты местами, если в уже разбитом адресе были допущены несоответствия.  Создатели сервиса сделали базу данных из десятков тысяч мужских и женских имен, отчеств, а также ряд эвристик по поводу фамилий, что позволяет нам автоматически обрабатывать практически все встречающиеся на территории РФ ФИО, а также выполнять обратную транслитерацию и исправлять ошибки в именах, отчествах, и большинстве фамилий.

Телефоны

Во многих базах данных телефоны либо содержатся единой строкой, или разбиты по типам. Они также могут быть перепутаны местами и быть в разных форматах — с разными разделителями, с и без кода города, с дополнительными пометками и т.д.

Технология позволяет разделять телефоны, описанные в одной строке или разбитые по полям, автоматически определять их тип (мобильный, рабочий, домашний и т.д.), отсекать лишнюю информацию и приводить их к единому формату. Если телефон не содержит код города, или этот код неправильный, то он может быть также определен автоматически на основании части адреса или набора согласованных предположений.

Адреса

Приведение адресов к единому формату или разбиение их по компонентам — регион, район, город, улица, дом, корпус, строение, квартира или офис. В качестве входных данных может быть как разбитый по компонентам адрес, так и представленный единой строкой.

Данная технология позволяет обрабатывать даже адреса, заданные в транслитерации и содержащие опечатки и сокращения, а также эвристически восстанавливать некоторые пропущенные компоненты, такие как почтовый индекс, регион и иногда даже город или другой населенный пункт.

Найти и слить дубликаты.

Практически в любой клиентской базе есть дубликаты. Основная причина появления дубликатов — это различие в форме представления одинаковых по смыслу данных. Дубликаты начинают жить своей жизнью и порождают противоречия.

База данных — как привести в порядок ?: 1 комментарий

  1. У нас на Украине идет массовая регистрация баз данных, начал работать закон о хранении и доступа к личным данным.
    Это коснулось только тех кто располагает паспортными данными на своих работников и т.п.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *