Скрипт

Чистильщик данных Pro: ETL-скрипт очистки и дедупликации данных (Python)

Универсальный ETL-харнес для очистки данных на Python: CSV, Excel и JSON проходят дедупликацию, нормализацию, валидацию и слияние, превращаясь в чистый файл с отчётом. RU-осведомлённые валидаторы (контрольные суммы ИНН/КПП, российские телефоны, ФИО через natasha) и YAML-конфиг правил настраивают очистку данных без кода. Работает на любой ОС без GPU, образец «грязного» датасета в комплекте.

Мгновенная выдача
Гарантия возврата
Обновления навсегда
5 9008 90034%

Оплата картой или СБП · Мгновенная выдача

~/datacleaner.py/4 files
📄datacleaner.py
⚙️rules.yaml.example
🔑sample_dirty.csv
📄README.md
1def validate_inn(inn: str) -> bool:
2 """Валидация ИНН по контрольной сумме (10/12 цифр)."""
3 s = re.sub(r"\D", "", inn)
4 if len(s) == 10:
5 w = [2, 4, 10, 3, 5, 9, 4, 6, 8]
6 return int(s[-1]) == sum(
7 int(s[i]) * w[i] for i in range(9)
8 ) % 11 % 10
9 elif len(s) == 12:
10 w1 = [7, 2, 4, 10, 3, 5, 9, 4, 6, 8]
11 c1 = sum(int(s[i]) * w1[i]
12 for i in range(10)) % 11 % 10
13 return int(s[10]) == c1
14 return False
Полный исходный код — после покупки

Что внутри

Всё для немедленного старта

CSV/Excel/JSON → чистый файл + отчёт о качестве
RU-валидаторы: ИНН/КПП (контр. сумма), телефон, ФИО (natasha)
YAML-конфиг правил — настройка без кода
Дедупликация, нормализация, слияние, обогащение
Режим папки-наблюдателя (folder watch) для потока
Образец «грязного» датасета в комплекте

Экономия времени

Готовое решение вместо недель разработки — настройте за 5 минут

Рост прибыли

Автоматизация рутинных задач = больше времени на продажи и рост

Проверено в бою

Используем сами и у клиентов. Реальные результаты, не теория

Свобода использования

Коммерческая лицензия — применяйте для себя и клиентов

Как это работает

1

Оплата

Картой или СБП на безопасной странице Точка Банка

2

Мгновенная выдача

Ссылка на скачивание или Notion-шаблон — сразу после оплаты

3

Использование

Скачайте/скопируйте шаблон, настройте под себя — готово!

Готовы начать?

Чистильщик данных Pro: ETL-скрипт очистки и дедупликации данных (Python). Мгновенная выдача после оплаты.