CalcToolsLab

Удаление дубликатов онлайн

Удалите повторяющиеся строки из списка или, наоборот, найдите только дубли. Сохранение первого/последнего вхождения, без учёта регистра, копирование и TXT.

Удалить дубликаты строк из списка

Инструмент удаляет дубликаты строк из одного списка или показывает только повторяющиеся значения. Основной сценарий: вставить email, ключевые слова, URL, логины или артикулы, выбрать правила сравнения и получить список без повторов.

  1. Вставьте список в поле ввода (по строке на элемент)
  2. Проверьте настройки пробелов, пустых строк и регистра
  3. Выберите режим: Уникальные или Только дубли
  4. Получите результат и сводку: сколько строк было, сколько уникальных и сколько будет удалено
  5. Скопируйте или скачайте TXT

Что считается дублем

Дубликат определяется через ключ сравнения. Сначала строка разбирается как элемент списка, затем к ней применяются выбранные настройки нормализации.

НастройкаПо умолчаниюКак влияет
Обрезать пробелывключено` Иван ` и `Иван` получают одинаковый ключ сравнения
Игнорировать пустыевключенопустые строки не попадают в подсчёт и результат
Без учёта регистравыключено`Иван` и `иван` считаются одним значением только после включения этой опции
Сравнение точное: внутренние двойные пробелы, порядок слов, пунктуация, Unicode-варианты, URL-параметры и email-правила не нормализуются автоматически.

Два режима работы

РежимЧто возвращаетКогда использовать
Уникальные + первое вхождениеочищенный список, остаётся первая копиястандартная очистка email, ключевых слов, строк и логинов
Уникальные + последнее вхождениеочищенный список, остаётся последняя копиясписки с обновлениями, где поздняя строка важнее
Только дубли + по одному вхождениюсписок значений, которые повторяютсяаудит: понять, что именно дублируется
Только дубли + все вхождениявсе строки, чьи значения повторяютсявыгрузить проблемные строки для ручной проверки

Первое или последнее вхождение

При удалении дубликатов важно, какую из копий оставить:

  • Первое вхождение (по умолчанию) — оставит ту строку, что встретилась раньше. Стандартное поведение, безопасный выбор для большинства задач.
  • Последнее вхождение — оставит самую позднюю копию в списке. Полезно для выгрузок с обновлёнными строками, где новые записи добавлялись ниже старых.
Порядок строк в результате сохраняется относительно выбранной стратегии — список не сортируется. Если нужно отсортировать, используйте отдельный инструмент «Сортировка списка».

Без учёта регистра для email, URL и имён

По умолчанию `Email@x.ru` и `email@x.ru` считаются разными строками. Включайте «Без учёта регистра», когда регистр в ваших данных не должен создавать отдельные значения.

  • Email-адресов — для большинства рассылок адреса обычно сравнивают без учёта регистра; если у вас строгие правила, проверьте их отдельно
  • Доменов и URL — доменная часть URL не зависит от регистра, но путь и параметры могут зависеть от сервера
  • Имён и названий — `Иван` и `иван` — один человек
Для паролей, токенов, API-ключей регистр оставляйте — они чувствительны к регистру.

Пример удаления дубликатов

Исходный список email:

Строки до обработкиРезультат без учёта регистраТолько дубли
`anna@example.com` `ivan@example.com` `Anna@example.com` `olga@example.com` `ivan@example.com``anna@example.com` `ivan@example.com` `olga@example.com``anna@example.com` `ivan@example.com`

В примере `Anna@example.com` считается повтором `anna@example.com` только при включённом сравнении без учёта регистра. Если регистр важен, эти строки останутся разными.

Сводка результата

Сводка строится по ключам сравнения: после выбранной нормализации инструмент считает уникальные значения и показывает, на сколько строк уменьшится результат.

n — количество строк после выбранных настроек; u — количество уникальных ключей сравнения; d — сколько строк будет удалено из результата; key — строка после обрезки пробелов и, если включено, приведения регистра.

  • Всего строк — сколько элементов в исходном списке (после нормализации)
  • Уникальных — количество разных ключей сравнения
  • С дублями — сколько уникальных значений встречаются больше одного раза
  • Будет удалено — на сколько строк уменьшится список после дедупа
Приватность
Вычисления выполняются в браузере: список не нужен для отправки на сервер. При работе с персональными данными всё равно учитывайте внутреннюю политику обработки данных, буфер обмена, скачанные TXT-файлы и устройство.

Ограничения

  • Это инструмент для строк и простых списков, а не полноценный CSV-парсер: кавычки, колонки и запятые внутри CSV-полей не анализируются.
  • Если во вводе есть переносы строк, запятые и точки с запятой внутри строк не используются как разделители.
  • Похожие строки не склеиваются: `Иван Петров` и `Петров Иван` останутся разными значениями.
  • Для URL не выполняется нормализация домена, пути, query-параметров и завершающих слешей.
  • Текущий экспорт результата — TXT. Если нужны частоты каждого значения, используйте «Подсчёт элементов списка».

Связанные страницы вынесены в штатный блок связанных инструментов.

Часто задаваемые вопросы

Обновлено:

Похожие инструменты