Удаляем зеркальные дубликаты запросов

Сегодня я расскажу о маленькой хитрости, с помощью которой можно быстро удалить хитрые дубликаты запросов. Возможно вы привыкли использовать для этих целей специальный софт, но если вы много работаете в Excel, то этот вариант, мне кажется наиболее удобным и быстрым.

Когда собирается база запросов из Яндекс.Метрики или с wordstat, то зачастую у нас получается следующая картина:

смотреть фильмы онлайн
онлайн смотреть фильмы
фильмы смотреть онлайн

Примеров может быть очень много, но думаю задача понятная — как облегчить себе труд и избавиться от подобных дубликатов? Нам на помощь снова приходит Excel. Мы собрали базу запросов, и у нас получилось примерно следующее:

image

Конечно же, у вас будет не 3 запроса, а несколько тысяч. Что делать? Идем в «Формулы» и выбираем «Текстовые», затем «ДЛСТР» которая возвращает длину строки в символах. Дело в том, что подобные «хитрые дубликаты» имеют одинаковый размер, у них просто слова переставлены, а как известно из начальных классов — от перестановки слагаемых, сумма не меняется.

image

В Excel есть также возможность удаления дубликатов. Нет-нет! Конечно же мы не будем удалять дубликаты только основываясь на длине запроса, это было бы очень глупо. Мы будем использовать связку: частотность + длина. Вы для большей подстраховки можете использовать и большую связку, главное, чтобы вы поняли всю хитрость. Ставка делается на то, что встреча других запросов с точно такой же частотностью и длиной — маловероятна. Для уменьшения вероятности ошибочного удаления — используйте больше параметров.

В общем, идем во вкладку «Данные», выбираем «Удаление дубликатов» и отмечаем столбцы «Частотность» и «Длина»:

image

Нажимаем «Ок» и видим, что из нашего примера остался только 1 запрос, что и требовалось. Что скажете? Я опять что-то плохое придумал и есть более красивые и точные способы?

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: