Сегодня я расскажу о маленькой хитрости, с помощью которой можно быстро удалить хитрые дубликаты запросов. Возможно вы привыкли использовать для этих целей специальный софт, но если вы много работаете в Excel, то этот вариант, мне кажется наиболее удобным и быстрым.
Когда собирается база запросов из Яндекс.Метрики или с wordstat, то зачастую у нас получается следующая картина:
смотреть фильмы онлайн
онлайн смотреть фильмы
фильмы смотреть онлайн
Примеров может быть очень много, но думаю задача понятная — как облегчить себе труд и избавиться от подобных дубликатов? Нам на помощь снова приходит Excel. Мы собрали базу запросов, и у нас получилось примерно следующее:
Конечно же, у вас будет не 3 запроса, а несколько тысяч. Что делать? Идем в «Формулы» и выбираем «Текстовые», затем «ДЛСТР» которая возвращает длину строки в символах. Дело в том, что подобные «хитрые дубликаты» имеют одинаковый размер, у них просто слова переставлены, а как известно из начальных классов — от перестановки слагаемых, сумма не меняется.
В Excel есть также возможность удаления дубликатов. Нет-нет! Конечно же мы не будем удалять дубликаты только основываясь на длине запроса, это было бы очень глупо. Мы будем использовать связку: частотность + длина. Вы для большей подстраховки можете использовать и большую связку, главное, чтобы вы поняли всю хитрость. Ставка делается на то, что встреча других запросов с точно такой же частотностью и длиной — маловероятна. Для уменьшения вероятности ошибочного удаления — используйте больше параметров.
В общем, идем во вкладку «Данные», выбираем «Удаление дубликатов» и отмечаем столбцы «Частотность» и «Длина»:
Нажимаем «Ок» и видим, что из нашего примера остался только 1 запрос, что и требовалось. Что скажете? Я опять что-то плохое придумал и есть более красивые и точные способы?