Поиск молодых сайтов с большим трафиком

Сейчас кризис, стоимость клика упала и соответственно доход. Что же делать? Давайте попробуем найти нишу, а если быть точней, то сайт у которого мало страниц в индексе, которому не больше года и посмотрим на его семантическое ядро. Поехали!

Открываем рейтинг сайтов LiveInternet.ru и получаем URL сайтов всех категорий. Получать URL я буду с помощью программы Content Downloader в которой есть «Сканер сайтов» для получения всех ссылок на странице, предварительно указав ему диапазон парсинга от 1 до 1000.

image

Весь парсинг занимает 3 минуты. В итоге мы получили около 30 тысяч доменов.

После того, как мы получили список сайтов, нам нужно узнать дату регистрации. Я это делаю с помощью программы RDS API.

image

После этого отсортируем столбец «Возраст» и сделаем экспорт в Excel файл, в котором удалим домены, которые появились до 2014 года и снова добавим в RDS API.

У нас осталось 870 доменов для исследования, которые были зарегистрированы от 1 января 2014 года.

image

В итоге, у нас есть данные о количестве страниц в индексе и возрасте сайта. Осталось узнать посещаемость, чтобы оставить только сайты с посещаемостью. Для того, чтобы узнать посещаемость доменов добавим их в программу Netpeak Checker.

image

Теперь осталось объединить Excel файлы из Netpeak Checker и RDS API, чтобы в итоге получить следующее:

image

С помощью фильтра удаляем сайты с посещаемостью менее 500 (можно и больше) и начинам исследование.

Данные о посещаемости:

  • От 100 до 1000 — 180 сайтов
  • От 1000 до 2000 — 138 сайтов
  • От 2000 до 4000 — 95 сайтов
  • От 4000 до 10 000 — 76 сайтов
  • От 10 000 до 20 000 — 33 сайта
  • От 20 000 до 60 000 — 18 сайтов
  • От 73 000 до 79 000 — 3 сайта
  • Более 100 000 — 1 сайт
  • Более 400 000 — 1 сайт

Последние два сайта — это политические новости.

image

Это данные SimilarWeb.com по сайту «Русская весна», который был создан по данным RDS API в марте 2014 года. Данные говорят сами за себя. Политика — горячая тема, но не каждый захочет с ней связываться, да и трафик здесь не поисковый — будет тяжело монетизировать.

Нам такие сайты — не подходят. Поэтому продолжаем открывать сайты по очереди и смотреть данные по структуре его трафика. Чтобы не делать поиск вручную — можно использовать SimilarWeb API (напишите сами или закажите у программиста). После регистрации в качестве разработчика — вы получите API-код. С примерами запросов вы можете ознакомиться на этой странице — https://developer.similarweb.com/doc. На странице выберите «Rank and Reach API».

Обновление от 24 февраля: Не знаю, совпадение это или ребята из RDS API прочитали пост, но сегодня в RDS API появилась возможность смотреть процентное соотношение трафика по данным SimilarWeb.com для трафика из поиска, социальных сетей, прямого трафика и т.д. Класс! Стоимость проверки 100 сайтов — 10 центов.

image

Когда найдем тот, у которого доля поискового трафика будет составлять более 50% можно приступать к следующему этапу.

Теперь одно из самых интересных — просмотр запросов по которым сайт продвигается и сколько трафика он по каждому запросу получает. Для просмотра запросов по которым сайт находится в TOP20 я использую advodka.com.

Я нашел достаточно много интересных сайтов, которые стоит изучить, но рассмотрим только один — на не коммерческую тематику, сайт про … котиков! Сайт murkote.com создан создан в июле 2014 года и на начало февраля 2015 года имеет посещаемость 7000 посетителей в сутки. В индексе Яндекса 485 страниц.

Вставляем URL в сервис и видим следующую картину:

image

Сайт по 8 тысячам запросов находится в TOP20 Яндекса и 6 тысячам в Google — это достаточно прилично, я считаю. Еще крутится по 2 запросам в Директе, скорей всего для улучшения ПФ.

Теперь самое интересное — смотрим эти самые 8 тысяч запросов и узнаем самые популярные запросы:

image

Сервис показывает позицию сайта по запросу, частотность, стоимость клика в Директе и процентное соотношение трафика. Используя эти данные можно быстро рассчитать примерный доход с такого сайта и решить, стоит ли делать подобный или нет.

После этого открываем сервис Ahrefs.com и смотрим ссылки на данный сайт:

image

Сервис показал всего 462 беклинка, большая часть из которых с адресом сайта в качестве анкора.

Проделываем все это для всех сайтов, которые мы нашли и выбираем один или несколько сайтов, которые будем делать.

Шаги:

  1. Парсинг ссылок с рейтинга Li.ru
  2. Просмотр возраста сайтов и количество страниц в индексе через RDS API
  3. Просмотр посещаемости через Netpeak Checker
  4. Просмотр запросов по которым сайт получает трафик через advodka.com
  5. Просмотр ссылочной массы через ahrefs.com

Вот вроде бы и все. А как вы ищите интересные сайты для анализа?

Обновление: У сайта из примера была склейка со старым сайтом, но это не меняет сам принцип поиска. Надо только предварительно проверять на склейку.

ГлавнаяSEO → Поиск молодых сайтов с большим трафиком

  • http://lp-up.com/ Алексей Андрусенко

    Ты пропустил один момент что была склейка доменов. Сайт в июле просто переехал на .com

  • http://altblog.ru/ altblog

    Спасибо за комментарий. Пропустил т.к. глубоко не анализировал. Для чистоты надо еще проверять на склейку — хорошее замечание.

  • http://lp-up.com/ Алексей Андрусенко

    После склейки трафик вырос, так как увеличился трафик с России. Ранее был .com.ua

  • http://altblog.ru/ altblog

    «Все правильно сделал!». Подписался на блог Live Page :)

  • http://lp-up.com/ Алексей Андрусенко

    Советую — http://nazapad.com/ ^(http://nazapad.com/) в среду будет онлайн конференция. Буду как раз спикером.

  • http://altblog.ru/ altblog

    Записался.

  • Kucharka Povorova

    А, какова цель такого поиска и анализа, в свете заработка на сайтах, и падении цены клика? Нашли, провели анализ, а что дальше?

  • http://altblog.ru/ altblog

    Искать удачные стратегии, структуры и СЯ. Плюс по отдельным тематикам можно это сделать, например в финансах и найти удачные сайты.

  • sevenmen

    спасибо за классную аналитическую статью!

  • http://altblog.ru/ altblog

    Спасибо за добрые слова! :)

  • noxonsu

    биг дата в действии)

  • alexey lazutin

    Игорь, привет! Отличный материал… Спасибо

  • http://altblog.ru/ altblog

    Привет! Сколько лет, сколько зим! :)

  • Провинциальный Манимейкер

    Может стоило бы выложить сделанную выборку? Далеко не у всех есть возможность повторить аналогичный алгоритм работ.

  • http://altblog.ru/ altblog

    Здесь нет ничего трудного. Повторить все это не составляет большого труда.

  • Илья

    Попробовал спарсить CD сайты с ЛИ, но он у меня там парсит море ещё всяких wiki.li.ru и прочие, страницы кеев одного сайта точек входа например если они открыты. Как им спарсить то только сайты из категорий?

  • http://altblog.ru/ altblog

    Выбери редактировать ссылки (там где очередь страниц для парсинга), вставь туда страницы от 1 до N (предварительно сгенерировав их через {num}) и поставь галочку «Не пополнять очередь». Это приведет к тому, что будут спарсены ссылки с этих страниц. Если не ставить галочку «Не пополнять очередь» то парсинг будет вечно идти, наверное.

  • Dmitry Zakharchenko

    В «шагах» similar web и netpeak checker не перепутан?

  • http://altblog.ru/ altblog

    Можно и по другому. Кому как удобней. Сейчас вообще Similar веб встроен в RDS API — стало еще удобней.

  • Роман Александрович Кежелис

    Отличное свежее решение. Как раз искал идеи. Только один вопрос к автору: после парсинга CD в списке полученных ссылок 60%-70% ссылок типа :

    1. http://www.liveinternet.ru/rating/ru/427/?search=%D1%81%D0%B5%D1%80%D0%B2%D0%B8%D1%81 ^(http://www.liveinternet.ru/rating/ru/427/?search=%D1%81%D0%B5%D1%80%D0%B2%D0%B8%D1%81) или
    2. http://www.liveinternet.ru/stat/oldopelclub.info/index.html?lang=ru ^(http://www.liveinternet.ru/stat/oldopelclub.info/index.html?lang=ru)

    первые вообще бесполезны, ссылки второго типа содержат искомый домен.
    Если ли решение как можно выгрузить все искомые ссылки на домены при парсинге?

  • http://altblog.ru/ altblog

    Не совсем понял вопроса. Избавиться вот от таких не нужных страниц? Я это делаю так: вставлю полученный список URL в программу EditPlus, в ней выбираю Tools, потом Sort (отмечаю Remove Duplicates) и сортирую. Все ссылки с Liveinternet.ru становятся рядом с друг другом и их можно легко выделить и удалить.

  • Роман Александрович Кежелис

    Я имел ввиду что делать с ссылками типа iveinternet.ru/code?nick=ligaservise. ru они содержат искомый домен в данном случае ligaservise.ru . Если данные ссылки удалить то у меня из 60000 найденных ссылок остаётся 5000 Как можно «выдрать» домен из ссылки?
    И как удалось обойти бан liveinternet при парсинге ссылок?

  • http://altblog.ru/ altblog

    У меня бана не было. Как выдрать — не знаю, у меня все нужные ссылки сразу попадали в список.

  • http://seoonly.ru/ seoonly.ru

    Да уж, сейчас пока ситуация на Украине не разрешится, куча сайтов на эту тематику будут грести траф

  • sevenmen

    Попробовала сервис Advodka — для всех введенных сайтов выдает «По вашему запросу нет данных». Для murkote.com, описанного в статье — то же самое «нет данных». Почему так?

  • http://natalia-krupnova.ru/ Наталья Крупнова

    Шикарная статья. Сайты для анализа не ищу, но теперь знаю как, надо попробовать. Как правило беру сайт в хорошей посещаемостью по моей нише — смотрю в мегаиндекс, потом словоебом определяю конкурентность. Но Ваш способ поинтересней. Спасибо за статью!!

  • Hike

    Статья хороша. Только вот, увы, лиру поменял урлы (теперь они вида rating/#geo=ru;page=3;) и, судя по всему, сайты от туда уже не спарсишь. Или есть идеи?

  • Паша Кудрявцев

    чето не заметил

  • Michael Pierce

    Привет! Статья супер) Есть вопрос, есть ли аналог лайвинтернет, чтобы провернуть такую схему с буржуйскими сайтами? Гугл аналитикс не подойдёт как мне кажется… А так большое спасибо, очень-очень полезно!