Поиск молодых сайтов с большим трафиком

29 2 355 23.02.2015Автор: Кирилл Рамирас

Сейчас кризис, стоимость клика упала и соответственно доход. Что же делать? Давайте попробуем найти нишу, а если быть точней, то сайт у которого мало страниц в индексе, которому не больше года и посмотрим на его семантическое ядро. Поехали!

Открываем рейтинг сайтов LiveInternet.ru и получаем URL сайтов всех категорий. Получать URL я буду с помощью программы Content Downloader в которой есть «Сканер сайтов» для получения всех ссылок на странице, предварительно указав ему диапазон парсинга от 1 до 1000.

Весь парсинг занимает 3 минуты. В итоге мы получили около 30 тысяч доменов.

После того, как мы получили список сайтов, нам нужно узнать дату регистрации. Я это делаю с помощью программы RDS API.

После этого отсортируем столбец «Возраст» и сделаем экспорт в Excel файл, в котором удалим домены, которые появились до 2014 года и снова добавим в RDS API.

У нас осталось 870 доменов для исследования, которые были зарегистрированы от 1 января 2014 года.

В итоге, у нас есть данные о количестве страниц в индексе и возрасте сайта. Осталось узнать посещаемость, чтобы оставить только сайты с посещаемостью. Для того, чтобы узнать посещаемость доменов добавим их в программу Netpeak Checker.

Теперь осталось объединить Excel файлы из Netpeak Checker и RDS API, чтобы в итоге получить следующее:

С помощью фильтра удаляем сайты с посещаемостью менее 500 (можно и больше) и начинам исследование.

Данные о посещаемости:

От 100 до 1000 — 180 сайтов
От 1000 до 2000 — 138 сайтов
От 2000 до 4000 — 95 сайтов
От 4000 до 10 000 — 76 сайтов
От 10 000 до 20 000 — 33 сайта
От 20 000 до 60 000 — 18 сайтов
От 73 000 до 79 000 — 3 сайта
Более 100 000 — 1 сайт
Более 400 000 — 1 сайт

Последние два сайта — это политические новости.

Это данные SimilarWeb.com по сайту «Русская весна», который был создан по данным RDS API в марте 2014 года. Данные говорят сами за себя. Политика — горячая тема, но не каждый захочет с ней связываться, да и трафик здесь не поисковый — будет тяжело монетизировать.

Нам такие сайты — не подходят. Поэтому продолжаем открывать сайты по очереди и смотреть данные по структуре его трафика. Чтобы не делать поиск вручную — можно использовать SimilarWeb API (напишите сами или закажите у программиста). После регистрации в качестве разработчика — вы получите API-код. С примерами запросов вы можете ознакомиться на этой странице — https://developer.similarweb.com/doc. На странице выберите «Rank and Reach API».

Обновление от 24 февраля: Не знаю, совпадение это или ребята из RDS API прочитали пост, но сегодня в RDS API появилась возможность смотреть процентное соотношение трафика по данным SimilarWeb.com для трафика из поиска, социальных сетей, прямого трафика и т.д. Класс! Стоимость проверки 100 сайтов — 10 центов.

Когда найдем тот, у которого доля поискового трафика будет составлять более 50% можно приступать к следующему этапу.

Теперь одно из самых интересных — просмотр запросов по которым сайт продвигается и сколько трафика он по каждому запросу получает. Для просмотра запросов по которым сайт находится в TOP20 я использую advodka.com.

Я нашел достаточно много интересных сайтов, которые стоит изучить, но рассмотрим только один — на не коммерческую тематику, сайт про … котиков! Сайт murkote.com создан создан в июле 2014 года и на начало февраля 2015 года имеет посещаемость 7000 посетителей в сутки. В индексе Яндекса 485 страниц.

Вставляем URL в сервис и видим следующую картину:

Сайт по 8 тысячам запросов находится в TOP20 Яндекса и 6 тысячам в Google — это достаточно прилично, я считаю. Еще крутится по 2 запросам в Директе, скорей всего для улучшения ПФ.

Теперь самое интересное — смотрим эти самые 8 тысяч запросов и узнаем самые популярные запросы:

Сервис показывает позицию сайта по запросу, частотность, стоимость клика в Директе и процентное соотношение трафика. Используя эти данные можно быстро рассчитать примерный доход с такого сайта и решить, стоит ли делать подобный или нет.

После этого открываем сервис Ahrefs.com и смотрим ссылки на данный сайт:

Сервис показал всего 462 беклинка, большая часть из которых с адресом сайта в качестве анкора.

Проделываем все это для всех сайтов, которые мы нашли и выбираем один или несколько сайтов, которые будем делать.

Шаги:

Парсинг ссылок с рейтинга Li.ru
Просмотр возраста сайтов и количество страниц в индексе через RDS API
Просмотр посещаемости через Netpeak Checker
Просмотр запросов по которым сайт получает трафик через advodka.com
Просмотр ссылочной массы через ahrefs.com

Вот вроде бы и все. А как вы ищите интересные сайты для анализа?

Обновление: У сайта из примера была склейка со старым сайтом, но это не меняет сам принцип поиска. Надо только предварительно проверять на склейку.

Рейтинг

( 2 оценки, среднее 5 из 5 )

Комментариев: 29

Алексей Андрусенко 23.02.2015 в 13:09

Ты пропустил один момент что была склейка доменов. Сайт в июле просто переехал на .com

Ответить
1. altblog 23.02.2015 в 13:14
  
  Спасибо за комментарий. Пропустил т.к. глубоко не анализировал. Для чистоты надо еще проверять на склейку — хорошее замечание.
  
  Ответить
  1. Алексей Андрусенко 23.02.2015 в 13:17
    
    После склейки трафик вырос, так как увеличился трафик с России. Ранее был .com.ua
    
    Ответить
    1. altblog 23.02.2015 в 13:18
      
      «Все правильно сделал!». Подписался на блог Live Page
      
      Ответить
      1. Алексей Андрусенко 23.02.2015 в 14:36
        
        Советую — http://nazapad.com/ в среду будет онлайн конференция. Буду как раз спикером.
      2. altblog 23.02.2015 в 15:00
        
        Записался.
Kucharka Povorova 23.02.2015 в 17:58

А, какова цель такого поиска и анализа, в свете заработка на сайтах, и падении цены клика? Нашли, провели анализ, а что дальше?

Ответить
1. altblog 23.02.2015 в 18:49
  
  Искать удачные стратегии, структуры и СЯ. Плюс по отдельным тематикам можно это сделать, например в финансах и найти удачные сайты.
  
  Ответить
sevenmen 23.02.2015 в 20:50

спасибо за классную аналитическую статью!

Ответить
1. altblog 23.02.2015 в 21:02
  
  Спасибо за добрые слова!
  
  Ответить
noxonsu 24.02.2015 в 07:44

биг дата в действии)

Ответить
alexey lazutin 24.02.2015 в 09:06

Игорь, привет! Отличный материал… Спасибо

Ответить
1. altblog 24.02.2015 в 09:10
  
  Привет! Сколько лет, сколько зим!
  
  Ответить
Провинциальный Манимейкер 24.02.2015 в 10:27

Может стоило бы выложить сделанную выборку? Далеко не у всех есть возможность повторить аналогичный алгоритм работ.

Ответить
1. altblog 24.02.2015 в 11:00
  
  Здесь нет ничего трудного. Повторить все это не составляет большого труда.
  
  Ответить
Илья 24.02.2015 в 13:48

Попробовал спарсить CD сайты с ЛИ, но он у меня там парсит море ещё всяких wiki.li.ru и прочие, страницы кеев одного сайта точек входа например если они открыты. Как им спарсить то только сайты из категорий?

Ответить
1. altblog 24.02.2015 в 14:41
  
  Выбери редактировать ссылки (там где очередь страниц для парсинга), вставь туда страницы от 1 до N (предварительно сгенерировав их через {num}) и поставь галочку «Не пополнять очередь». Это приведет к тому, что будут спарсены ссылки с этих страниц. Если не ставить галочку «Не пополнять очередь» то парсинг будет вечно идти, наверное.
  
  Ответить
Dmitry Zakharchenko 25.02.2015 в 07:45

В «шагах» similar web и netpeak checker не перепутан?

Ответить
1. altblog 25.02.2015 в 07:47
  
  Можно и по другому. Кому как удобней. Сейчас вообще Similar веб встроен в RDS API — стало еще удобней.
  
  Ответить
  1. Паша Кудрявцев 10.07.2016 в 23:34
    
    чето не заметил
    
    Ответить
Роман Александрович Кежелис 27.02.2015 в 01:09

Отличное свежее решение. Как раз искал идеи. Только один вопрос к автору: после парсинга CD в списке полученных ссылок 60%-70% ссылок типа :

1. http://www.liveinternet.ru/rating/ru/427/?search=%D1%81%D0%B5%D1%80%D0%B2%D0%B8%D1%81 или
2. http://www.liveinternet.ru/stat/oldopelclub.info/index.html?lang=ru

первые вообще бесполезны, ссылки второго типа содержат искомый домен.
Если ли решение как можно выгрузить все искомые ссылки на домены при парсинге?

Ответить
1. altblog 27.02.2015 в 07:57
  
  Не совсем понял вопроса. Избавиться вот от таких не нужных страниц? Я это делаю так: вставлю полученный список URL в программу EditPlus, в ней выбираю Tools, потом Sort (отмечаю Remove Duplicates) и сортирую. Все ссылки с Liveinternet.ru становятся рядом с друг другом и их можно легко выделить и удалить.
  
  Ответить
Роман Александрович Кежелис 27.02.2015 в 15:29

Я имел ввиду что делать с ссылками типа iveinternet.ru/code?nick=ligaservise. ru они содержат искомый домен в данном случае ligaservise.ru . Если данные ссылки удалить то у меня из 60000 найденных ссылок остаётся 5000 Как можно «выдрать» домен из ссылки?
И как удалось обойти бан liveinternet при парсинге ссылок?

Ответить
1. altblog 27.02.2015 в 21:18
  
  У меня бана не было. Как выдрать — не знаю, у меня все нужные ссылки сразу попадали в список.
  
  Ответить
seoonly.ru 21.03.2015 в 02:15

Да уж, сейчас пока ситуация на Украине не разрешится, куча сайтов на эту тематику будут грести траф

Ответить
sevenmen 30.03.2015 в 09:19

Попробовала сервис Advodka — для всех введенных сайтов выдает «По вашему запросу нет данных». Для murkote.com, описанного в статье — то же самое «нет данных». Почему так?

Ответить
Наталья Крупнова 11.05.2015 в 04:17

Шикарная статья. Сайты для анализа не ищу, но теперь знаю как, надо попробовать. Как правило беру сайт в хорошей посещаемостью по моей нише — смотрю в мегаиндекс, потом словоебом определяю конкурентность. Но Ваш способ поинтересней. Спасибо за статью!!

Ответить
Hike 28.09.2015 в 17:46

Статья хороша. Только вот, увы, лиру поменял урлы (теперь они вида rating/#geo=ru;page=3;) и, судя по всему, сайты от туда уже не спарсишь. Или есть идеи?

Ответить
Michael Pierce 19.01.2017 в 06:50

Привет! Статья супер) Есть вопрос, есть ли аналог лайвинтернет, чтобы провернуть такую схему с буржуйскими сайтами? Гугл аналитикс не подойдёт как мне кажется… А так большое спасибо, очень-очень полезно!

Ответить

Добавить комментарий