Анализ лог-файлов должен быть частью инструментария каждого SEO-профессионала, но большинство оптимизаторов никогда не проводили его. Это означает, что большинство SEO-специалистов упускают уникальные и бесценные идеи, которые обычные инструменты сканирования просто не могут дать.
Давайте демистифицируем анализ файла журнала, чтобы он не был таким пугающим. Если вы интересуетесь удивительным миром файлов журналов и тем, что они могут принести в аудит вашего сайта, это руководство определенно для вас.
Что такое файлы журналов?
Файлы журналов - это файлы, содержащие подробные журналы о том, кто и что делает запросы на сервер вашего сайта. Каждый раз, когда бот отправляет запрос на ваш сайт, данные (такие как время, дата IP-адрес, пользовательский агент и т. Д.) Хранятся в этом журнале. Эти ценные данные позволяют любому SEO-специалисту узнать, что робот Googlebot и другие сканеры делают на вашем сайте. В отличие от обычного сканирования, такого как SEO Spider Screaming Frog, это реальные данные, а не оценка того, как сканируется ваш сайт. Это точный обзор того, как сканируется ваш сайт .
Наличие этих точных данных может помочь вам определить расходы, легко найти ошибки доступа, понять, как ваши усилия по SEO влияют на сканирование, и многое, многое другое. Самое приятное то, что в большинстве случаев это можно сделать с помощью простого программного обеспечения для работы с электронными таблицами.
В этом руководстве мы сконцентрируемся на Excel для выполнения анализа файлов журналов, но я также расскажу о других инструментах.
Как открыть файлы журнала
Переименовать .log в .csv
Когда вы получаете файл журнала с расширением .log, это действительно так же просто, как переименовать расширение файла .csv и открыть файл в программе для работы с электронными таблицами. Не забудьте настроить операционную систему на показ расширений файлов, если вы хотите их редактировать.
Как открыть сплит файлы журнала
Файлы журнала могут входить либо в один большой журнал, либо в несколько файлов, в зависимости от конфигурации сервера вашего сайта. Некоторые сервера будут использовать балансировку нагрузки сервера для распределения трафика между пулом или фермой серверов, что приведет к разделению файлов журнала. Хорошей новостью является то, что это действительно легко объединить, и вы можете использовать один из этих трех методов, чтобы объединить их, а затем открыть их как обычно:
1. Используйте командную строку в Windows, нажав Shift + щелчок правой кнопкой мыши в папке, содержащей файлы журналов, и выберите «Запустить Powershell отсюда»
Затем выполните следующую команду:
copy * .log mylogfiles.csv
Теперь вы можете открыть mylogfile.csv, и он будет содержать все ваши данные журнала.
Или, если вы пользователь Mac, сначала используйте команду cd, чтобы перейти в каталог ваших файлов журнала:
cd Documents / MyLogFiles /
Затем используйте команду cat или concatenate для объединения ваших файлов:
cat * .log> mylogfiles.csv
2. Используя бесплатный инструмент Log File Merge , объедините все файлы журнала, а затем отредактируйте расширение файла до .csv и откройте как обычно.
Расщепление строк
После того, как вы откроете файл журнала, вам нужно будет разбить громоздкий текст в каждой ячейке на столбцы для упрощения последующей сортировки.
Здесь очень удобна функция «Текст в столбец» в Excel, которая так же проста, как и выделение всех заполненных ячеек (Ctrl / Cmd + A), переход в Excel> Данные> Текст в столбцах и выбор параметра «Разделитель».
После того, как вы отделите это, вы также можете отсортировать по времени и дате.
Понимание файлов журнала
Теперь, когда ваши файлы журнала готовы для анализа, мы можем погрузиться и начать понимать наши данные. Существует множество форматов, которые файлы журнала могут принимать с несколькими различными точками данных, но обычно они включают следующее:
1. IP сервера
2. Дата и время
3. Метод запроса к серверу (например, GET / POST)
4. Запрошенный URL
5. Код состояния HTTP
6. Агент пользователя
Как быстро выявить бюджет сканирования
Бюджет сканирования - это количество страниц, которые поисковая система сканирует при каждом посещении вашего сайта. На бюджет обхода влияют многочисленные факторы, в том числе равенство ссылок или авторитет домена, скорость сайта и многое другое. С помощью анализа файлов журнала мы сможем увидеть, какой бюджет сканирования у вашего веб-сайта и где возникают проблемы, которые приводят к потере бюджета на сканирование.
В идеале мы хотим предоставить сканерам максимально эффективный опыт сканирования. Сканирование не должно тратиться на страницы с низким значением URL-адреса, а на приоритетных страницах (например, на страницах продукта) не должно быть более медленной индексации и скорости сканирования. Помните, что хорошая конвертация бюджета сканирования - лучшая органическая производительность поиска.
Просмотреть просканированные URL-адреса по пользовательскому агенту
Видя, как часто просматриваются URL-адреса сайта, можно быстро определить, где поисковые системы тратят свое время на сканирование.
Если вам интересно посмотреть на поведение отдельного пользовательского агента, это просто, как отфильтровать соответствующий столбец в Excel. В этом случае, используя файл журнала формата WC3, фильтруюем столбец cs (User-Agent) с помощью Googlebot.
А затем отфильтруйте столбец URI, чтобы показать, сколько раз робот Googlebot сканировал домашнюю страницу этого примера сайта.
Это быстрый способ выяснить, существуют ли какие-либо проблемные области по URI для отдельного пользовательского агента.
Из этого основного меню мы можем видеть, какие URL, включая файлы ресурсов, сканируются, чтобы быстро идентифицировать любые проблемные URL (например, параметризованные URL, которые не следует сканировать).
Понимание того, какие роботы сканируют, как мобильные роботы сканируют на настольных компьютерах, поможет вам сразу увидеть, где происходит потеря бюджета при сканировании и какие области сайта нуждаются в улучшении.
Найти URL-адреса с низкой добавленной стоимостью
Бюджет обхода не следует тратить на URL-адреса с низкой добавленной стоимостью.
Вернитесь к файлу журнала и выполните фильтрацию по URL-адресам, которые содержат символы «?» Или вопросительный знак из столбца URL-адреса (содержащего основание URL-адреса). Чтобы сделать это в Excel, не забудьте использовать знак «~?»
Найти дубликаты URL
Дублирующиеся URL-адреса могут быть пустой тратой бюджета и большой проблемой SEO, но их поиск может быть проблемой. У URL-адресов иногда могут быть небольшие варианты (например, апостроф и без апострофа).
В конечном счете, лучший способ найти повторяющиеся URL-адреса - отсортировать URL-адреса сайта по алфавиту и вручную просмотреть все.
Посмотрите частоту сканирования подкаталогов
Выяснение того, какие подкаталоги просматриваются чаще всего, является еще одним быстрым способом выявления затрат на сканирование. Но имейте в виду, что если блог клиента никогда не получал ни одной обратной ссылки и получает только три просмотра в год от бабушки владельца бизнеса, не означает, что вы должны считать это сканирование ненужным. Внутренняя структура ссылок должна быть постоянно хорошей на всем сайте.
Посмотрите частоту сканирования по типу контента
Выяснение того, какой контент сканируется, или есть ли какие-либо типы контента, которые занимают слишком много бюджета сканирования, является отличной проверкой для выявления потерь бюджета на сканирование. С помощью этой тактики можно легко обнаружить частое сканирование ненужных файлов CSS или JS с низким приоритетом или то, как происходит сканирование изображений, если вы пытаетесь оптимизировать поиск изображений.
Методов анализа сканирования файлов много. Все это – шпионаж за ботами Google. Таких методов много и мы поделились только несколькими из них.
Вывод: анализ файлов журнала – это не так страшно, как кажется
Имея в своем распоряжении несколько простых инструментов, вы можете глубоко погрузиться в поведение робота Google. Когда вы поймете, как веб-сайт обрабатывает сканирование, вы сможете диагностировать больше проблем. Реальная сила анализа файлов журналов заключается в том, что вы можете проверить свои теории о Googlebot и расширить описанные выше методы, чтобы собрать свои собственные идеи и откровения.
Компания Futureinapps занимается SEO продвижением сайтов для бизнеса.