Навіщо потрібен файл sitemap xml gz. XML Sitemap: повний посібник з використання

Останнім часом часто доводиться відповідати на питання, пов'язані з файлами sitemap. Сплеск інтересу до цього далеко не найважливішого аспекту оптимізації сайтів пояснюється виходом нової версіїЯндекс.Вебмайстра, який відзначає відсутність карти сайту як помилку.

В розділі " Можливі проблеми» відображається таке повідомлення:

Немає файлів, що використовуються роботом Sitemap
Робот не використовує жодного файлу Sitemap. Це може негативно вплинути на швидкість індексування нових сторінок сайту. Якщо коректні файли Sitemap вже додані до черги на обробку, повідомлення автоматично зникне з початком їх використання.
Зверніть увагу на розділ "Файли Sitemap".

Чи таке страшне це попередження? Чи обов'язково створювати sitemap і якщо так, то навіщо? Розкладемо по поличках.

Що таке sitemap і для чого він призначений?

Найчастіше використовується формат xml, який дозволяє вказувати крім самих URL-адрес також деякі їх характеристики (частоту оновлення та зміни, відносну значимість сторінки). Однак можна використати і зовсім просту структуру. Це файл txt, Що містить список URL (кожен з нового рядка) - і більше нічого.

Призначення списку — надати пошуковим павукам інформацію про документи, що є на сайті. Це допомагає роботу знайти всі сторінки ресурсу та додати їх до результатів пошуку. Додаткові дані з xml – це рекомендація пошуковим павукам частіше чи рідше відвідувати ті чи інші сторінки. До речі, нічого не чув про те, як ці рекомендації виконуються. Цілком можливо, що вони не враховуються взагалі або є значно більше слабким сигналомпроти іншими чинниками.

Міфи про карту сайту

1. Досить зробити sitemap.xml - і про індексацію можна не турбуватися

Це найчастіша помилка, стикаюся регулярно. Насправді, для великих сайтів (сотні тисяч сторінок) повнота індексу — одна з найбільш важливих проблем і простим розміщенням картки сайту вона не вирішується. Карта дає роботу можливість знайтивсі сторінки, але це не означає, що а) індексації не завадить щось інше, наприклад, технічні проблеми і б) пошукова система визнає сторінку «гідною» бути в пошуку.

2. Sitemap обов'язковий для всіх сайтів

Маленькі проекти (до тисячі сторінок) з більш-менш адекватною структурою, коли можна в пару кліків перейти на будь-яку сторінку, чудово почуваються і без неї. Це зрозуміло як із загальних міркувань (основний механізм знаходження матеріалів для індексації — це переходи за внутрішніми посиланнями), і з практики. Бачив десятки сайтів без мапи, які повністю коректно сприймалися роботом.

Нарешті, про те саме говорить Гугл у своїй довідці:

Якщо сторінки файлу коректно пов'язані один з одним, пошукові роботи можуть виявити більшу частину матеріалів. Тим не менш, за допомогою файлу Sitemap можна оптимізувати сканування сайту, особливо в таких випадках:

  • Розмір сайту дуже великий.Пошукові роботи Google можуть пропустити нещодавно створені або змінені сторінки.
  • Сайт містить великий архів сторінок, які не пов'язані одна з одною.Щоб їх було успішно проскановано, їх можна перерахувати у файлі Sitemap.
  • Ваш сайт створений нещодавно і на нього вказує мало посилань.Робот Googlebot та інші пошукові роботи сканують Інтернет, переходячи за посиланнями з однієї сторінки на іншу. Якщо ваш сайт вказує мало посилань, його буде складного знайти.
  • На сайті використовується мультимедійний контент, він відображається в Новинах Google або використовує інші анотації, сумісні з файлами Sitemap. З файлів Sitemap може отримувати додаткову інформаціюдля відображення результатів пошуку.

3. Якщо видалити сторінку з sitemap, вона випаде з індексу

Аналогічно – міф. Зіткнувся з величезною кількістю сайтів, де sitemap відвалювався через технічних проблемабо віддавався роботам у сильно урізаному вигляді. Це могло шкодити влученню в пошук нових сторінок, але зі старими все було гаразд.

Навпаки, нерідко використовується прийом «видалити з карти все проіндексоване, щоб зосередити увагу робота на нових сторінках». Він дає певний ефект щодо оптимізації краулінгу (сканування) сайту. Однак для більшості випадків я не рекомендую його використовувати, про причини див. нижче.

4. Обов'язково потрібно налаштовувати всі додаткові. параметри (пріоритет, частота оновлення)

Ні. Як згадувалося, можна без проблем використовувати звичайний txt-файл зі списком url. Зрозуміло, гірше від зазначення максимуму інформації у карті не буде. Однак:

  1. Немає достовірних даних про те, що пошукові системи дійсно враховують ці інструкції. Взагалі-то Яндекс часто ігнорує навіть більш жорстку рекомендацію - заголовок сервера Last-Modified та If-Modified-Since (див. ).
  2. Навіть якщо сигнали враховуються строго за заявами пошукових систем — тобто як рекомендація — виграш в ефективності сканування буде найчастіше дуже незначний. Виняток - по-справжньому, де повнота індексу критична.
  3. Вказівка ​​всіх даних вимагає від SEO-аналітика додаткової копіткої роботи з підбору їх значень.
  4. Аналогічно, налаштування генерації файлу з усіма параметрами це додаткові витрати на розробку.
  5. Пункти 3 і 4 ще серйозніші, ніж здаються. Адже сайт змінюється, мають змінюватись і розширені дані, інакше рекомендації стануть неактуальними.

Думаю, на цьому вистачить про міфи, перейдемо до справжніх рекомендацій.

Як правильно працювати з sitemap?

Більшість необхідних відомостей про створення файлів та надання роботам доступу до них міститься у довідці пошукових систем. Допомога Google та Яндекса . Я ж розповім про кілька неочевидних моментів.

По-перше, файл зі списком url сайту, до якого легко отримати доступ, може стати в нагоді не тільки пошуковим роботам. Він дуже зручний для низки завдань SEO-аналітики.

Пара прикладів.

Оцінка повноти та якості індексу

Якщо ми точно знаємо кількість доступних для пошукових систем сторінок (кількість посилань у карті порахувати нескладно) — значить, можемо швидко оцінити, наскільки повно він проіндексований. Робимо грубу оцінку через оператор «site:» (краще з деякими хитрощами, див.).

Якщо кількість сторінок у видачі менша, ніж у карті — знаходимо ті, що вислизнули від роботів і заганяємо їх у пошук — правкою структури, твіттером () тощо.

Якщо більше, то в пошук могли потрапити випадково згенеровані, «сміттєві» сторінки. Їх потрібно знайти і або довести до ладу, або закрити за допомогою robots.txt, canonical, мета-тегів. Знову ж таки, для пошуку зайвого знадобиться список потрібного, чим і є sitemap.

Пошук сторінок, які не приносять трафік

Якщо сторінка є на сайті, але не приносить нам відвідувачів упродовж тривалого часу, з нею щось не так. Подібні url потрібно знайти і розібратися в причинах — це часто допомагає здорово підняти трафік.

Як це зробити? Хоч би так:

Будуємо в Метриці звіт про сторінки входу з пошуку за квартал:

Фільтруємо за джерелом - за однією з пошукових систем, під яку працюємо:

І вивантажуємо список сторінок (дані таблиці) в Excel.

Тепер нам лишилося:

а) перегнати xml-карту в excel (для цього є море онлайн-конвертерів).

б) використовуючи функції excelзнаходимо url, які є у стовпці з карти, але немає у стовпці з Метрики.

Алгоритм виглядає досить громіздко, але нічого складного у ньому немає. А для лінивих тих, хто цінує свій час (таких як я), є автоматизація процесу. Один із звітів мого сервісу аналізу сайту якраз. Наприклад, вчора вийшло, де на основі sitemap працює пошук потенційно небезпечних сторінок, які заганяються в індекс посилальним спамом від конкурентів, які бажають нашкодити сайту.

Подібних прикладів можна навести ще багато. Суть не в них, а в тому, що мати під рукою актуальний список сторінок сайту дуже корисно. До нього можна швидко отримати доступ за допомогою різних сервісівта софту (на крайній випадок- Використовуючи Excel) і використовувати в процесі оптимізації сайту.

Та що там казати, навіть стандартний технічний аудит із застосуванням робити зручніше, якщо подати на вхід не url головної сторінки, як завжди, а в sitemap. Процес робиться більш керованим: можна заздалегідь відібрати для аналізу частину сторінок (наприклад, за проблемним розділом) і чекати, поки будуть оброблені інші.

То був перший не дуже очевидний момент.

Як краще дати роботам доступ до карти?

У деяких випадках краще не вказувати посилання на stiemap у robots.txt, а відправляти вручну через Google Search Console та Яндекс.Вебмайстер. Справа в тому, що в robots.txt її може побачити будь-хто. Наприклад, якийсь лиходій, який шукає де спарсити контент. Не варто полегшувати завдання.

Якщо дати SEO-параної розгулятися ще сильніше - то приходить думка не використовувати стандартне ім'я (sitemap.xml), а назвати файл якось інакше, щоб її не знайшли, ввівши традиційну назву.

Не скажу, що це особливо критична порада, але чому б не постелити соломки, якщо це нескладно?

Резюме

  1. Файл sitemap допомагає сайту в плані індексації, але не є панацеєю. Якщо є проблеми з повнотою індексу, їх потрібно вирішувати комплексно.
  2. Використовувати необов'язково, але бажано для великих сайтів та деяких специфічних завдань (див. цитату з довідки Google).
  3. Попередній пункт справедливий щодо завдання «полегшити життя пошуковим роботам». Однак для завдань аналізу сайту та прийняття рішень у процесі оптимізації мати під рукою карту зручно практично для всіх сайтів (крім зовсім маленьких).
  4. Найважливіша вимога до sitemap (крім відповідності стандартам) – це повнота та актуальність. Для завдань SEO-аналітики карта виступає як еталон, з яким порівнюють інші списки url-адрес (ті, що в індексі; на які є посилання, на які є переходи з пошуку і так далі). Тому при створенні потрібно одразу подбати про її регулярне оновлення.
  5. Якщо є необхідність керувати індексацією шляхом видалення вже проіндексованих сторінок із sitemap, то можна мати 2 різні файли - один віддавати роботам, а інший тримати для власних потреб щодо аналізу.

Уф, начебто простий предмет, а стаття майже на 1500 слів. Вітаю себе з її написанням і вас – з прочитанням. Ми обидва небувало посидючі для !

Про який я якось розповідав на своєму прикладі. І його розміщення теж не викликає питань, тому що він має перебувати в кореневому каталозі вашого сайту './'. Єдині питання які з ним пов'язані це те, навіщо він потрібен для роботи мого сайту і як створити цей файл. Про що далі й йтиметься.

Навіщо потрібний файл sitemap.xml

Загалом як це бачу я:

Скріншот мого файлу sitemap.xml:

Цей файл створює карту блогу або сайту з усіма його сторінками на зразок тієї, що деякі роблять для списку своїх статей. Лише єдиний момент цей файл він потрібний не для користувачів, що зайшли на ваш сайт, а для пошукових систем. Більш того, популярні пошукові системи самі рекомендують створювати та реалізовувати цей sitemap.xml надсилаючи його їм. А все це потрібно лише за тим, щоб дати зрозуміти пошуковим системам про Web-сторінки, які доступні для сканування на вашому сайті. Знову ж таки на відміну від robots.txt який забороняє деякі розділи або сторінки – sitemap.xml створює список сторінок (посилань URL), які обов'язково мають потрапити до індексації.

Сам файл є XML-документом, де перераховані посилання, адреси вашого Web-сайту і плюс ще деякі потрібні дані для пошукових систем. Такі, наприклад, як: дата останньої змінисторінки, частота змін, пріоритетність. Знову ж таки все це потрібно тільки для ПС для більш грамотного сканування вашого сайту. Сам файл можна в принципі подивитися і на інших блогах, якщо ввести їхню адресу, а потім /sitemap.xml або як у мене.

Загалом цей файл повинен допомагати пошукачам, визначати розташування сторінок на вашому сайті або блозі для більш розумної індексації. Але пам'ятайте, що це лише додаткова підказка для пошукових систем. І якщо цей файл не буде на вашому сервері, то це не означає, що пошукові системи не будуть індексувати ваші сторінки, і вони не потраплятимуть у пошук. Все буде, але з цим типом файлу краще.

Створення файлу sitemap.xml

Як я розумію, у питанні створення цього файлу можна піти різними шляхами. Перше – створити цей файл самому вручну, використовуючи рекомендації та приклади з офіційного сайту sitemaps.org, використовуючи XML-теги. Зберігши файл з розширенням XMLу кодуванні. Після чого скопіювати його собі на сервер у кореневий каталог свого Web-сайту. До речі, цей файл має деякі обмеження у вигляді розміру - не більше 10 МБ і 50000 URL-адрес. Хоча є рішення, якщо потрібно зробити файл із великим списком URL.

Є ще другий варіант, це скористатися автоматичним створенням sitemap карти. Для цього є в інтернеті багато веб-сайтів, які надають таку послугу. Наприклад сайт htmlweb.ru - у якого є генератор sitemap, де вам залишиться тільки ввести повну адресу свого сайту і натиснути на кнопку Завантажити XML-карту. Після чого готовий файл зберегти у себе на комп'ютері та переслати собі на Web-сайт у кореневий каталог.

Так до речі після того як ви завантажуєте цей файл собі на сервер також необхідно у файлі robots.txt прописати зазвичай наприкінці - посилання з повним шляхом до файлу sitemap.xml наприклад, як у мене 'Sitemap: https://www..xml'. Це потрібно для того, щоб повідомити пошукові системи розташування цього файлу.

Відповідь очевидна – цей файл має бути.

Файл sitemap.xml - це інструмент, який дозволяє вебмайстрам інформувати пошукові системи про сторінки сайту, доступні для індексації. Також, у XML карті можна вказувати додаткові параметри сторінок: дата останнього оновлення, частота оновлень та пріоритет щодо інших сторінок. Інформація в sitemap.xml може впливати на поведінку пошукового краулера та в цілому на процес індексації нових документів. Sitemap містить у собі директиви включення сторінок у чергу обхід і доповнює robots.txt, що містить директиви виключення сторінок.

У цьому посібнику ви знайдете відповіді на всі питання щодо використання sitemap.xml.

Чи потрібний мені sitemap.xml

Пошукові системи використовують sitemap для пошуку нових документів на сайті (це можуть бути HTML-документи або медіа-контент), які недоступні через навігацію, але їх необхідно просканувати. Наявність посилання на документ у sitemap.xml не гарантує його сканування або індексацію, але найчастіше файл допомагає більшим сайтам індексуватися краще. До того ж, дані з XML карти використовуються для визначення канонічних сторінок, якщо це спеціально не вказано в тезі rel=canonical.

Sitemap.xml важливий для сайтів, де:

  • Деякі розділи недоступні через меню навігації.
  • Є безліч ізольованих сторінок чи погано пов'язаних між собою.
  • Використовуються технології, що слабко підтримуються пошуковими системами (наприклад, Ajax, Flash або Silverlight).
  • Є багато сторінок і є ймовірність, що пошуковий краулер пропустить новий контент.

Якщо це не ваші випадки, то, швидше за все, sitemap.xml вам не потрібен. Для сайтів, де кожна важлива для індексації сторінка доступна в межах 2-х кліків, де для відображення контенту не використовуються технології JavaScript або Flash, де при необхідності використовуються канонічні та регіональні теги, і свіжий контент з'являється не частіше, ніж на сайт заходить робот, у файлі sitemap.xml немає потреби.

Для невеликих проектів за наявності проблеми лише великого рівня вкладеності документів, її легко вирішити допомогою HTMLкарти сайту, не вдаючись до використання карти XML. Але якщо ви вирішили, що sitemap.xml вам таки потрібен, то прочитайте це керівництво повністю.

Технічна інформація

  • Sitemap.xml є текстовим файломформату XML. Однак пошукові системи також підтримують текстовий формат(Див. наступний розділ).
  • Кожен сайтмап може містити максимум 50 000 адресі важити не більше 50Мб(10Мб для Яндекса).
  • Можна використовувати gzip-стиск для зменшення розміру файлу sitemap.xml та збільшення швидкості його передачі. У такому разі використовуйте розширення gz (sitemap.xml.gz). При цьому обмеження за вагою залишаються для стиснених сайтів.
  • Розташування файлу Sitemap визначає набір URL-адрес, які можна включити до цього Sitemap. Карта, що містить адреси сторінок всього сайту, повинна розташовуватися докорінно. Якщо сайтмап розміщується в папці, то і всі URL в цьому сайтмапі повинні розташовуватися в цій папці або глибше ().
  • Адреси в sitemap.xml мають бути абсолютними.
  • Максимальна довжина URL – 2048 символів (1024 символи для Яндекса).
  • Спецсимволи в URL (типу амперсанда "&" або лапок) повинні маскуватися в HTML-сутності.
  • Вказані в картці сторінки повинні надавати 200 http-код статусу.
  • Перелічені в карті адреси не повинні бути закриті у файлі robots.txt або meta-robots.
  • Sitemap не повинен бути закритим у robots.txt, інакше пошукова система його не просканує. Сам файл може бути в індексі, це нормально.

Формати XML карт

Пошукові системи підтримують простий текстовий формат карти сайту, де просто списком перераховані URL-адреси сторінок без додаткових параметрів. У такому разі файл повинен мати кодування UTF-8 та мати розширення .txt.

Також пошуковими системами підтримується стандартний XML-протокол . Google додатково підтримує сайти для зображень, відео та новин.

Приклад файлу Sitemap, що містить лише одну адресу.

https://сайт/ 2018-06-14 daily 0.9

XML-теги
urlset
url(обов'язковий) - батьківський тег для кожної URL-адреси.
loc(обов'язкова) - URL-адреса документа, що має бути абсолютною.
lastmod- Дата останньої зміни документа у форматі Datetime.
changefreq- Частота зміни сторінки (always, hourly, daily, weekly, monthly, yearly, never). Значення цього тега є рекомендацією пошукових систем, а чи не командою.
priority- пріоритетність URL щодо інших адрес (від 0 до 1) для черговості сканування. Якщо не вказується, то за промовчанням дорівнює 0.5.

XML карта для зображень

Деякі оптимізатори вставляють у sitemap.xml посилання на зображення аналогічно до посилань на html-документи. Так можна робити, але краще для Google використовувати розширення стандартного протоколу та разом з урлами надсилати додаткову інформацію про зображення. Створювати XML карти зображень корисно, якщо картинки необхідно сканувати та індексувати, і при цьому вони безпосередньо не доступні боту (наприклад, використовується JavaScript).

Приклад карти сайту, що містить одну сторінку і зображення, що належать їй

http://example.com/primer.html http://example.com/kartinka.jpg http://example.com/photo.jpg Вид на Балаклаву Севастополь, Крым http://creativecommons.org/licenses/by-nd/3.0/legalcode

XML-теги
image:image(обов'язково) - інформація про одне зображення. Максимум може використовуватись 1000 зображень.
image:loc(обов'язково) – шлях до файлу зображення. Якщо використовується CDN, то можна посилатися на інший домен, якщо він підтверджений в панелі для вебмайстрів.
image:caption- підпис до зображення (може бути довгий текст).
image:title- Назва зображення (зазвичай короткий текст).
image:geo_location- місце зйомки.
image:license- URL ліцензії зображення. Використовується при розширеному пошуку за картинками.

XML карта для відео

Подібно до карти для зображень, Google також має розширення sitemap протоколу для відео, де можна вказувати докладну інформацію про відео-контент, що впливає на відображення в пошуку по відео. Відео-сайтмап необхідний, коли на сайті використовуються відео, які хоститься локально, і коли індексація цих відео утруднена через технології, що використовуються. Якщо ви на сайті впроваджуєте відео з YouTube, то videositemap тут не потрібен.

Файл Sitemap для новин

При наявності на сайті контенту новин і участі в Google Новинах корисно використовувати Sitemap для новин, так Google буде швидше знаходити ваші свіжі матеріали і індексувати всі статті новин. У цьому випадку Sitemap повинен містити лише адреси сторінок, опублікованих за останні 2 дні та містити не більше 1000 урлів.

Використання кількох карток

При необхідності можна використовувати кілька карт сайтів, об'єднуючи їх в один індексний сайт. Декілька sitemap.xml використовуються у випадках, коли:

  • На сайті використовується кілька двигунів (CMS).
  • На сайті понад 50 000 сторінок.
  • Необхідно налаштувати зручне відстеження помилок у розділах.

В останньому випадку кожен великий розділ сайту має свій sitemap.xml і всі вони додаються в панель для вебмайстрів, де зручно спостерігати, в якому розділі найбільше помилок (див. розділ пошуку помилок в карті сайту).

Якщо у вас 2 і більше сайтів, їх необхідно об'єднати в індексний сайт, який виглядає також як звичайний (за винятком наявності тегів sitemapindex і sitemap замість urlset і url), має аналогічні обмеження і може посилатися тільки на звичайні XML карти (не на індексні) .

Приклад Sitemap Index:

http://www.example.com/sitemap-blog.xml.gz 2004-10-01T18:23:17+00:00 http://www.example.com/sitemap-webinars.xml.gz 2005-01-01

sitemapindex(обов'язковий) – вказує стандарт поточного протоколу.
sitemap(обов'язковий) - містить інформацію про окремий сітіmap.
loc(обов'язковий) - розташування sitemap (у форматі xml, txt або rss для Google).
lastmod- Час зміни сайтмапа. Дозволяє пошукачам швидко виявляти нові URL-адреси на сайтах великих розмірів.

Як створити sitemap.xml

Методи створення XML Sitemap:

  • Внутрішні засоби CMS.Багато CMS вже підтримують створення картки сайту. Щоб це з'ясувати, почитайте документацію до CMS, подивіться пункти меню в адміністраторській панелі або зверніться в техпідтримку движка. Завантажте на вашому сайті файл https://вашсайт.com/sitemap.xml, можливо він вже існує і динамічно формується.
  • Зовнішні плагіни.Якщо в CMS немає функціоналу генерації карти сайту, і вона підтримує плагіни, погугліть, який із плагінів закриває питання sitemap.xml для вашого движка і встановіть його. У деяких випадках необхідно звернутися до програмістів, щоб вони написали вам подібний плагін.
  • Окремий сценарій на сайті.Знаючи протокол XML карти та технічні обмеження, можна створити sitemap.xml самостійно, додавши скрипт генерації у CRON. Якщо ви не є програмістом, використовуйте інші пункти цього списку.
  • Генератори Sitemap.Існує безліч генераторів sitemap.xml, які сканують ваш сайт та дають завантажити готову карту. Недолік тут у тому, що при кожному оновленні сайту необхідно вручну генерувати сайт-мап.
  • Парсери.Десктопні програми, призначені для технічного аналізу сайту, зазвичай дозволяють скачати sitemap.xml, згенерований на основі просканованих сторінок. Працює аналогічно до генераторів sitemap, тільки запускається локально на своїй машині.

Популярні онлайн-генератори карти сайту

XML-Sitemaps.com

Дозволяє отримати sitemap.xml у декілька кліків. Підтримує формати XML, HTML, TXT та GZ. Зручно використовувати для маленьких веб-сайтів (до 500 сторінок).

Схожий генератор, але має трохи більше налаштувань та дозволяє створити карту до 2000 сторінок безкоштовно.

Має безліч налаштувань, що дозволяє імпортувати URL-адреси з CSV-файлу. Безкоштовно сканує до 500 урлів.

Немає лімітів на кількість сторінок для сканування. Але для великих сайтів процес генерації може підвисати кілька десятків хвилин.

Локальні програми для створення XML Sitemap

G-Mapper Sitemap Generator

Безкоштовна десктопна версія генератора картки сайту під Windows.

Screaming Frog SEO Spider

Гнучкий інструмент створення карти сайту з безліччю налаштувань. Зручно, якщо ви вже користуєтеся скримін фрогом для інших SEO-завдань. Після сканування сайту використовуйте пункт меню Sitemaps -> Create XML Sitemap.

Netpeak Spider

Менш гнучке, але також зручне рішення для швидкої генерації sitemap.xml. Після сканування сайту необхідно використовувати пункт меню Інструменти -> Генерація Sitemap.

Використання протоколу Sitemap не гарантує повної індексації сайту, але дозволяє роботам зробити ретельніше сканування. Його версію 1.0 підтримують Google, Yandex, Yahoo!, Bing та Ask.com.

Файл Sitemap корисний для ефективного розкручування сайту, якщо ресурс:

  • містить сторінки із зображеннями або мультимедійним AJAX-контентом, які не можуть бути виявлені пошуковими роботами під час сканування, динамічну складову або великий архів документів, не перелінкованих між собою;
  • створений нещодавно і не має достатньої зовнішньої маси посилань.
Розташування

Файл Sitemap розташовують у кореневій директорії сервера (наприклад, http://site.ru/sitemap.xml). Всі перелічені посилання повинні належати тому ж доменному імені, що і файл, вказувати на сторінки, що знаходяться в тому ж розділі або підрозділах, і використовувати той же протокол, за яким доступний Sitemap.

Формат

У файлі Sitemap необхідно використовувати кодування UTF-8, маскування символів ‘ “ >< и &. Формат протокола состоит из XML-тегов.

Обов'язкові теги:

  • urlset вказує стандарт протоколу та інкапсулює файл. Відкриваючий необхідний на початку документа, який закриває — наприкінці,
  • url - батьківський тег для кожного URL,
  • loc - URL-адреса веб-сторінки, що починається з префікса і закінчується символом /. Його довжина обмежується 2048 символами.

Необов'язкові теги:

  • lastmod - дата останньої зміни у форматі W3C Datetime, що дозволяє опустити сегмент часу та за необхідності використовувати вид ГГГГ-ММ-ДД.
  • changefreq - передбачувана частота оновлень даної сторінки. Допустимі значення always (для опису документів, що змінюються при кожному доступі до них), hourly, daily, weekly, monthly, yearly і never (для архівних адрес).
  • priority - пріоритетність цієї URL-адреси щодо інших на ресурсі. Дозволяє виділити сторінки з найважливішими для пошукової оптимізації сайту запитами. Стандартний діапазон значень від 0 до 1 (за промовчанням 0.5).

Кількість адрес у файлі Sitemap не повинна перевищувати 50 000, максимальний розмір– 10 МБ. Дозволяється стискати файл архіватором gzip для зменшення вимог до пропускної спроможностіканалу. За потреби опису понад 50 000 адрес створюють кілька файлів Sitemap.

Що таке мапа сайту

Вміст будь-якого веб-ресурсу рано чи пізно буде проіндексований пошуковими системами. А як зробити так, щоб цей процес відбувався швидше?

Один з найбільш ефективних способів- Використання так званої карти сайту ( Sitemap).

Карта сайту ( Sitemap) – це xml-файл з інформацією для пошукових систем про сторінки веб-ресурсу, які підлягають індексації. Sitemapдопомагає пошукачам визначити місцезнаходження об'єктів веб-ресурсу, час їхнього останнього оновлення, частоту оновлення, пріоритетність.

Формат протоколу Sitemapскладається з XML-тегів.

У файлі необхідно використовувати кодування UTF-8.

Атрибути XML-тегів Sitemap

- Обов'язковий атрибут.

– обязательный атрибут. Родительский тег для каждой записи URL . Остальные теги являются дочерними для этого тега;

– обязательный атрибут. URL страницы; должен начинаться с префикса (например, http:// ) и заканчиваться косой чертой, если ваш веб-сервер требует этого. Длина этого значения не должна превышать 2048 символов;

– необязательный атрибут. Дата последнего изменения файла; должна быть в формате W3C Datetime . Этот формат позволяет при необходимости опустить сегмент времени и использовать формат ГГГГ-ММ-ДД;

– необязательный атрибут. Вероятная частота изменения этой страницы. Это значение предоставляет общую информацию для поисковых систем и может не соответствовать частоте сканирования этой страницы. Допустимые значения: always , hourly , daily , weekly , monthly , yearly , never ;

– необязательный атрибут. Приоритетность URL относительно других URL на вашем сайте. Допустимый диапазон значений – от 0,0 до 1,0. Это значение не влияет на процедуру сравнения ваших страниц со страницами на других сайтах – оно только позволяет указать поисковым системам, какие страницы, по вашему мнению, более важны для сканеров (приоритет, который вы назначили странице, не влияет на положение ваших URL на страницах результатов той или иной поисковой системы). Приоритет страницы по умолчанию – 0,5.

Пример XML -файла Sitemap

(необязательные теги выделены ):

http://сайт/

2010-04-19

daily

0.8


http://сайт/aldan.htm
2009-10-03
monthly

0.5

http://сайт/aldan-weather.htm

2010-04-15

weekly

0.5

Інкапсулює цей файл та вказує стандарт поточного протоколу; Sitemap):

http://сайт/

http://сайт/aldan.htm

http://сайт/aldan-weather.htm

Якщо сайт містить багато веб-сторінок, ви можете опустити необов'язкові атрибути (це дозволить значно зменшити розміри файлу Sitemap

Використання файлів індексу SitemapФайл повинен містити не більше 50000 URL , при цьому його розмір не повинен перевищувати 10.

МБ SitemapПри необхідності файл можна стиснути за допомогою архіватора gzip

, щоб зменшити вимоги до пропускної спроможності каналу повинен містити не більше 50000Якщо потрібно перерахувати більше 50000 Sitemap, слід створити кілька файлів Sitemap. При цьому необхідно перерахувати кожен із цих файлів у файлі індексу Sitemap. У файлі індексу Sitemapможе бути перераховано не більше 50000 файлів , при цьому його розмір не повинен перевищувати 10.

. Розмір цього файлу не повинен перевищувати 10

Як створити карту сайту SitemapДля створення карти сайту можна скористатися так званими генераторами

, А можна все зробити самому: - Відкрийте;

Блокнот Sitemap– дотримуючись правил протоколу Sitemap ;

, заповніть файл sitemap.xml);

– введіть ім'я файлу у відповідне текстове поле (наприклад, – у списку, що випадаєТип файлу Виберіть;

– введіть ім'я файлу у відповідне текстове поле (наприклад, Усі файли (*.*)Тип файлу UTF-8Кодування , натисніть;

Зберегти Sitemap - Закачайте

у кореневу директорію вашого сайту. Sitemap

Повідомлення для сканерів пошукових систем про наявність та місцезнаходження файлу SitemapПісля того, як файл

створено та розміщено на веб-сервері, необхідно повідомити про його місцезнаходження пошуковим системам, які підтримують цей протокол. Це можна зробити такими способами:

Передача файлу Sitemap за допомогою веб-інтерфейсу пошукової системи SitemapЩоб надіслати файл безпосередньо впошукову систему

, яка надає можливість отримувати інформацію про статус та помилки обробки, зверніться до довідкової системи пошукової системи.