کرال باجت چیست؟
بودجه خزش ( Crawl Budget) به معنای ساده سطح توجه موتور جستجو گوگل به سایت را نشان می دهد. به عبرتی دیگر منظور از Crawl Budget میزان دفعات یا زمانی است که پایشگرها و ربات های گوگل در وب سایت شما سپری می کنند. بر این اساس تعیین می شود که ربات های گوگل در چه مدت زمانی دوباره وب سایت شما را مرور کنند. و آپدیت های آن را ایندکس نماید. اگر سایتی فعالیت بالایی داشته باشد و در روز چندین بار آپدیت شود، بودجه بیشتری دریافت مینماید.

اگر سایتی فعالیتش کم باشد، مثلا در ماهی یکبار اپدیت شود کراولر دیرتر آن سایت را جستجو مینماید. به طور خلاصه اگر صفحهای در فهرست ایندکس گوگل قرار نگیرد، هیچ رتبهای به آن اختصاص داده نمیشود؛ بنابراین، اگر تعداد صفحات شما از تعداد بودجه خزش سایت فراتر رفت، بدون شک صفحاتی در سایت خود دارید که در فهرست ایندکس گوگل قرار ندارند.
بهینه سازی Crawl Budget
چالش های معمولی وجود دارند که بر روی بسیاری از وب سایت ها تاثیر منفی گذاشته اند. در ادامه به بررسی نکاتی در بهینه سازی Crawl Budget میپردازیم:
پایش مهمترین صفحات سایت در فایل robots.txt در کرال باجت
مهمترین گام در بهینه سازی Crawl Budget، پایش مهمترین صفحات سایت در فایل robots.txt است. فایل Robots.txt یک فایل متنی است که وبمسترها با ایجاد آن می توانند ربات های موتورهای جستجو را در هنگام پایش وب سایت راهنمایی نمایند. فایل robots.txt جزیی از پروتکلی با نام REP است که به استانداردسازی نحوه پایش وب توسط رباتها و چگونگی دسترسی و ایندکس محتوا و ارائه آن به کاربران می پردازد. پروتکل REP همچنین شامل نحوه برخورد با متا تگ Robots و دستوراتی دیگری مانند فالو کردن لینک ها نیز است.

مدیریت این فایل می تواند توسط یک ابزار بررسی سئو سایت و یا به صورت دستی انجام گیرد. معمولا با استفاده از ابزارها پاسخ بهتری دریافت می نمایید. همچنین شما میتوانید با استفاده از فایل robots.txt را تست و در عرض چند لحظه گزارشی از امکان دسترسی یا عدم دسترسی بخش های مختلف سایت دست پیدا کنید. سپس فایل تصحیح شده robots.txt را دریافت و به جای فایل اولیه در وب سایت آپلود کنید. در عمل فایل های robots.txt به user agent ها (مانند ربات های موتورهای جستجو) اشاره می کنند که کدام صفحات را پایش و به کدام مسیرها کاری نداشته باشند. این راهنمایی ها در قالب دستوراتی مانند Allow و Disallow به آنها داده می شود.
رفع خطاهای HTTP
صفحات 404 و 410 موجب هدر رفتن بودجه خزش می شوند. این خطاها در بدترین حالت بر روی تجربه کاربری نیز تاثیر منفی خواهند داشت. نرم افزارهای پرمیوم خوبی برای یافتن صفحات خطاها وجو دارند و در این شرایط نیز پیشنهاد می کنیم که از یکی از این ابزار بهره بگیرید استفاده از گوگل سرچ کنسول نیز می تواند کمک زیادی به یافتن این خطاها باشد. لینک های خطای 404 و ریدایرکتهای طولانی باعث می شوند که ربات های جستجو کرول خود را قطع نمایند.

گوگل مانند مرورگرها حداکثر تا 5 تغییر مسیر را در یک خزیدن دنبال می نماید که البته ممکن است دوباره خزیدن را انجام دهند. بنابراین به شما توصیه میکنیم که از تغییر مسیرهای زنجیره ای به طور کامل خودداری نمایید و استفاده از ریدارکت ها را خیلی کمتر کنید.
ریدایرکت های زنجیری
ریدایرکت های زنجیری از مسائلی است که بر روی سلامت سایت تاثیر گذار است. ریدایرکت های تعریف شده در وب سایت نباید حالت زنجیره ای از ریدایرکت ها به خود بگیرند. این گونه ریدایرکت های زنجیری در وب سایت های بزرگ بدون استفاده از ابزار عملا یک مسئله شناسایی نمیشوند. زنجیره بزرگ از ریدایرکت ها ممکن است که ربات های گوگل دست از دنبال کردن سایت بردارند و صفحه نهایی ایندکس نشود. یک یا دو ریدایرکت آسیبی به سایت نمی زند، اما اگر از این مسٔله آگاهی داشته باشید میتوانید از اتفاق های بدتر جلوگیری نمایید.

گاهی وقت ها زمانی که یک ریدایرکت 301 ایجاد می کنیم، پس از مدتی به هر دلیلی آن لینک جدید را هم دوباره به یک صفحه دیگر ریدایرکت می کنیم. یعنی از صفحه 1 به 2 و از صفحه 2 به 3 ریدایرکت می شود. این یک مشکل است و به آن زنجیره ریدایرکت می گویند. حتی ممکن است بدتر شود مثلا از صفحه 1 به 2 و از صفحه 2 به 1 دیدایرکت کنید، در این صورت یک حلقه ریدایرکت به وجود می آید که اصلا برای سایت بد باشد.
استفاده از HTML تا حد امکان در کرال باجت
گوگل در سال های اخیر قدرت بیشتری در پردازش جاوا اسکریپت و همینطور ایندکس فلش و XML کسب کرده است. اما هنوز بسیاری از موتورهای جستجو از این قدرت بی بهره اند. بنابراین بهتر است که تا حد امکان از HTML برای ارائه محتوا استفاده کنید. این گونه هیچ پایشگری در کرال سایت با مشکل رو به رو نمیشود. برای آنالیز صفحات، خزندهها از تگهای Hreflang استفاده مینمایند و باید به گوگل درباب نسخههای متمرکز صفحاتتان در حد ممکن اطلاع دهید.
پارامترهای URL ها در کرال باجت
همیشه دقت داشته باشید که یو آر ال های مجزا از دید پایشگرها به عنوان صفحات مجزا دیده شده و وجود یو آر ال های غیر مفید فراوان موجب عدم استفاده صحیح از Crawl Budget می شود.

آگاه سازی گوگل از پارامترهای URL یک نتیجه برد برد است و موجب بهینه سازی Crawl Budget میشود و همچنین نگرانی از وجود مشکل محتوای تکراری را از بین می برد. بنابراین دقت نمایید که تنظیمات URL Parammeters در گوگل سرچ کنسول را به یاد اشته باشید. URL های باپارامتر نباید برای موتورهای جستجو قابل دسترس باشند چون می توانند تعداد نامحدودی URL ایجاد کنند. این آدرس ها معمولاً هنگام استفاده از فیلتر های محصول در فروشگاه اینترنتی استفاده میشوند. برای انجام این کار باید از سرچ کنسول گوگل و یا ابزار وب مستر بینگ استفاده نمایید، تگ Nofollow به لینک های فیلتر اضافه نمایید یا در Robots.txt دستور عدم دسترسی به این آدرس را بدهید.
بک لینک
گرفتن بک لینک های بیشتر به Crawl Budget بیشتر سایت شما منتهی میشوند. بک لینک داشتن علاوه بر افزایش اعتبار سایت و شناخته شدن بیشتر در محیط وب، به بهینه سازی بودجه خزش نیز کمک مینماید و باعث می شود کراولر گوگل بیشتر به سایت شما سر بزند.