استراتژی Phantom Crawl
نبرد با فایل robots.txt
: قلعهی محافظین خائن
فایل robots.txt
مثل یک قلعهی محافظ عمل میکنه، اما اگر بهاشتباه تنظیم
شده باشه، میتونه به دشمن تبدیل بشه و صفحات شما رو از دسترس خزندهها (Crawlers) خارج کنه.
دشمن
- دستور
Disallow: /
که کل سایت شما رو بلاک میکنه. - بلاک شدن صفحات مهم مثل صفحهی اصلی یا صفحات محصولات.
راهکار
فایل robots.txt
رو بررسی کنید و مطمئن بشید که صفحات مهم شما بلاک نشدن.
User-agent: *
Disallow: /admin/
Allow: /
از دستور Allow
برای باز کردن دسترسی به صفحات خاص استفاده کنید.
User-agent: *
Allow: /product/
Disallow: /tmp/
نبرد با متا تگ noindex
: جاسوس داخلی
متا تگ noindex
مثل یک جاسوس داخلی عمل میکنه و به موتورهای جستجو میگه که صفحهی شما رو ایندکس نکنن. اگر این تگ بهاشتباه در کد HTML صفحه قرار گرفته باشه، صفحهی شما در تاریکی گم میشه.
دشمن
- وجود تگ
<meta name="robots" content="noindex">
در کد HTML صفحه.
راهکار
کد HTML صفحات رو بررسی کنید و مطمئن بشید که تگ noindex
وجود نداره.
<meta name="robots" content="noindex">
اگر از CMSهایی مثل وردپرس استفاده میکنید، تنظیمات مربوط به ایندکس رو در پلاگینهای سئو (مثل Yoast SEO یا Rank Math) بررسی کنید.
//In the Yoast SEO plugin:
//Go to the "Advanced" section and make sure the "Noindex" option is not enabled.
نبرد با کدهای وضعیت نامناسب: خطمقدم شکست
کدهای وضعیت HTTP مثل پیامهای رمزگذاریشدهای هستن که سرور به موتورهای جستجو ارسال میکنه. اگر این کدها نامناسب باشن، صفحات شما در خطمقدم شکست قرار میگیرن.
دشمن
- کد ۴۰۴ (صفحه پیدا نشد): صفحهای که وجود نداره یا URL اشتباه داره.
- کد ۵۰۰ (خطای سرور): سروری که دچار مشکل شده و نمیتونه صفحه رو بارگذاری کنه.
- ریدایرکتهای زنجیرهای یا اشتباه: مسیرهای اشتباه که خزندهها رو سردرگم میکنن.
راهکار
بوسیله تب Network
در chrome web developer tools
هدرهای صفحات رو چک کنید.
- از ابزارهایی مثل
Google Search Console
یاScreaming Frog
برای بررسی کدهای وضعیت صفحات استفاده کنید. - صفحات ۴۰۴ رو اصلاح کنید یا اونها رو به صفحات مرتبط ریدایرکت بدید.
- مشکلات سرور رو برطرف کنید تا کدهای ۵۰۰ دیگه برگردونده نشن.