העבודה של כלי אופטימיזציית SEO היא בקנה מידה גדול מאוד. למתחילים מומלץ לרשום את אלגוריתם האופטימיזציה כדי לא לפספס אף שלב. אחרת, הקידום בקושי ייקרא מוצלח, שכן האתר יחווה כל הזמן כשלים ושגיאות שייאלצו לתקן במשך זמן רב.
אחד משלבי האופטימיזציה הוא עבודה עם קובץ robots.txt. לכל משאב צריך להיות מסמך זה, כי בלעדיו יהיה קשה יותר להתמודד עם אופטימיזציה. הוא מבצע פונקציות רבות שתצטרך להבין.
עוזר רובוט
קובץ robots.txt הוא מסמך טקסט רגיל שניתן לצפות בו בפנקס הרשימות הרגיל של המערכת. בעת יצירתו, עליכם להגדיר את הקידוד ל-UTF-8 כך שניתן יהיה לקרוא אותו כהלכה. הקובץ עובד עם פרוטוקולי http, https ו-FTP.
מסמך זה הוא עוזר לחיפוש רובוטים. למקרה שאינך יודע, כל מערכת משתמשת ב"עכבישים" שסורקים במהירות את ה-World Wide Web כדי להחזיר אתרים רלוונטיים לשאילתות.משתמשים. לרובוטים האלה חייבת להיות גישה לנתוני המשאבים, robots.txt עובד בשביל זה.
כדי שהעכבישים ימצאו את דרכם, עליכם לשלוח את מסמך robots.txt לספריית השורש. כדי לבדוק אם באתר יש את הקובץ הזה, הזן "https://site.com.ua/robots.txt" בשורת הכתובת של הדפדפן. במקום "site.com.ua" אתה צריך להזין את המשאב שאתה צריך.
פונקציות מסמך
קובץ robots.txt מספק לסורקים מספר סוגי מידע. זה יכול לתת גישה חלקית כך שה"עכביש" סורק אלמנטים ספציפיים של המשאב. גישה מלאה מאפשרת לך לבדוק את כל הדפים הזמינים. איסור מוחלט מונע מרובוטים אפילו להתחיל לבדוק, והם עוזבים את האתר.
לאחר ביקור במשאב, "עכבישים" מקבלים מענה מתאים לבקשה. יכול להיות שיש כמה מהם, הכל תלוי במידע ב-robots.txt. לדוגמה, אם הסריקה הצליחה, הרובוט יקבל את הקוד 2xx.
אולי האתר הופנה מדף אחד לאחר. במקרה זה, הרובוט מקבל את הקוד 3xx. אם הקוד הזה מתרחש מספר פעמים, העכביש יעקוב אחריו עד שהוא יקבל תגובה נוספת. אם כי, ככלל, הוא משתמש רק ב-5 ניסיונות. אחרת, מופיעה שגיאת 404 הפופולרית.
אם התשובה היא 4xx, אז הרובוט רשאי לסרוק את כל התוכן של האתר. אבל במקרה של קוד 5xx, הסימון עשוי להפסיק לחלוטין, מכיוון שלעתים קרובות זה מצביע על שגיאות שרת זמניות.
בשביל מהצריך robots.txt?
כפי שאולי ניחשתם, הקובץ הזה הוא המדריך של הרובוטים לשורש האתר. כעת הוא משמש להגבלת גישה חלקית לתוכן בלתי הולם:
- דפים עם מידע אישי של משתמשים;
- אתרי מראה;
- תוצאות חיפוש;
- טפסי הגשת נתונים וכו'
אם אין קובץ robots.txt בשורש האתר, הרובוט יסרוק לחלוטין את כל התוכן. בהתאם לכך, נתונים לא רצויים עלולים להופיע בתוצאות החיפוש, מה שאומר שגם אתה וגם האתר תסבול. אם יש הוראות מיוחדות במסמך robots.txt, אז ה"עכביש" יעקוב אחריהם וימסור את המידע הרצוי על ידי בעל המשאב.
עבודה עם קובץ
כדי להשתמש ב-robots.txt כדי לחסום את האתר מהוספה לאינדקס, עליך להבין כיצד ליצור קובץ זה. כדי לעשות זאת, בצע את ההוראות:
- צור מסמך ב-Notepad או Notepad++.
- הגדר את סיומת הקובץ ".txt".
- הזן את הנתונים והפקודות הדרושים.
- שמור את המסמך והעלה אותו לשורש האתר.
כפי שאתה יכול לראות, באחד השלבים יש צורך להגדיר פקודות לרובוטים. הם משני סוגים: מתיר (Allow) ואוסר (Disallow). כמו כן, מטעמי אופטימיזציה מסוימים עשויים לציין את מהירות הסריקה, המארח והקישור למפת הדף של המשאב.
כדי להתחיל לעבוד עם robots.txt ולחסום לחלוטין את האתר מאינדקס, עליך להבין גם את הסמלים שבהם נעשה שימוש. למשל, במסמךהשתמש ב-"/", המציין שהאתר כולו נבחר. אם נעשה שימוש ב-"", יש צורך ברצף של תווים. בדרך זו, ניתן יהיה לציין תיקיה ספציפית שניתן לסרוק או לא.
תכונת הבוטים
"עכבישים" למנועי חיפוש הם שונים, כך שאם אתה עובד עבור מספר מנועי חיפוש בו-זמנית, אז תצטרך לקחת את הרגע הזה בחשבון. השמות שלהם שונים, מה שאומר שאם תרצו ליצור קשר עם רובוט ספציפי, תצטרכו לציין את שמו: "סוכן משתמש: Yandex" (ללא מרכאות).
אם אתה רוצה להגדיר הנחיות עבור כל מנועי החיפוש, עליך להשתמש בפקודה: "סוכן משתמש: " (ללא מרכאות). על מנת לחסום כראוי את האתר מהוספה לאינדקס באמצעות robots.txt, עליך לדעת את הפרטים של מנועי החיפוש הפופולריים.
העובדה היא שלמנועי החיפוש הפופולריים ביותר Yandex ו-Google יש כמה בוטים. לכל אחד מהם יש משימות משלו. לדוגמה, Yandex Bot ו-Googlebot הם ה"עכבישים" העיקריים שסורקים את האתר. אם תכיר את כל הבוטים, יהיה קל יותר לכוונן את יצירת האינדקס של המשאב שלך.
דוגמאות
אז, בעזרת robots.txt תוכלו לסגור את האתר מאינדקס באמצעות פקודות פשוטות, העיקר להבין מה אתם צריכים ספציפית. לדוגמה, אם אתה רוצה ש-Googlebot לא יתקרב למשאב שלך, אתה צריך לתת לו את הפקודה המתאימה. זה ייראה כך: "User-agent: Googlebot Disallow: /" (ללא מרכאות).
עכשיו אנחנו צריכים להבין מה יש בפקודה הזו וכיצד היא פועלת. אז "סוכן משתמש"משמש על מנת להשתמש בקריאה ישירה לאחד מהבוטים. לאחר מכן, אנו מציינים למי מהם, במקרה שלנו זה גוגל. הפקודה "אסור" חייבת להתחיל בשורה חדשה ולאסור על הרובוט להיכנס לאתר. סמל הלוכסן במקרה זה מציין שכל הדפים של המשאב נבחרים לביצוע הפקודה.
ב-robots.txt, אתה יכול לבטל אינדקס עבור כל מנועי החיפוש בפקודה פשוטה: "User-agent:Disallow: /" (ללא מרכאות). תו הכוכבית במקרה זה מציין את כל רובוטי החיפוש. בדרך כלל, יש צורך בפקודה כזו כדי להשהות את יצירת האינדקס של האתר ולהתחיל בעבודה קרדינלית עליו, שאחרת עלולה להשפיע על האופטימיזציה.
אם המשאב גדול ויש לו דפים רבים, הוא מכיל לעתים קרובות מידע קנייני שלא רצוי לחשוף אותו, או שהוא יכול להשפיע לרעה על הקידום. במקרה זה, עליך להבין כיצד לסגור את הדף מהוספה לאינדקס ב-robots.txt.
אתה יכול להסתיר תיקיה או קובץ. במקרה הראשון, אתה צריך להתחיל מחדש על ידי יצירת קשר עם בוט ספציפי או כולם, אז אנו משתמשים בפקודה "User-agent", ולמטה אנו מציינים את הפקודה "Disallow" עבור תיקיה ספציפית. זה ייראה כך: "Disallow: / תיקייה /" (ללא מרכאות). כך אתה מסתיר את כל התיקיה. אם הוא מכיל קובץ חשוב כלשהו שתרצה להציג, עליך לכתוב את הפקודה למטה: "Allow: /folder/file.php" (ללא מרכאות).
בדוק את הקובץ
אם אתה משתמש ב-robots.txt לסגירת האתרהצלחת באינדקס, אבל אתה לא יודע אם כל ההנחיות שלך פעלו כמו שצריך, אתה יכול לבדוק את נכונות העבודה.
ראשית, עליך לבדוק שוב את מיקום המסמך. זכור שהוא חייב להיות בלעדי בתיקיית השורש. אם זה בתיקיית השורש, אז זה לא יעבוד. לאחר מכן, פתח את הדפדפן והזן שם את הכתובת הבאה: "https://yoursite. com/robots.txt" (ללא מרכאות). אם אתה מקבל שגיאה בדפדפן האינטרנט שלך, אז הקובץ לא נמצא איפה שהוא צריך להיות.
ניתן לבדוק את ההנחיות בכלים מיוחדים המשמשים כמעט את כל מנהלי האתרים. אנחנו מדברים על מוצרי גוגל ו-Yandex. לדוגמה, ב-Google Search Console יש סרגל כלים שבו אתה צריך לפתוח את "סריקה", ולאחר מכן להפעיל את "הכלי לבדיקת קבצים של Robots.txt". עליך להעתיק את כל הנתונים מהמסמך לחלון ולהתחיל לסרוק. ניתן לבצע את אותה בדיקה בדיוק ב-Yandex. Webmaster.