הקובץ robots.txt מכיל בדרך כלל נתונים של החלק באתר שאותו אתם רוצים לפרסם. הנתונים הם בעיקר למנועי החיפוש אשר סורקים את האתר בכדי להחליט אלו עמודים יאונדקסו.

ג'ומלה, בהתקנה שלה, כוללת קובץ סטנדרטי robots.txt אשר יתאים לרוב האתרים, פרט לנושא חשוב אחד: הוא חוסם את הסיפרייה /images. זה מונע שתמונות מהאתר שלם יאונדקסו, שזה בוודאי משהוא שלא הייתם רוצים. לכן, הסירו או רישמו את השורה כהערה.:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
# Disallow: /images/    <-------- Commented out using #
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

בנוסף, אתם יכולים להשתמש בקובץ הזה בכדי למנוע שדפים מסויימים יעברו אינדוקס, כמו למשל עמודי כניסה למערכת (login) או עמודי 404.

אתם יכולים, בעזרת הכלי של גוגל למנהלי אתרים לבדוק אלו עמודים חסןמים.

כיונון מתקדם עם robots.txt

משתמשים מתקדמים יכולים לנצל את הקובץ בכדי למנוע אינדוקס של עמודים מסויימים בהתאמת מחרוזות (pattern-matching). ניתן, למשל, לחסום את הכתובות המכילות '?' בכדי למנוע כתובות כפולות מכתובות לא ידידותיות:

User-agent: *
Disallow: /*?*

אין צורך לציין שאליכם לנהוג במשנה זהירות עם זה. דוגמאות נוספות ניתן למצוא ב-searchengineland.com.

מאמר זה הינו תרגום של מאמר שנכתב על ידי Simon Kloostra. ניתן לקרוא את המקור כאן