תוכן כפול, תקציב זחילה ומחלות אחרות

"תוכן כפול" הוא לא רק תוכן שפורסם מחדש באתרים אחרים, אלא גם שם כולל למגוון מצבי Onsite שבהם תוכן שוכפל במכוון או נראה כמשוכפל בגלל בעיות טכניות שונות, הגדרות שגויות וכו'. הרבה לפני אלגוריתם פנדה, ההתמודדות עם בעיות תוכן כפול לסוגיהן הייתה קריטית להצלחת הקידום. "תקציב הזחילה" הוא אחת מהסיבות לכך.

פורסם: 10 למרץ 2010.
עודכן: 7 למאי 2012.

אירוני: פרסמתי את הפוסט הזה במקור לפני למעלה משנתיים, ועקב פרסומים חוזרים שלו באתרים אחרים הוא עצמו הפך לתוכן כפול (אחרי שדורג #2 עבור הביטוי "תוכן כפול"). מכיוון שגם אני, כמו כל הסנדלרים, הולך יחף, לא מצאתי עד עכשיו את הזמן לתקן את המעוות.

כדי להבין את הטכניקה שבה מצבעים "החייאה" במצב כזה, מומלץ לקרוא גם את המאמר "מתי תוכן כפול הוא לגיטימי ואיך מסבירים את זה ל-Google", שפרסמתי לא מזמן בבלוג ה-SEO של פבל ישראלסקי. שימו לב שנושא הפוסט הזה הוא כפילויות תוכן בתוך אתר – לא בין אתרים.

לסקירה מסודרת של הסוגים השונים של כפילות תוכן ודרכי הטיפול המומלצות, כדאי מאד לקרוא את המאמר "Duplicate Content in the Post-Panda World" בבלוג של SEO Moz או את הגירסה העברית שלו "כפילות תוכן לאחר עדכון פנדה", בבלוג של דוראן.

ואם אתם עושים את צעדיכם הראשונים בעולם ה-SEO וכבר הצלחתי להבהיל אתכם, מומלץ להתחיל בכלל במקום אחר: בפרק על תוכן כפול בסדרה "קידום אתרים ב-10 ימים" שכתבתי עבור ynet ב-2009 (הרבה השתנה אבל היסודות זהים).

כמה הגדרות: מה זה תוכן כפול?

בואו נתחיל בהגדרה: תוכן כפול (Duplicate Content) הוא תוכן שיש לו מספר מופעים במיקומים שונים ברשת, באותו אתר או באתרים שונים.

בפוסט הזה מעניין אותנו בעיקר תוכן כפול מהסוג הראשון – תוכן זהה שמופיע בדפים בעלי URL שונה באותו אתר, לרוב ללא ידיעת בעלי האתר.

זו הגדרה כללית מאד, כי ישנם מצבים מגוונים של כפילות תוכן ויש להם משמעויות והשלכות שונות בראיה SEO-ית. אבל כלליות ההגדרה טובה כדי לגזור ממנה את העיקרון המנחה של Google בהתייחס לתוכן כפול: עדיף לא לבזבז עליו זמן (מקום טוב להתחיל את הקריאה כדי להבין את המדיניות של גוגל: הדף Duplicate Content ב-Webmaster Central).

כי אם דפים/אתרים שונים כוללים תוכן זהה בשביל מה לאנדקס ולהציג אותם לגולש? אף אחד לא אוהב להקליק על מספר לינקים רק כדי להגיע לאותו תוכן משוכפל. גם לא גוגלבוט.

מהו תקציב זחילה ומדוע הוא חשוב

האמת היא שגוגל כבר מזמן לא מתייחסת לתוכן כפול אך ורק כבעיה שמאיימת על איכות דפי התוצאות שלה – אדרבא, עם זיהוי וסינון הדפים הכפולים לאחר שגוגלבוט זחל ואינדקס אותם, היא דווקא יודעת להתמודד לא רע.

גוגל מתייחסת לתוכן הכפול בעיקר כאל תופעה שמבזבזת לה כסף.

תוכן כפול יוצר פעולת זחילה (Crawling) מיותרת, ומבזבז זמן מעבד ומרחב זיכרון ורוחב-פס וחשמל, שעל כולם משלמת גוגל. היא אמנם יודעת לזהות כפילויות מכל מיני סוגים ובכל מיני רמות, להבחין ביניהן ולטפל אחרת בכל סוג – היא פשוט מעדיפה שבעלי האתרים יחוסו על משאביה ויעשו זאת בעצמם.

הדרך העיקרית של גוגל לדחוף בעלי אתרים לפתרון של בעיות טכניות שונות, לרבות כאלו שיוצרות תוכן כפול היא, כמובן, לתת עדיפות לאתרים שלא סובלים מהן. בניגוד לאמונה הרווחת, Google לא ממהרת להטיל עונש (Penalty) כשהיא נתקלת בתוכן כפול. ישנם מצבי כפילות בלתי נמנעים ומיקומי SERPs אמורים לשקף את האיכות או הרלוונטיות של תכנים לשאילתת החיפוש, עם כל הכבוד. המקום ההגיוני יותר לתגמל או "להעניש" בו אתרים שמיישרים קו עם הדרישות של גוגל הוא בזחילה ובאינדוקס.

זה קורה, ממילא בגלל האופן שבו הזחילה עובדת: גוגלבוט (GoogleBot), הזחלן של גוגל, מקציב זמן ורוחב-פס נתונים לכל אתר, מה שנהוג לפעמים לכנות "תקציב זחילה" (Crawling budget); כאשר חלק מהנ"ל מתבזבז על דפים כפולים שאין טעם לאנדקס, מספר הדפים מהאתר שיאונדקסו ויוכלו בדיעבד לקבל תנועת חיפוש יהיה קטן יותר. "עבודות ניקיון" שמובילות לניפוי מהאינדקס של כפילויות שלא זוהו בעבר, גם יחלישו את מערך הלינקים הפנימיים של האתר ועלולים לפגוע בעקיפין במיקומים של דפים לגיטימיים – וזו כנראה הסיבה לכך שהאתר נראה כאילו נענש (שימו לב שכל זה נכון גם בלי שתפגעו מפנדה).

אז מה עושים עם זה?

בשלוש השנים האחרונות האחרונות אפשר היה לראות יותר ויותר אינדיקציות לכך שגוגל מקטינה ומגדילה את תקציב הזחילה (ואת האינדוקס) של אתר בתגובה לשינוי בשיעור התקלות בכלל ומקרי תוכן כפול בפרט. כך ניסח לפני כשנתיים את הדברים מאט כץ, בראיון המונומנטלי שהעניק לאריק אנגה מ-StoneTemple:

"Typically, duplicate content is not the largest factor on how many pages will be crawled, but it can be a factor."

כלומר, בעיה של תוכן כפול באתר עלולה בסופו של דבר לגרום לכך שפחות דפים רגילים (שאינם כפולים) יאונדקסו ויקבלו תנועה. וזו עוד סיבה מדוע תוכן כפול יכול לפגוע בתנועה שאתר יקבל.

לכן, ההמלצה של מאט כץ עליה חזר בראיון מספר פעמים היא להעמיד את התיקונים המבניים באתר לפני כל משימת SEO אחרת. לא בניית קישורים, לא תוכן חדש, לא אופטימיזציה של תוכן קיים – הכי נכון להתחיל את עבודת הקידום בתיקון הבעיות הטכניות, ובראשן אלו שגורמות לתוכן כפול.

כצפוי, מדובר באחת המשימות המפרכות והפחות מהנות בקידום. היתרון הגדול של השלב הזה הוא שאת רוב הבעיות יש לתקן רק פעם אחת, ומכאן והלאה לא תצטרכו לבזבז עליהן זמן נוסף ותהנו משיפור גולמי משמעותי ביכולת של האתר להתאנדקס ולהיות מדורג גבוה.

10 תגובות בנושא “תוכן כפול, תקציב זחילה ומחלות אחרות

  1. איתי ברנר

    השאלה היא מה קורה במידה ורוצים לתייג (נניח) מאמר אחד או שניים תחת כמה נושאים דווקא על מנת שיוכלו למצוא אותם דרך גוגל. החלופה היא כותרות או תיאורים מאוד ארוכים. השאלה היא מה יותר גרוע במידה ואי אפשר לבחור דרך אחרת.

  2. shooky מאת

    איתי – שאלה טובה. מאט כץ נשאל וענה באחד הסרטונים שלו, לך שלדעתו תגיות טקסט לא שימושיות לגולשים ולכן הוא עצמו לא משתמש בהן בבלוג שלו. הוא אמר ש"אפשר להשתמש בהן אם רוצים", אבל כדאי לא להגזים – שזה פחות או יותר מה שהוא אומר כמעט על הכל.

    אני הולך להקדיש בקרוב פוסט לנושא השימוש בתגיות, במיוחד בסביבת וורדפרס, ולסכם שם מסקנות משלוש שנים של מעקב אחרי הנושא. בכל אופן, על קצה המזלג:
    א. חשוב להבחין בין תוכן כפול ממש לבין תוכן עם רמה זו או אחרת של חפיפה. לדוגמא, דפי תגיות שמפנים לפוסטים זהים בבלוג הם דומים מאד אך לא זהים – אם הוגדרו נכון יש להם כותרות שונות, שדות תיאור שונים, וכו'.

    ב. דפים שיש ביניהם חפיפה גדולה לעיתים קרובות מטופלים על-ידי גוגל כמו דפים זהים לחלוטין. כלומר, דפי תגיות רבים שכוללים הפניה לפוסט אחד בהחלט עשויים לא להתאנדקס.

    ג. אבל שימוש נכון בתגיות, כשיש הרבה תוכן, יכול גם להיראות ככה:
    [דף תגית 1]: פוסט א, פוסט ב, פוסט ג
    [דף תגית 2]: פוסט ב, פוסט ג, פוסט ד
    [[דף תגית 3]: פוסט א, פוסט, ג, פוסט ה

    כלומר, התוכן של דפי תגיות יכול להיות שונה.

    ד. השאלה שחשוב תמיד לשאול היא: האם ומתי דפי תגיות יכולים להועיל לגוגל ולגולש. התשובה: כשהם מפלחים את התוכן ביעילות לפי הקשר, ויכולים לסנן עבור גוגל והגולש מידע שיש בו מובהקות נושאית ו/או סמנטית. זה אומר, בין השאר שכדאי להשתמש כתגיות במילות מפתח שנמצאות בתוך הטקסט ולהעניק תגית לפוסט מסוים לא רק מפני שהמילה מופיעה בו אלא מתוך מחשבה האם גולש שהמילה הופיעה בחיפוש שלו אכן אמור להתעניין גם בטקסט הזה.

    ה. בשורה התחתונה: דפי תגיות לא חייבים להפוך לתוכן כפול אלא בהחלט יכולים להביא תנועת חיפוש איכותית, להועיל לגולש ולהתקבל די באהדה על-ידי גוגל. רק חשוב שכשתיכנס לדף תגית כזה תראה בו תוכן קוהרנטי.

  3. איתי ברנר

    לא ראיתי את הקטע הזה, אבל אני מאמין שבאופן כללי יש מקרים בהם חייבים להשתמש בתגיות. למעשה, אצלי באתר היו בהתחלה המון תגיות והחלטתי לקצץ אותן בגלל שבאמת היו הרבה כפילויות (למעשה רציתי שאם מישהוא מחפש משחק מוכר, הוא יגיע למשחק שדומה לו עם שם אחר). מה שקרה זה שאחרי שעשיתי את הקיצוץ הזה, כמות הדפים הנצפים באתר ירדה, אבל זמן הגלישה הממוצע לא השתנה.

    הסקתי מזה שכנראה שמתי יותר מדי תגיות עם מעט מדי תוכן, ואחרי ארגון מחדש והחזרת תגיות פופולאריות שנמחקו. (פעם ראשונה עושים את זה הפוך ממה שצריך 🙂 ), המצב חזר לקדמותו ואפילו השתפר.

  4. shooky מאת

    "חייבים" מילה חזקה. יש פשוט מקרים בהם תגיות יכולות להיות שימושיות. בכל מקרה, למחוק דפים קיימים זה פתרון רע כי גוגל ינסה לזחול אליהם ויקבל הודעות שגיאה. יש כמה פתרונות שיכולים לאכלס פוסט נפרד, אבל בגדול – אפשר להוציא אותם מהאינדקס לפני שמוחקים באמצעות וובמסטר טולס ואז להוריד מה-XML Sitemap (אם אתה משתמש ב-All in one SEO אז יש לך מקום להוסיף רשימת Exclude).

  5. איתי ברנר

    האמת שלא ידעתי את זה… עכשיו אני מבין למה אני באמת מקבל הודעות שגיאה בוובמאסטר טולס על דפים שאני כבר לא מקשר אליהם משום מקום…

  6. איתי

    באתר "עבודה שחורה" אנחנו נוהגים כמעט מדי יום להמליץ על פוסט בבלוג או אתר דעות אחר.
    השיטה היא לפרסם פסקה או שתיים מן הטקסט המקורי, להוסיף כותרת + כותרת משנה משלנו, ובתחתית לתת לינק החוצה לטקסט המלא.
    מה שכתבת כאן (אעפ"י שהתמקד בכפילויות בתוך אתר) גרם לי לחשוב שבכך אנחנו מזיקים לקידום עבודה שחורה בגוגל.
    גם אתה מבין כך?
     
     

  7. shooky מאת

    איתי – זה בסדר גמור. כמו שיש כללי ציטוט באקדמיה, בעיתונות ובחקיקה של זכויות יוצרים, כך יש כללי ציטוט באינטרנט. בגדול: נותנים חלק מהטקסט ומקשרים למקור. אם גם הכותרת לא זהה זה אפילו יותר טוב, כי זה בדיוק מה שמבדיל בין אגרגציה אוטומטית לבין בחירה ידנית של תוכן ויצירת הפניה אליו. הכותרת השונה אומרת שנוצר קונטקסט שונה, וזה מעניק זכות קיום לדף שמבצע את ההפניה (כלומר, הוא לא נתפס כמופע נוסף של אותו תוכן כי נוסף לו משהו מקורי).

  8. איתי

    תודה על התשובה. אני מרגיש שאתה נותן לי "כשרות אתית", אבל השאלה היא מאוד תועלתנית.
    אם גוגל מענישה אותי על מעשה שבנימוסי האינטרנט נחשב כשר לחלוטין, אני לא רוצה לעשות את המעשה הזה.
    מכיוון שגוגל לא מפרסמת נוסחה מספרית כגון "אם 70% ומעלה מהתוכן בעמוד הוא זהה לעמוד באתר אחר, זה נחשב תוכן כפול" – אנחנו בבעיה. אני מניח שנוסחה כזו קיימת, אבל לא מפרסמים אותה.
    אני יכול לציין מנסיון ששירות גוגל ניוז מזהה לעתים פרסומים שלנו ככפולים. לדוגמה, אם אנחנו מפרסמים הודעה לעיתונות של דב חנין או מיקי איתן (הע"פים שולחים לנו העתקים כמו לכל מערכות העיתונים), ומוסיפים לה כותרת+כותרת משנה ותגיות משלנו, אבל בעת פרסום הפוסט ההודעה לעיתונות כבר הפכה ל"כתבה עיתונאית" (המרכאות בכוונה) בווינט או אתר חדשות דומה, אזי מבחינת גוגל ניוז יש פה כפילות. במקרה כזה תוכל לראות את הפוסט שלנו רק אם תסמן "הצג כפילויות".

  9. shooky מאת

    איתי – הנחת העבודה שלך צריכה להיות שבחיפוש רגיל (גוגל ניוז זה עולם אחר) גוגל מיישרת קו עם מה שאתה קורא "נימוסי האינטרנט". כלומר, אם יש משהו שמקובל לעשות ברשת ומיליוני אתרים ותיקים ואמינים עושים אותו, בוודאי שלא תקבל עליו עונש.

    אם האתר שלך מבוסס אך ורק על תכנים שמופיעים באתרים אחרים ברור שזה בעייתי. אם אחד מכל כמה אייטמים כולל שתי פיסקאות מאתר אחר + הפניה למקור (מה שלא קורה, אגב, במקרה של הודעה לעיתונות כי המקור נמצא באימייל) אז זה ממש לא נורא. איך אתה יכול לדעת את זה? כי מיליוני בלוגים עושים את זה. אז כן, יכול להיות שהפוסט עם ההפניה לא יופיע בתוצאות החיפוש, אבל זה לא ישפיע על המיקומים של פוסטים אחרים. אגב, כשמדובר בהודעה לעיתונות, בכל מקרה כדאי לערוך קצת ולא להביא את הדברים כפי שהם.

    הכל שאלה של מידה, ואתה צודק שהערפול של גוגל בעניין לא הופך את הדברים פשוטים יותר, אבל בגוגל בסה"כ מאד נזהרים לא לפגוע באתרים בגלל שעשו משהו שהוא תקני, חוקי, אתי ומקובל.

  10. תומר

    הפוסט הזה נוגע בשאלה שאני מתלבט בה בזמן האחרון. אני מפרסם מאמרים מקצועיים זהים  במספר אתרים. תחילה אני ממתין עד שגוגל יאנדקס את המאמר באתר שלי ורק אז שולח אותו לעורכים בפורטלים השונים. האם גם תוכן שכזה נחשב לתוכן כפול ולמעשה לגול עצמי? אם כן, לאיזה רזולוצייה יש לרדת על מנת ליצר הפרדה סבירה בין התכנים.

השאר תגובה