האם גוגל מזהה מילים נרדפות? עכשיו כן

Google מבין הרבה יותר ממה שנדמה לנו, וכבר שנים שהוא יודע לזהות מילים נרדפות, אבל רק לאחרונה אפשר לראות דפים שמדורגים גבוה על בסיס היכולת הזו בלבד. סימן לבאות?

גוגל מתגאה כבר שנתיים לפחות שהיא יודעת להציג בתוצאות החיפוש שלה דפים שאינם כוללים את מילות המפתח שבשאילתא. או במילים אחרות: לזהות מילים נרדפות ואת הרלוונטיות שלהן, גם אם המחפש השתמש במילים אחרות.

תיאורטית, זה אמור להיות פשוט – במיוחד למי שיש לו כבר טכנולוגיית תרגום בזמן-אמת. Google הרי כבר יודע, מזה זמן, שהמילה האנגלית Tar זהה במשמעותה לזפת, אך גם לעטרן וכופר (הצורה התנ"כית. ואגב, המילה הארמית לזפת היא כופרא. למשל: ההוא גברא דאשכח כופרא בי מעצרתא" וכו', בבא מציעא כ"ג ע"ב).

מעשית, מתברר שזה לא כל-כך פשוט. לדוגמא: "כופר" היא מילה עם מספר משמעויות (כופר באשמה, כופר נפש, וכו'). קל לזהות את ההקשר בו היא מופיעה בטקסטים ארוכים ברשת – הבעיה היא בדרך-כלל עם השאילתות, בהן יש פחות מילים ופחות אפשרות ליצור הקשר.

בהרבה מקרים, הבחירה במילה נרדפת מרמה גבוהה יותר (למשל: חרון אף, עברה או זעם, במקום סתם כעס רגיל), היא עצמה כבר חלק מהקשר. עצם החיפוש אחריה, יכול בכלל להיות במטרה לחפש פירוש שלה – כך שהצגת תוצאות שמכילות מילים נרדפות עשויה להיות סתם מבלבלת.

סימנים ראשונים לשינוי

המגבלות האלה ואחרות גרמו לכך שגוגל זהירה מאד בשימוש שהיא עושה בהיכרות שלה עם מילים נרדפות. אפשר לומר, בלי להגזים, שלעיתים נדירות זוכים לראות בתוצאות דף שלא כולל (או כלל בעבר!) את המילים שמופיעות בשאילתת החיפוש, כולן או לפחות רובן (בשאילתות ארוכות).

אבל בזמן האחרון נראה כאילו זה משתנה במהירות, ואני רואה דוגמאות כמו זו: כשמחפשים עלות זיפות גג מופיע במקום הראשון דף מחירון לאיטום וזיפות באתר המקצוענים. זהו דף שלא כולל את המילה "עלויות" או הטיה כלשהי אחרת של המילה "עלות", בכותרת או בגוף או אפילו בטקסט העוגן של קישורים שמובילים אליו. הכותרת שלו, עם זאת, כוללת את הביטוי "מחירי איטום וזיפות גגות".

עידן הכותרות המתחכמות

מובן שבשלב הנוכחי באבולוציה של האלגוריתם מיותר לצפות לדוגמאות כאלו בחיפוש אחר ביטויים תחרותיים. כמו תמיד, השינויים הדרמטיים מתרחשים לאט ובשקט באזור הדמדומים של הזנב הארוך – רק שברור שבסופו של דבר נראה אותם בכל מקום.

גוגל אמנם דוחקת בבעלי האתרים, מזה מספר שנים, ליישר קו עם עקרונות האלגוריתם ולהשתמש במילות מפתח בכותרת הדף (Title tag). יש בזה היגיון רב בתוכן בעל אופי חדשותי, שכותרות אינפורמטיביות הולמות אותו. אבל "תוכן איכותי" איננו רק תוכן שנכתב מתוך מחשבה על דירוגים ורלוונטיות, ואפשר אפילו לומר שהמצב נוטה להיות הפוך – ככל שתוכן עובר אופטימיזציה, הסיכוי שהוא תוכן איכותי שלא נכתב רק לצורך שיפור מיקומים נוטה להיות קטן יותר.

בטווח הקצר, כותרות מתחכמות – כאלו שאולי מגרות את הגולש להקליק אבל מקשות על גוגל להבין למה התוכן רלוונטי – עדיין מתפקדות הרבה פחות טוב מכותרות אינפורמטיביות שכוללות מילות מפתח. בטווח הבינוני והארוך, נוכחות של תוכן כזה באתר (או מכל מקום, של תוכן שניכר שלא עבר אופטימיזציה) עשויה להפוך לאחד מסימני ההיכר של תוכן איכותי שראוי לדירוגים גבוהים.

עד אז, הנחת העבודה של מקדמי אתרים וכותבי תוכן צריכה להיות שהשימוש במילים נרדפות בגוף הטקסטים – לצד מילות המפתח העיקריות ומילים קשורות – תהפוך לפרקטיקה יעילה יותר ויותר באופטימיזציה של תוכן.

4 תגובות

  1. כבר כתבתי שלפי דעתי בזמן האחרון נפגעו דווקא אותם אתרים שכיוונו בצורה יותר מדי מלאכותית לזנב הארוך. מה שכן, לא ידעתי שזיהוי מילים נרדפות עובד גם בעברית.

  2. מאת shooky:

    ממה שאני ראיתי (לשמחתי, מעט מאד ולא באתרים שאני קשור אליהם) מה שנפגע הם בעיקר שני סוגים של דפים:
    א. דפים דלילים בתוכן (או שאחוז התוכן המקורי בהם קטן) שקודם לכן דורגו גבוה בזכות Title tags מדויק.
    ב. דפים שדורגו עבור ביטוי שהופיע בכותרת שלהם בסדר מילים שונה.
    שים לב שזה משתלב במגמה עליה אני מדבר, של התחזקות סיגנלים שמבוססים על ניתוח תוכן.

  3. מאת מישהו:

    המלה עלות דווקא מופיעה באותו הדף אמנם בקטן אבל עדיין מופיעה (תחפש טוב…)

  4. מאת shooky:

    המילה "עלות" מופיעה ברכיב דינמי שלא היה קיים כשכתבתי את הפוסט.

הוספת תגובה