ארכיון תגיות: מילים נרדפות

האם גוגל מזהה מילים נרדפות? עכשיו כן

Google מבין הרבה יותר ממה שנדמה לנו, וכבר שנים שהוא יודע לזהות מילים נרדפות, אבל רק לאחרונה אפשר לראות דפים שמדורגים גבוה על בסיס היכולת הזו בלבד. סימן לבאות?

גוגל מתגאה כבר שנתיים לפחות שהיא יודעת להציג בתוצאות החיפוש שלה דפים שאינם כוללים את מילות המפתח שבשאילתא. או במילים אחרות: לזהות מילים נרדפות ואת הרלוונטיות שלהן, גם אם המחפש השתמש במילים אחרות.

תיאורטית, זה אמור להיות פשוט – במיוחד למי שיש לו כבר טכנולוגיית תרגום בזמן-אמת. Google הרי כבר יודע, מזה זמן, שהמילה האנגלית Tar זהה במשמעותה לזפת, אך גם לעטרן וכופר (הצורה התנ"כית. ואגב, המילה הארמית לזפת היא כופרא. למשל: ההוא גברא דאשכח כופרא בי מעצרתא" וכו', בבא מציעא כ"ג ע"ב).

מעשית, מתברר שזה לא כל-כך פשוט. לדוגמא: "כופר" היא מילה עם מספר משמעויות (כופר באשמה, כופר נפש, וכו'). קל לזהות את ההקשר בו היא מופיעה בטקסטים ארוכים ברשת – הבעיה היא בדרך-כלל עם השאילתות, בהן יש פחות מילים ופחות אפשרות ליצור הקשר.

בהרבה מקרים, הבחירה במילה נרדפת מרמה גבוהה יותר (למשל: חרון אף, עברה או זעם, במקום סתם כעס רגיל), היא עצמה כבר חלק מהקשר. עצם החיפוש אחריה, יכול בכלל להיות במטרה לחפש פירוש שלה – כך שהצגת תוצאות שמכילות מילים נרדפות עשויה להיות סתם מבלבלת.

סימנים ראשונים לשינוי

המגבלות האלה ואחרות גרמו לכך שגוגל זהירה מאד בשימוש שהיא עושה בהיכרות שלה עם מילים נרדפות. אפשר לומר, בלי להגזים, שלעיתים נדירות זוכים לראות בתוצאות דף שלא כולל (או כלל בעבר!) את המילים שמופיעות בשאילתת החיפוש, כולן או לפחות רובן (בשאילתות ארוכות).

אבל בזמן האחרון נראה כאילו זה משתנה במהירות, ואני רואה דוגמאות כמו זו: כשמחפשים עלות זיפות גג מופיע במקום הראשון דף מחירון לאיטום וזיפות באתר המקצוענים. זהו דף שלא כולל את המילה "עלויות" או הטיה כלשהי אחרת של המילה "עלות", בכותרת או בגוף או אפילו בטקסט העוגן של קישורים שמובילים אליו. הכותרת שלו, עם זאת, כוללת את הביטוי "מחירי איטום וזיפות גגות".
להמשיך לקרוא

67 אלף גולשים מחפשים "טמקא" כל שנה

את התשובות לשאלות כמו זו שבכותרת אפשר להעריך, אבל עם קצת יצירתיות – אפשר גם לחשב, במידה גבוהה יחסית של דיוק. קבלו: תרגיל מהיר במחקר מילים מתקדם, והצצה לתוך האלגוריתמים הסמנטיים של גוגל.

פוסט למתקדמים.
מתנצל מראש שאין תמונות מסך – יהיו כשיהיה לי זמן להעלות.

מזה זמן שפוסט של בלוג החומוס מופיע בדף התוצאות הראשון עבור המילה "טמקא" (ynet באותיות עבריות). זו לא הייתה הכוונה, אבל מכיוון שזה קרה – מדובר בהזדמנות פז לברר את התשובה לשאלה שבכותרת.

בלוג החומוס שולט בתוצאות החיפוש בגוגל עבור המילה "חומוס". הוא מאייש את שתי התוצאות הראשונות, כאשר בראשונה יש לו סייטלינקס (Sitelinks) ובשנייה מיני-סייטלינקס (one-line sitelinks). במצב כזה אפשר להניח שהוא מקבל לפחות 60 אחוזים מהתנועה האורגנית עבור המילה (מעשית, זה יכול להיות גם 95%). להמשיך לקרוא