Як ми вже писали у статті "Як влаштований індекс пошукової машини", для індексації слів на сторінках пошукової системи потрібно знати, що саме вважається словом.
Що таке слово
Наприклад, слова з дефісом (червоно-синій, що-небудь) - це одне слово або два? А числа - це теж слова або вони викидаються, як «сміття»? А слова на іншій мові - викидати або залишати? Що робити з комбінацією букв і цифр (з назвами моделей електроніки, наприклад)? Чи індексуються адреси електронної пошти, інтернет-адреси і дати, і якщо так, то як?Всі ці питання вирішуються розробниками кожної пошукової машини по-своєму. Більш того, нам тут немає сенсу намагатися точно вказати правила виділення слів для Google або «Яндекса» - вони можуть змінюватися хоч раз в місяць, з кожним введенням «в бій» черговий версії пошукового механізму. Набагато простіше це перевіряти самостійно, коли потрібно.
Як перевірити
Ви самі можете легко перевірити, як розробники Google або «Рамблера» обробляють, наприклад, слова з дефісом або числа - просто введіть в пошукову систему такий запит і подивітися, що саме знайде і як покаже пошукова система. Оскільки знайдені слова показуються і підсвічуються в цитатах (анотаціях) сторінок, відразу буде видно, як зберігаються слова в індексі даної пошукової системи.Роздільники
Звичайно, пошукові системи не індексують всякі службові символи, так звані роздільники - пробіли, знаки пунктуації, а також різноманітні теги та інші конструкції мови HTML.Стоп-слова
А чи є «непотрібні слова», які пошукові системи не індексують зовсім?Пошуковий індекс є максимально стислою, але все ж копію всіх сторінок Інтернету, відомих пошуковику. А пошуковики прагнуть отримати дані про максимально більшу кількість сторінок, тобто в ідеалі пошуковий індекс повинен бути копією всього Інтернету, а це величезний обсяг даних.
Тому раніше пошукові машини намагалися економити місце на дисках і час роботи сервера і при індексації відкидали деякі неважливі, службові слова, так звані стоп-слова, наприклад прийменники, сполучники, числа, скорочення і т. п., а також і цифри.
Надалі виявилося, що користувачі все-таки досить часто запитують такі слова, тому їх потрібно зберігати (особливо для пошуку точних цитат, що включають ці службові слова). А вартість зберігання мегабайта даних до теперішнього часу істотно знизилася - жорсткі диски стали дешеві. Так що зараз більшість популярних пошукових систем індексують всі слова в текстах, в тому числі і стоп-слова - прийменники, сполучники, вигуки. Індексують вони також і цифри, і букви і цифрові комбінації.