Пошукова система - це складний програмно-апаратний комплекс, що призначений для здійснення пошуку ресурсів в Інтернет, збереження відомостей про них в своїх базах і надання користувачу переліку посилань відповідно до його пошукового запиту.
Головним завданням пошукової системи є здатність надавати користувачам саме ту інформацію, яку вони шукають. Навчити користувачів робити «правильні» запити до пошукової системи, які відповідають її принципам роботи неможливо. Пошукова система повинна діяти так само, як діє користувач при пошуку інформації і надавати за його запитом інформацію максимально швидко і просто. Для того, щоб задовольнити зростаючим потребам користувачів, розробники пошукових машин постійно вдосконалюють алгоритми і принципи пошуку, додають нові функції і можливості, що пришвидшують роботу системи.
Популярні пошукові системи в світі
За даними статистики (https://gs.statcounter.com/) на жовтень 2019 року перше місце на світовому ринку пошукових систем займає компанія Google - 92.07%. Далі йде Bing - 2.44%, Yahoo! - 1.62%, Baidu - 1.49%. У решти менше 1% на ринку (рис.1).
Рис.1 Статистика популярності пошукових систем у світі
Головним лідером на теренах України залишається Google, яка має власні бази та алгоритми пошуку. Українські розробки в основному базуються на технологіях та базах Google і, звісно, значно йому поступаються.
- Meta. Українську пошукову систему Meta створено в 1998 році силами Харківського державного політехнічного університету. Зона пошуку - українські сайти, а також сайти, що мають відношення до України.
- Ukr.net. Український веб-портал, який публікує новинні статті. Заснований в 1998 році, має мобільну версію.
- I.ua і Online.ua. Надають пошуковий сервіс в межах відповідних веб-порталів, що базується на Google.
- Шукалка. Українська пошукова система Шукалка зосереджена на пошуку документів, які стосуються України. Система віддає 30% свого прибутку до дитячих будинків України.
Принципи роботи пошукової системи
Робота пошукових систем складається з двох частин.
- Пошукові системи обходять різноманітні ресурси по всьому Інтернету, і складають цю інформацію на своїх серверах.
- Користувач через головну сторінку пошуковика формує запит і отримує відповідь від серверів даної пошукової системи.
Результати пошуку
Сторінка результатів пошуку SERP (Search Engine Results Page) щодня формується десятками мільйонів разів. Результати пошуку - це посилання на знайдені документи з короткою інформацією про них.
Блок з інформацією про знайдений ресурс називається сніпетом (snippet), він допомагає користувачеві швидко зрозуміти яка з відповідей підходить йому найкраще (рис.2). Для заголовку сніпету найчастіше використовується заголовок самого документа або фрагмент, який найбільше підходить за змістом до заданого запиту. Під заголовком надається блок з коротким описом документа та певними важливими відомостями: пряме посилання на документ, рейтинг, категорія сторінки, дата останнього оновлення тощо.
Рис.2. Сніпет документа на сторінці видачі результатів
Щоб допомогти користувачеві швидше зрозуміти зміст документа, виділяються визначальні слова. Це відбувається при відповіді на загальні, багатозначні запити. Спеціальна програма стежить за тим, як користувачі уточнюють свої запити, і обчислює значимість таких уточнень. В подальшому ці знання використовуються при формуванні сніпету.
Важливим є, щоб користувачі могли швидко знайти відповідь - іноді навіть відразу на сторінці результатів пошуку. Для різних відповідей потрібна різна додаткова інформація. Наприклад, якщо людина задає в запиті назву організації, можливо, їй потрібно довідатися, де вона знаходиться або контактну інформацію. Щоб не довелося витрачати час на пошуки сторінки з контактами на сайті організації, пошукова система додає телефон і фізичну адресу з посиланням на карту до сніпету (рис.3).
Рис. 3. Фрагмент сторінки видачі Google на запит «Піца на замовлення Львів»
Якщо пошуковій системі відомо про структуру сайту, вона показує її користувачеві. Під текстом сніпету сайту з'являються посилання на його найбільш відвідувані сторінки - щоб за бажанням користувач міг перейти в потрібний розділ, витрачаючи менше кліків і трафіку (рис.4).
Рис. 4. Розширена інформація за запитом «Львівська політехніка»
Для деяких предметних областей створюються спеціальні сніпети. Наприклад, для сторінок з описами товарів або для сайтів готелів, ресторанів, кінотеатрів. Основна інформація, що з'являється в сніпетах - ціна товару, «зірковість» готелю, кухня ресторану, кількість залів кінотеатру. Завдяки таким спеціальним сніпетам користувач економить час і трафік, а організація отримує відвідувача сайту, зацікавленого саме в її послугах (рис.5-6).
Рис. 5. Розширена інформація до запиту «Офіси Софтсерву»
Рис. 6. Фрагмент сторінки видачі Google на запит «Український борщ»
Google надає можливість переглянути збережену копію документа прямо з бази (може допомогти при тимчасової недоступності сайту, блокування його через зараження вірусом або видаленні з нього даної інформації), а також поділитися посиланням на неї та знайти схожі сайти. Якщо сторінка є іншою мовою, то відразу можна застосувати переклад.
Рис. 7. Відкривання кешованої версії та автоматичний переклад сторінки
Коли користувач починає вводити запит у пошуковому рядку, пошуковик показує кілька найпопулярніших запитів, що починаються на вже введені літери - це пошукові підказки. Пошукові підказки допомагають заощадити час - можна не друкувати запит цілком. Пошуковик розуміє, які показати підказки, навіть якщо користувач забув змінити розкладку клавіатури або допустив граматичні помилки.
Рис. 8. Пошукові підказки
Список, з якого беруться пошукові підказки, формується після фільтрації всього потоку запитів користувачів. Запити проходять множину фільтрів, кожний з яких фільтрує запити за кількома умовами. Наприклад, прибирає дуже рідкісні запити або запити, що містять ненормативну лексику. Разом з фільтрацією виправляються помилки. У підсумку залишаються мільйони запитів.
На одне запитання може бути кілька правильних відповідей - залежно від потреб користувача. Персональний пошук вміє враховувати особисті інтереси та переваги користувача і вибирати найбільш підходящу для нього відповідь.
В основі персонального пошуку лежить аналіз пошукової поведінки - наприклад, які запити задає людина, на які сайти переходить, якою мовою спілкується з пошуковою системою. Аналізуючи питання і переходи користувача, пошукова система робить висновок про те, що йому зараз важливо і цікаво. Ці дані враховуються як при виборі підказок, так і при пошуку персональної відповіді на запитання.
Вибираючи для людини підказки, пошукова система намагається вгадати його наступні запити. При цьому пошукова система спирається на питання людей з схожою пошуковою поведінкою.
Інструменти та фільтри
Під рядком пошуку розміщена панель, що дозволяє фільтрувати результати. Для різних областей пошуку (всі результати, по картинках, по відео) вона буде дещо різнитися, і пункти фільтрів будуть як найточніше відповідати об’єкту та сфері пошуку.
Рис.9. Інструменти та фільтри пошукової системи
Оператори пошуку в Google
Оператори пошуку Google дозволяють шукати фрази або ключові слова в заголовках сайтів, їх URL, в змісті і текстах. Все це досягається шляхом розширеного пошуку. Ці розширені можливості допоможуть заощадити час і підвищити якість знайденої інформації.
Google постійно корегує набір операторів, тому, вказані у різних джерелах відомості можуть частково або повністю не працювати. Нижче наведено перелік операторів, актуальних на 2020 рік.
«запит» | Примусовий пошук точного збігу. Лапки використовуються для уточнення неоднозначних результатів пошуку або виключення синонімів при пошуку окремих слів. |
---|---|
OR | Пошук по X або Y. Знайдені результати будуть пов'язані з X і/або Y. Замість оператора OR можна використовувати оператор | (прямий слеш). |
AND | Пошук по X і Y. Результати пошуку пов'язані як з X, так і з Y. Оператор AND використовується Google за замовчуванням для звичайного пошуку, але дуже корисний у поєднанні з іншими операторами. |
- | Шукати інформацію, що не містить даного слова. |
* | Заміна довільного фрагменту |
() | Угруповання декількох термінів або операторів, щоб контролювати видачу. |
$ | Пошук цін. Також працює для євро (€), але не для британського фунта (£). |
define: | Вбудований в Google словник. Показує значення слова. |
cache: | Повертає останню кешовану версію веб-сторінки (за умови, що сторінка проіндексована). |
filetype: | Обмежує результати файлами певного формату, наприклад, pdf, docx, txt, ppt і т. Д. Примітка: подібний оператор "ext:". |
site: | Результати для певного домену. |
related: | Пошук сайтів, подібних до даного домену. |
intitle: | Знайти сторінки з певним словом (або словами) в заголовку сторінки. |
intext: | Знайти сторінки, що містять певне слово (або слова) десь в змісті. |
AROUND (X) | Пошук поблизу. Сторінки, що містять два слова або фрази на відстані X слів один від одного. У цьому прикладі слова [apple] і [iphone] повинні бути присутніми в тексті на відстані не більше чотирьох слів один від одного. |
movie: | Знайти інформацію про конкретний фільмі. Також знаходить розклад сеансів, якщо фільм зараз показують недалеко від вас. |
map: | Результати пошуку по картах. |
weather: | Знайти погоду для конкретного місця. Відображається в погодний сніпеті, але також повертає результати з інших метеорологічних сайтів. |
in | Перетворює одну одиниці виміру в іншу. Працює з валютами, вагами, температурою, відстанями тощо. |
source: | Знайти новинні результати з певного джерела в Google News. |
Сервіси пошуку
Калькулятор. Сервіс для розрахунків, що вбудований в рядок пошуку. Наприклад, якщо задати пошук рядка 900 + 600 * 2 (3 + 1), то буде видана відповідь 2096, а також інтернет-сторінки, де такий рядок може зустрічатися. Сервіс використовує багато математичних функцій, вміє дотримуватися пріоритету операцій (рис.10).
Рис.10. Калькулятор Google
Калькулятор чайових. Допоможе розділити рахунок, обчислити відсотки за напої, вечерю, їжу в барі (рис.11).
Рис.11. Калькулятор чайових
Конвертер валют. Зручний онлайн калькулятор для конвертації грошей з однієї валюти в іншу за курсом НБУ (рис.12).
Рис.12. Конвертер валют
Перетворення величин. Зручний сервіс, який здатний перевести різні величини (довжина, вага, температура тощо) (рис.13).
Рис. 13. Перетворення величин
Палітра кольорів. За допомогою цього інструменту можна конвертувати коди будь-яких доступних колірних моделей (наприклад, Pantone, HEX або RGB) (рис.14).
Рис.14. Палітра кольорів
Визначення часу. Зручний сервіс, що показує точний час в країні (рис.15).
Рис.15. Сервіс точного часу у країні чи місті
Погодний інформер. Для отримання інформації в запиті потрібно вказати місто, можна вказати день та час.
Рис.16. Погодний інформер
Кіноафіша. Сервіс, що надає відомості про фільми, які можна подивитися в кінотеатрах зазначеного міста чи країни (рис.17).
Рис.17. Сервіс кіноафіші
Пошук білетів. Сервіс, що надає інформацію про наявні рейси між зазначеними містами (рис.18).
Рис.18. Підбір інформації про наявні рейси
Браузерні ігри. Сервіс, що надає можливість відкрити в інтерфейсі пошуковика нескладну карточну гру (рис.19).
Рис. 19. Браузерна гра «Солітер»
Спеціалізовані пошукові системи
Wolfram|Alpha
Wolfram | Alpha - обчислювально-пошукова система. Замість посилань на статті, що містять ключові слова, вона видає готову відповідь на запит користувача (англійською мовою). Наприклад, якщо ввести в форму пошуку «Lviv», то Wolfram | Alpha виведе на екран карти, таблиці і графіки з статистичною інформацією про місто.
Цей сервіс краще за інших підходить для пошуку фактів і обчислення даних. Wolfram | Alpha накопичує і систематизує доступні в Мережі знання з різних областей, включаючи науку, культуру і розваги. Якщо в цій базі знаходиться готову відповідь на пошуковий запит, система показує його, якщо немає - обчислює і виводить результат. При цьому користувач бачить тільки потрібну інформацію і нічого зайвого.
Wolfram | Alpha можете використовувати для пошуку і обчислення даних, пов'язаних з різними науками (математика, фізика, хімія).
Goofram.com
Пошукова система здійснює пошук одночасно в Google і Wolfram Alfa. Сторінка результатів поділяється на дві частини, зліва результати пошуку в Інтернеті, справа розширена інформація про предмет пошуку.
Boardreader
Пошуковик шукає інформацію на різних форумах, чатах, дошках оголошень і Reddit. Reddit є соціальним новинним сайтом, де зручно знаходити і ділитися посиланнями на новини, статті та просто цікавий контент. Портал є майданчиком для бесід, тобто форумом. Посилання та їх обговорення залишаються важливою частиною платформи.
Gnod.net
Пошук та рекомендації музики за уподобаннями користувача. Gnod - самоорганізована система, яка дізнається про зовнішній світ, запитуючи користувачів, що їм подобається, а що їм не подобається в музичній сфері. Gnod постійно заповнює базу даних уподобаннями користувачів, щоб надавати рекомендації іншим користувачам. Проект Gnod має дві гілки:
- Поповнення бази для навчання системи
- Хмара близькості до даного виконавця, чим ближче інший митець до заданого на хмарі, тим ближче він в творчому плані.
Search.creativecommons
Пошуковик шукає фотографії та відео, що надаються за вільною ліцензією або захищені авторськими правами на просторах Інтернету, включаючи YouTube, Flickr, SoundCloud. У базі пошуковика зберігається понад 300 мільйонів зображень, багато зображень в колекції надано музеями світу.
Широкий вибір фільтрів допомагає у пошуку і користувач швидко отримує якісний результат.
FindSounds
Пошукова система, що шукає в відкритих джерелах різні звуки: природа, машини, люди тощо. У видачі тільки звуки і нічого зайвого. В налаштуваннях можна виставити бажаний формат і якість звучання. Всі знайдені звуки доступні для скачування. Є пошук за зразком.