Рекомендаційні системи

Рекомендаційні системи - програми, які намагаються передбачити, які об'єкти (фільми, музика, книги, новини, веб-сайти) будуть цікаві користувачеві, маючи певну інформацію про його профілі.

Типи рекомендаційних систем

  • Рекомендації по фільмах/книгах/новинах. Пропозиція нового контенту, що підвищує зацікавленість користувачів. Мета полягає в знайомстві користувачів з новим контентом, який може зацікавити.
  • Рекомендації по акціях. Пропозиція акцій, які є привабливими та вигідними для клієнтів.
  • Рекомендації по продукту. Пропозиція поєднання звичних для клієнта продуктів та новинок.

Основні характеристики рекомендаційних систем.

1. Предмет рекомендації - що рекомендується. Тут велика різноманітність - це можуть бути товари (Amazon, eBay, Rozetka), відео (YouTube, Netflix, Megogo), статті (Arxiv.org), зображення (500px), люди (Linkedin, LonelyPlanet), музика (Pandora, Last.fm) та інше.

2. Мета рекомендації - навіщо рекомендується. Наприклад: покупка, інформування, навчання, встановлення контактів.

3. Контекст рекомендації - що користувач в цей момент робить. Наприклад: дивиться товари, слухає музику, спілкується з людьми.

4. Джерело рекомендації - хто рекомендує:

  • Аудиторія.
  • Схожі за інтересами користувачі.
  • Експертне співтовариство.

5. Ступінь персоналізації.

  • Неперсональні рекомендації - клієнту рекомендують те саме, що всім іншим. Вони допускають таргетинг по регіону або часу, але не враховують особисті переваги клієнта.
  • Більш просунутий варіант - коли рекомендації використовують дані з поточної сесії клієнта. Він подивився кілька товарів і внизу сторінки пропонуються схожі товари.
  • Персональні рекомендації використовують всю доступну інформацію про клієнта, в тому числі історію його покупок.

6. Прозорість. Люди більше довіряють рекомендації, якщо розуміють, як саме вона була отримана. Хороша рекомендаційна система має вміти боротися з купленими відгуками і накрутками продавців.

7. Формат рекомендації. Це може бути спливаюче віконце, відсортований список, рядок внизу екрана або щось ще.

8. Алгоритми. Вся множина алгоритмів заснована на базових класичних алгоритмах

  • Summary-based (неперсональні рекомендації).
  • Content-based (моделі, що засновані на описі товару).
  • Collaborative Filtering (коллаборативна фільтрація).
  • Matrix Factorization (методи, щозасновані на матричному розкладанні).

В процесі роботи рекомендаційні системи збирають дані про користувачів, використовуючи поєднання явних і неявних методів.

Приклади явного збору даних:

  • запит у користувача оцінки об'єкта за диференційованою шкалою;
  • запит у користувача ранжування групи об'єктів від найкращого до найгіршого;
  • пред'явлення користувачеві двох об'єктів з питанням про те, який з них краще;
  • пропозиція створити список об'єктів, улюблених користувачем.

Приклади неявного збору даних:

  • спостереження за тим, що оглядає користувач в інтернет-магазинах або базах даних іншого типу;
  • ведення записів про поведінку користувача онлайн;
  • відстеження вмісту комп'ютера користувача.

Рекомендаційні системи порівнюють однотипні дані від різних людей, формують граф інтересів і обчислюють список рекомендацій для конкретного користувача.

Ресурси з рекомендаційними системами

Amazon

AmazonПерший сервіс електронної комерції, де було застосовано рекомендаційну систему. Amazon рекомендує книги і інші товари, грунтуючись на тому, що клієнти купували, що переглядали, які рейтинги ставили, які залишали відгуки. Система збирає все, навіть якщо щось поки не вміє використовувати і забезпечує 35% продаж.

Сервіс використовує рекомендації на основі контенту. Коли відвідувач вибирає для покупки будь-якої товар, Amazon на основі цього товару рекомендує відвідувачеві інші товари, придбані іншими користувачами (за допомогою матриці покупки наступного товару на основі його схожості з попередньою покупкою). Компанія Amazon запатентувала цей підхід під назвою item-to-item collaborative filtering (коллаборативна фільтрація від елемента до елементу).

eBay

eBayТорговий гігант вже багато років експериментує з інструментами машинного навчання і методами штучного інтелекту, що впроваджений майже на всіх рівнях великого бізнесу компанії: підбір товарів на головній сторінці, спеціальні пропозиції, розумне ранжування пошукової видачі, реклама. Алгоритми рекомендацій забезпечують додаткові продажі приблизно в $ 1 млрд. кожного кварталу.

Рекомендаційна система аналізує, що зараз продається на сайті і які товари з найбільшою ймовірністю зацікавлять користувача. А в момент покупки система стежить за тим, щоб продукти в додаткових пропозиціях не повторювалися і не перекривали товар, що купується. Для цього застосовують, в тому числі розпізнавання зображень. Важливо також, щоб рекомендації були пов'язані з поточною покупкою настільки, щоб викликати інтерес і змусити додати і їх в корзину.

YouTube

YouTubeКожну хвилину на YouTube з'являється мінімум 300 годин нового відеоконтенту різного змісту. Щомісяця на платформу заходить близько двох мільярдів користувачів, які переглядають понад мільярд годин відео. Для обробки величезного обсягу інформації компанія активно використовує можливості штучного інтелекту, щоб спростити деякі операції.

YouTube з щохвилинної завантаженням великої кількості відео відрізняється однією з найбільш просунутих систем рекомендацій, створеної на основі штучного інтелекту. Вона набагато відрізняється від механізмів, які використовуються на Netflix, Hulu, або Spotify, забезпечуючи обробку постійно оновлюваного контенту і формування рекомендацій в режимі реального часу.

Розроблена система складається з двох частин. Перша є нейронною мережею, яка призначена для генерації кандидатів на основі історії переглядів користувачів YouTube. Це дозволяє забезпечити широку персоналізацію з подальшою фільтрацією контенту за такими ідентифікаторами, як кількість і час переглядів відео, демографічна інформація та пошукові запити.

Друга частина - мережа ранжирування, яка привласнює оцінку для кожного відео, використовуючи «широкий набір функцій, що описують користувачів і ролик». Двохрівневий підхід дозволяє системі обробляти мільйони відео, рекомендуючи змістовний корисний контент. Головний показник корисності рекомендацій - час перегляду. Система дуже ефективна для платформи і рекламодавців, однак, може не влаштовувати користувачів, оскільки не завжди тривалість перегляду є підтвердженням зацікавленості.

Netflix

NetflixОнлайн-відеосервіс застосовує технологію на основі штучного інтелекту і машинного навчання для показу своїм абонентам персоналізованих трейлерів фільмів і серіалів з врахуванням глядацьких уподобань.

Загальним підходом VoD-сервісів до проблеми вибору контенту глядачами в постійно зростаючих цифрових бібліотеках є рекомендаційні сервіси, що враховують глядацький досвід і уподобання конкретної людини. Netflix аналізує «кожен клік» своїх 100 мільйонів користувачів, прагнучи отримати унікальну деталізацію переваг перегляду.

Наразі Netflix втілює машинне навчання і штучний інтелект для створення персоналізованих трейлерів для свого контенту. Концепція передбачає, що з фільмів і серіалів не просто вибираються найбільш цікаві сцени, як в звичайних трейлерах. Йдеться про їх персоналізацію: наприклад, тим глядачам, хто вважає за краще романтичні сцени, будуть пропонуватися відповідні кадри навіть з бойовиків.

Megogo

Один із найбільших у Східній Європі відеосервісів для перегляду онлайн відео і ТБ із сумарною аудиторією понад 50 млн. унікальних користувачів. Станом на 2019 рік бібліотека онлайн-кінотеатру нараховує 77 тисяч медіа-творів, а саме художніх та документальних фільмів, мультфільмів, серіалів, ТВ-програм та шоу, спортивних та культурних подій, новин, та музичних кліпів.

На сайті працює інтелектуальна система рекомендацій та запам'ятовування місця перегляду. Джерелом для формування рекомендацій є внутрішня система трекінгу фактичних переглядів контенту - WatchStat. Персональні рекомендації виробляються для всіх користувачів, які переглянули як мінімум 2 відео.

Deezer

DeezerСервіс потокової передачі музики від різних джерел, включаючи EMI, Sony, Universal Music Group і Warner Music Group, на різних пристроях в режимі онлайн або офлайн.

Система штучного інтелекту сервісу здатна асоціювати певні пісні з різних настроєм і активністю. Щоб визначити музичний настрій пісні, команда розглядала як аудіосигнал, так і текст пісні. Для початку вони подавали аудіосигнали в нейронну мережу, а також моделі, які відтворювали мовне значення слів. Для навчання системи визначати настрій пісні, використовується база Million Song Dataset (MSD), яка представляє колекцію метаданих більш як 1 млн сучасних пісень. Зокрема, використовується набір даних Last.fm, який привласнює ідентифікаторам треків більш ніж 500 тис. унікальних тегів. Багато з цих тегів пов'язані з настроєм, і понад 14 000 англійських слів з цих тегів використовується для рейтингів, що зіставляють, наскільки негативним або позитивним є слово, а також наскільки спокійним або енергійним є слово для навчання системи.

База Million Song Database містить тільки метадані пісень, а не самі музичні композиції, тому розробникам довелося об'єднати цю інформацію з власним каталогом Deezer, використовуючи в якості ідентифікаторів назви пісень, імена виконавців і альбомів. Близько 60% результуючого набору даних використовувалося для навчання системи, а решта треків застосовувалися для перевірки і подальшого тестування системи. Система штучного інтелекту краще виявляє, наскільки спокійною або енергійної є пісня, ніж більш традиційні підходи, які не використовують штучний інтелект і виконували приблизно те ж саме. Дослідники вважають, що підвищення ефективності досягається завдяки одночасному аналізу і зіставлення музики та тексту пісень.

Pandora

Сервіс потокового відтворення музики заснований на рекомендаційної системі «Music Genome Project». Користувач вибирає музичного виконавця, після чого система шукає схожі композиції, використовуючи близько 400 музичних характеристик (наприклад, тональність, гармонія тощо). Використовуючи функції «подобається» чи «не подобається», слухач часто може налаштувати «радіостанцію» на свій смак. У базі даних системи понад мільйон композицій і більше ста тисяч виконавців. Зареєстрований користувач може створити в своєму профілі до 100 різних «радіостанцій», що транслюють музику в тих чи інших жанрах. Медіапрогравач Pandora доступний для різних пристроїв, платформ та операційних систем.

У сервісі працює 50 професійних музикантів, основна задача яких - уважно прослуховувати та аналізувати музичні композиції. Pandora поставила амбіційне завдання «перевірити алгебру гармонію», де кожна композиція оцінюється за множиною критеріїв, кількість яких вже перевищує 400. Для того, щоб підкреслити масштабність своєї роботи, компанія дала назву «Music Genome Project» (Проект Геном Музики) за аналогіями з програмою, посвященной розшифровкою генома людини.

У стилі музики є різна кількість ознак - «генів»: від 150 для поп-музики до 500 для класики. Стійкі поєднання кількох «генів» називають «відмінними рисами» і використовуються. На тепер кількість таких відмінних рис понад 2000.

Така солідна база «геномів» пісень використовується для складання рекомендацій, розшукуючи «генетичних родичів» тих композицій, що подобаються слухачеві. Клієнт після отримання рекомендації, може її підтвердити або ні, ця відповідь також запам’ятовується системою, що забезпечує зворотний зв'язок. Введення запиту реалізовано досить примітивно, шляхом простого введення користувачем виконавця або композиції, аналогічно пошуковим системам.

Нажаль для українських слухачів цей сервіс наразі недоступний.

Last.fm

Методика сервісу Last.fm принципово ніж в Pandora, де враховано поради професіоналів, в Last.fm - поради любителів.

Головна цінність Last.fm - це не створена копіткою працею музикантів-професіоналів база, а його спільнота, яка налічує понад 21 мільйона активних користувачів. Профайли цих користувачів, які добровільно діляться з сервісом інформацією про те, які композиції вони прослуховують і складають унікальну базу даних Last.fm, на підставі якої робляться рекомендації. Окрім рейтингів інших користувачів Last.fm використовує виключно "зовнішні" дані про музику - автор, стиль, дата, теги тощо. Таким чином, на сервісі реалізовано концепцію контенту, що генерується користувачами (User Generated Content). Це вимагає від її співробітників менше часу і сил, ніж метод Pandora, але потрібно більше вкладень в рекламу та розкрутку.

Очевидно, що Last.fm і Pandora засновують свої сервіси на різних ідеях. У Pandora в центрі знаходиться музика і спроба зрозуміти її, проаналізувати, розкласти на складові. У Last.fm в центрі уваги користувач, його інтереси й уподобання, його взаємодія з іншими людьми, спілкування і обмін інформацією з ними. Обидві ідеї є цікавими, і ці сервіси цілком можна використовувати спільно. Pandora знадобиться, коли треба знайти музику, схожу на щось вже відоме. Last.fm хороший, коли шукають новий матеріал, що подобається людям зі схожими уподобаннями.

LinkedIn

LinkedInLinkedIn - сайт бізнес-орієнтованої соціальної мережі. Пропонує користувачеві рекомендації щодо знайомих людей, відповідні до його фаху робочі місця та компанії. Для формування рекомендацій застосовується система коллаборатівной фільтрації, що заснована на технології Apache Hadoop.

Порядок роботи

  1. Ознайомитися теоретичними відомостями щодо рекомендаційних систем, відмітити особливості та можливості.
  2. Здійснити низку експериментів з наведеними сервісами. Відмітити якість наданих рекомендацій.
  3. Самостійно знайти інший сервіс, що використовує рекомендаційну систему, дізнатися на яких алгоритмах працює, які фактори враховуються. Оцінити якійсть наданих рекомендацій.

Зміст звіту

  1. Назва та мета виконання лабораторної роботи.
  2. Скріни етапів виконання роботи, короткий опис здійснених робіт та результати використання наведених сервісів.
  3. У висновку оцінити можливості використаних сервісів з рекомендаційними системами, їх особливостей та функціональних можливостей.