Разработчики: | Яндекс (Yandex) |
Дата последнего релиза: | 2023/10/05 |
Отрасли: | Интернет-сервисы |
Аудитория сервиса
2023: Борьба еврочиновников с монополией Google привела к росту популярности «Яндекса» в ЕС
В середине октября 2023 года стало известно о том, что антимонопольные разбирательства в отношении Google в Европейском союзе привели к росту популярности «Яндекса» на территории данного региона. Российский сервис вошел в пятерку самых популярных поисковых систем на устройствах под управлением Android в Германии, Италии, Чехии, Дании и в некоторых других европейских странах.
Под давлением регуляторов ЕС компания Google, входящая в состав холдинга Alphabet, была вынуждена предоставить владельцам смартфонов и планшетов на базе Android возможность выбора конкурирующих поисковиков для использования по умолчанию. Данная мера касается 23 европейских государств. Через экран выбора пользователи могут указать одну из пяти самых распространенных поисковых систем.
По оценкам StatCounter, доля «Яндекса» на европейском рынке мобильных поисковых сервисов по итогам сентября 2023 года составляет 2,75%. Для сравнения, Google контролирует 95,35% соответствующего сегмента. Еще 0,53% приходится на Bing, приблизительно 0,49% — на DuckDuckGo и около 0,43% — на Yahoo. Таким образом, Google продолжает доминировать на рынке мобильного поиска в ЕС, несмотря на борьбу чиновников с монополией корпорации.
Вместе с тем в сентябрьском обновлении санкционного списка Евросоюз обвинил «Яндекс» в том, что компания «ответственна за продвижение государственных СМИ и определенного контента в результатах поиска, а также в понижении рейтинга и удалении некоторых материалов, в частности, связанных со сложившейся геополитической обстановкой». Российский поисковик категорически отвергает эти претензии, заявляя, что не корректирует алгоритмы «под какую-либо политическую сторону». Тем не менее, европейские регуляторы «обеспокоены тем, что «Яндекс» доступен в странах ЕС».[1]
2014
По данным TNS, в мае 2014 года результаты поиска в "Яндексе" в среднем просматривали 20,4 млн человек в сутки.
Инвертированный индекс
Поисковая машина устроена как индекс в книге, где каждому слову соответствует перечисление тех страниц, на которых оно содержится. Это одна из базовых структур для поиска, хотя и не единственная. Такой индекс (он называется инвертированным) содержит идентификатор слова и перечисление документов, в которых он содержится. В нем же указаны словопозиции, то есть места, в которых в данном документе слово встречается. Знание о словопозиции очень важно для поиска: одно дело — когда слово встречается мельком в одном из абзацев, другое дело — когда оно содержится в заголовке документа.
Индекс — это слово и все словопозиции во всех документах, где оно встречается. Каждая словопозиция кодируется 64 битами, в них зашифрован ID документа (в поисковом индексе Яндекс на июнь 2013 года только русских документов более 5 миллиардов, еще в два раза больше — на других языках), зона, в которой встречается это слово, номер предложения, номер слова в предложении и несколько служебных битов.Известный писатель-фантаст Сергей Лукьяненко выступит на TAdviser SummIT 28 ноября. Регистрация
В индексе записаны не сами слова, а леммы, то есть их основные грамматические формы. Например, если в документе написано «Мой дядя самых честных правил», слово «честных» будет записано как «честный», а рядом будет указан код грамматической формы. Таким образом, базовый лингвистический анализ проводится уже на этапе составления индекса, а не во время поиска. Получается, что если мы ищем отдельное слово, то результат поиска уже записан в индексе.
Прюнинг
Если слов в поиске два или больше, например, слова «дядя» и «правило» в индексе представлены как отдельные сущности и никак друг с другом не связаны, то как поисковая машина находит те документы, в которых встречаются они оба? Неужели перебирает все подряд?
Во-первых, не все документы надо перебирать. Представьте себе список всех проиндексированных документов по идентификаторам: № 1, 2, 3 и так далее. Этот список обычно отсортирован по степени «полезности» страниц. Это называют прюнинг от английского слова pruning, обрезка, подрезка (ветвей деревьев). И вот, если само слово «правило» встречается в документе N100, а вместе со словом «дядя» — в N1000, то документы с 1 по 999 можно просто пропустить.
Во-вторых, находить пересечения страниц не так уж и сложно. Мы сравниваем записи в индексе для слов «дядя» и «правило» и находим общие номера документов. Как правило, на первую страницу попадают только документы, которые находятся ближе к началу списка документов, отсортированных по прюнингу, поэтому до конца искать все пересечения не обязательно.
Факторы ранжирования
После того как эти первые пересечения найдены, нужно их ранжировать, или отсортировать, то есть расположить в таком порядке, чтобы более релевантные оказались выше, чем менее релевантные для данного конкретного запроса. От того, как производится ранжирование, собственно, и зависит качество поиска. Когда мы формируем ответ на запрос, для ранжирования результатов используются самые разные факторы. На июнь 2013 года у «Яндекса» таких факторов около восьми сотен, и далеко не все они берутся из инвертированного индекса.
Среди факторов ранжирования, конечно же, не только количество искомых слов в документе, но и:
- посещаемость сайта,
- посещаемость страницы,
- ссылки на документ,
- предпочтения пользователей по конкретным запросам.
Индекс пользовательских интентов
Для того чтобы это использовать, у Яндекса имеется уже другой индекс — по вероятности перехода на сайты по популярным пользовательским интентам (от английского слова intent — «намерение»), то есть в зависимости от того, что пользователь хочет сделать.
Например, по одним запросам пользователь хочет с большей вероятностью увидеть энциклопедическую информацию, по другим — мультимедийный контент, по третьим — сделать покупку.
Такой список классов популярных интентов составляется не вручную. В Яндексе создают этот список на основании анализа логов поведения пользователя. На июнь 2013 года «Яндекс» получает в день около 200 миллионов запросов, по каждому из которых пользователь кликает — опять-таки в среднем — на два сайта. Логи со всеми запросами в компании какое-то время хранят в большом кластере. На июнь 2013 года там что-то вроде восьми петабайт данных.
При наличии этих данных можно тестировать самые разные модели поведения пользователя. Например, не очень показательно, если на сайт просто часто переходят по данному запросу — это может говорить о том, что на этом сайте текст (который видит пользователь в поисковой выдаче) и заголовок удачно составлен. Другое дело, как дальше пользователь взаимодействует с этим сайтом и поисковой выдачей — по этим вещам уже можно судить, нашел ли он там то, что искал.
Это сама по себе нетривиальная задача, и, кроме того, оценка успешности ее решения всегда очень субъективна. В "Яндексе" есть некоторые модели, которые пытаются на основании графа переходов пользователя понять, нашел ли он то, что ему нужно.
Информацию о переходах в "Яндексе" получают прежде всего от браузеров.
"Крипта": Что знает "Яндекс" о пользователе
Информация о пользователе в базе «Яндекса» это и набор запросов, посещенных сайтов и тому подобного и этоо что-то вроде «мужчина от 20 до 30, неженатый, любящий котиков».
Что касается социальной демографии, то для нее была разработана технология «Крипта». Она основана на том же машинном обучении «Матрикснет». В качестве обучающей выборки использовались поисковые запросы миллиона людей из соцсети "Яндекса" «Мой круг», где известны пол и возраст человека и эти данные с большой вероятностью соответствуют действительности.
«Крипта» позволяет с неплохим результатом предсказывать пол и возраст человека, и это важно для рекламы, где она и используется. Но каким-то чудесным образом вся эта социальная демография не очень помогает ранжированию. История запросов оказывается здесь гораздо важнее. Она во много раз больше говорит о том, что человек сейчас хочет, чем его пол и возраст.
Очень показательные примеры видны с путешествиями. Если, например, человек некоторое время ищет слова «Турция», «Тунис», то потом машина понимает, что при запросе «Мадагаскар» он имеет в виду не фильм, а остров. Все потому, что словам из запроса сопоставляются некие категории в дереве «Матрикснета». С этой точки зрения пользователь «Яндекса» выглядит как разреженное пространство из слов запроса, категорий сайтов, которые он посещал.
Можно ли поднять в выдаче нужные сайты
В июне 2013 года в "Яндексе", что пожелания (например, Мнкультуры) поднимать в поисковой выдаче правильные с чьей-то точки зрения ресурсы вообще не реализуемы.
"У нас же машинное обучение, оно, как зеркало, отражает именно то, что хотят найти пользователи. Мы фанаты машинного обучения, мы вообще никогда не вмешиваемся в поиск «вручную»," - говорил в июне 2013 года, Андрей Стыскин, начальник отдела ранжирования "Яндекс"[2].
Новые факторы ранжирования результатов имеют весьма ограниченный срок годности. Например, существуют поисковые оптимизаторы, люди, которые пытаются обмануть поисковую машину и поднять определенный URL в выдаче. В "Яндексе" есть целый отдел для борьбы с таким явлением. Возьмите хваленый алгоритм pagerank, анализирующий граф ссылок на страницах. Когда оптимизаторы поняли, как он работает, сеть стала просто забита ссылками, и в 2013 году pagerank не имеет практически никакого смысла.
2019
Пять компаний обвинили "Яндекс" в ограничении доступа к их сайтам
Несколько компаний, среди них онлайн-кинотеатр ivi.ru, обвинили в июне 2019 года "Яндекс" в ограничении доступа к их сервисам и нарушении закона о конкуренции, пишут "Ведомости" со ссылкой на записку, которую подготовили компании. Кроме ivi в число этих компаний входят Avito, "ЦИАН", Profi.ru и "2ГИС"[3].
По мнению компаний, ресурсы, связанные с "Яндексом" получают приоритет в выдаче поисковика. Утверждается, что это происходит благодаря "колдунщикам", то есть интерактивным ответам на запросы, которые появляются в результатах поиска сразу после рекламы и перед органической выдачей. При этом доступ к "колдунщикам" имеют только сервисы, которые связаны с "Яндексом".
Что ответил «Яндекс»:
- «Яндекс» никогда не понижал естественные позиции других компаний в поиске и никогда не мешал другим компаниям рекламироваться в «Яндекс.Директ». Религия «Поиска» — пользовательские метрики, а религия «Директа» — равный доступ в контекстной рекламе.
- «Колдунщики» (блоки с информацией от связанных с компанией сервисов) «Яндекса» не зафиксированы в верхней позиции, они появляются в результатах выдачи, только когда они повышают качество ответа на запрос пользователя. И в этом большое отличие от антимонопольного разбирательства в Европе с сервисом Google Shopping.
- Мы всегда были открыты к партнерствам. В частности, мы уже однажды делали попытку предоставить более сложный и структурированный формат сниппета в поиске компаниям-партнерам (программа «Острова» 2014 года), но тогда компании не были готовы к интеграции с «Поиском». При этом специальный структурированный формат, аналогичный «колдунщику», существует сейчас и в «Яндекс.Директ».
- «Яндекс» сейчас работает над следующей версией — новым специальным интерактивным форматом в «Директе», который предоставит расширенную функциональность компаниям-партнерам. Однако по-прежнему превыше всего остаются пользовательское метрики.
- В ответ мы ожидаем встречных действий компаний (в том числе от всех авторов письма). Мы надеемся, что ссылки на сервисы «Яндекса» смогут появиться, например, на выдаче «Авито» («Авто.ру» и «Яндекс.Недвижимость»), на 2ГИС («Навигатор» и «Справочник»), на ivi («Кинопоиск»), на «Кассир.ру» и т.д.
- Мы бы хотели присоединиться к авторам письма и расширить список его адресатов до других компаний. Например, все мы должны получить равный доступ к выдаче поиска Google, Mail и Rambler.
- Мы бы хотели поддержать авторов письма и запретить запрещать доступ к ресурсам крупных рекламных сетей. В отличие от «Яндекс.Директ» (который допускает любых конкурентов к площадке), некоторые крупнейшие рекламные площадки (включая часть авторов письма) просто запрещают размещение конкурентов у себя.
- Письмо затрагивает важные проблемы, но их нужно обсуждать в контексте общих принципов взаимоотношений в отрасли. Мы всегда открыты для такой дискуссии.
Процесс улучшения поиска
2023: Добавление видеобаннера
Медийный инвентарь Яндекса пополнился премиальным форматом. Видеобаннер показывается справа от поисковой выдачи и позволяет привлечь внимание до 85 миллионов пользователей Поиска. По результатам первых тестов рекламодателей, данный формат помог повысить знание о бренде и увеличить конверсии. Об это разработчик сообщил 5 октября 2023 года.
Видеобаннер состоит из ролика до 15 секунд, логотипа, картинки, текстового блока и кнопки для перехода на сайт или оформления покупки. Видео воспроизводится автоматически, а звук включается по инициативе пользователя.
Одно из наших ключевых направлений — расширение линейки медийного инвентаря с учетом трендов рынка. Востребованность видеорекламы продолжает расти, поэтому мы добавили Видеобаннер в поиске. Данный формат позволит привлечь больше внимания пользователей к рекламируемому продукту, увеличить брендовые метрики, а также, как показывают первые размещения наших партнеров, обеспечить рост конверсионных показателей, — отметил руководитель подразделения по развитию медийных проектов Яндекса Анна Сорокина. |
Видеобаннер работает по модели с фиксированной стоимостью за тысячу показов (fixCPM). Оценить эффективность видеобаннера можно с помощью привычных метрик видеорекламы, Brand Lift и post-campaign отчетов.
2022
Запуск на страницах go.mail.ru и mail.ru
Страницы go.mail.ru и mail.ru начали работать с поисковой строкой «Яндекса», ранее холдинг VK использовал собственные технологии поисковой системы. Об этом стало известно 13 декабря 2022 года. Подробнее здесь.
Запуск Y2 с закадровым переводом в поисковом видео, с поиском объектов, с появлением детских аккаунтов и больших тем
28 ноября 2022 года компания Яндекс сообщила о запуске обновленной версии поиска — Y2. Самое важное в обновлении: поиск видео с закадровым переводом, поиск объектов, появление детских аккаунтов и большие темы. Главная страница (ya.ru) и мобильное приложение Яндекс теперь сфокусированы именно на поиске.
Главная страница и приложение
На главной Яндекса и в приложении всё внимание направлено на поисковую строку. Задать вопрос можно любым способом — текстом, голосом или с помощью картинки. Чтобы воспользоваться визуальным поиском, достаточно навести умную камеру на объект или загрузить изображение из галереи телефона.
Поиск объектов, а не сайтов
Y2 поможет выбрать врача, онлайн-курс или товар. Теперь поиск не только индексирует веб-страницы, но и находит на них информацию об объектах, аккумулирует её и показывает в поисковой выдаче. Человеку не нужно самому изучать разные сайты, чтобы выбрать курс по Python или, например, найти педиатра. Всё важное можно узнать в результатах поиска.
Информация будет представлена в структурированном виде. Так, по запросу веб-разработка курсы Яндекс покажет список учебных программ с ценой, сроком обучения и отзывами слушателей. Останется только выбрать подходящий курс и перейти на сайт учебного центра. В поиске Яндекса есть более 22 тысяч образовательных курсов, 730 миллионов товаров, а также 740 тысяч врачей разных специальностей.
Большие темы
С помощью Y2 возможно решать задачи, в которых не разобраться за пять минут. Это может быть организация свадьбы, покупка жилья или машины. Яндекс научился видеть за отдельными запросами долгосрочный интерес к той или иной теме и структурировать собранную человеком информацию — чтобы к ней можно было вернуться в один клик. На ya.ru и в приложении появляется блок, где легко найти историю своих запросов по теме, сохранённые статьи и подсказки, на что ещё обратить внимание.
Поиск Яндекса выделяет такие большие темы, как образование, карьера, финансы, семья, квартира, ремонт и так далее. Чтобы распознать интерес к той или иной тематике, Яндекс применяет сложный классификатор на основе генеративной нейронной сети YaLM.
Видео с переводом
В Y2 есть фильтры для поиска видео с автоматическим голосовым переводом на русский язык. Например, чтобы сварить луковый суп, можно посмотреть французский видеорецепт с закадровым переводом. Уже доступен перевод видео с английского, немецкого, французского, итальянского и испанского языков. Он работает в приложении Яндекс и в Браузере.
Яндекс умеет быстро переводить видео, даже если это стриминг. Теперь можно в прямом эфире смотреть международные конференции или, например, интервью с иностранцами. Причём это будет многоголосый машинный перевод, в основе которого лежат сложнейшие технологии.
Детский аккаунт
Чем старше ребенок, тем больше вопросов он задаёт поиску. Чтобы дети познавали мир в безопасной среде, в Y2 появились детские аккаунты. Они защищают ребёнка от неподходящего по возрасту контента, например, сайтов для взрослых или с нецензурной лексикой. Детский аккаунт можно привязать к своему. Он будет работать не только в поиске, но и на других сервисах Яндекса: в частности, в Музыке и на Кинопоиске.
Поиск для программистов
Y2 лучше отвечает на вопросы разработчиков и ML-специалистов. Для этого в поиск внедрили нейросеть-трансформер CS YATI, которую обучили на запросах по программированию и оценках разработчиков. Данная нейросеть учитывает в полтора раза больше параметров, чем запущенная два года назад YATI. В дальнейшем Яндекс будет использовать обновленный трансформер для улучшения ответов на другие узкоспециальные запросы.
Улучшение поиска с помощью нейросети CS YATI
Яндекс 21 сентября 2022 года сообщил об улучшении поиска с помощью нейросети CS YATI — это обновленная модель, обученная на документах для ИТ-специалистов и оценках экспертов по программированию. Поисковая выдача для разработчиков и ML-специалистов стала более качественной, а навигация по запросам — удобной.
Обновленная модель учитывает в полтора раза больше информации со страницы, чем её предыдущая версия — YATI. Обновлённая нейросеть-трансформер проанализировала множество поисковых запросов и сайтов, которые показываются по запросам, связанным с программированием. Это помогает ей лучше оценивать качество и релевантность документа запросу. Пропустив через себя терабайты документов о программировании и историю поиска экспертов, CS YATI также научилась предсказывать клики квалифицированных программистов, чтобы выдать наиболее релевантный ответ.
Яндекс существенно доработал обогащённый ответ Stack Overflow. Прямо в результатах поиска, без перехода на сайт, пользователь увидит дополнительную информацию: сам вопрос, лучший ответ на него и другие комментарии, которые могут пригодиться программистам. Яндекс также улучшил отображение сниппетов для GitHub и NPM, добавив туда полезную информацию.
Известно, что львиная доля программистских запросов — это запросы на английском языке. CS YATI обучалась в основном на англоязычных источниках. Мы не просто улучшили поиск для программистов: в процессе мы ещё и улучшили поиск по англоязычным источникам, отметил Алексей Гусаков, руководитель управления машинного интеллекта и исследований.
|
Стартовая страница ya.ru
Яндекс 23 августа 2022 года сообщил о том, что откажется от новостного агрегатора и будет развивать ya.ru в качестве своей главной страницы. После закрытия сделки по продаже медийных активов — Дзена и Новостей — ya.ru станет основной точкой входа в Поиск, Почту и другие сервисы компании, включая личный кабинет пользователя Яндекс ID. Также компания выпустит для Android обновленной приложение Яндекс с Алисой.
Ядром обновленной главной страницы и приложения будет Поиск. На ya.ru пользователям будут доступны универсальный поиск — чтобы искать что угодно где угодно, поисковые вертикали — чтобы находить, например, картинки или товары, и Алиса — чтобы быстро получать ответы.
Существующее приложение Яндекс для Android сменит название на Яндекс Старт. Оно будет функционировать как браузер, а пользователи получат возможность выбрать стартовую страницу в настройках. Приложение Яндекс для iOS продолжит работать как раньше, но без Дзена и Новостей.
Бывшая медийная главная Яндекса после закрытия сделки станет порталом dzen.ru и перейдёт под управление VK. Также VK получит права на технологии и товарные знаки Дзена и Новостей.
Обязывающее соглашение, в рамках которого VK покупает Дзен и Новости, а Яндекс — сервис доставки еды Delivery Club, компании подписали 22 августа. Сделку планируется закрыть в ближайшие месяцы; она требует согласования с Федеральной антимонопольной службой[4].
Возможность отслеживания и сравнивания цен на товары в поиске
Компания Яндекс сообщила 5 августа 2022 года о том, что в поиске теперь можно следить за ценами на товары.
Выбрать удобный момент для запланированной покупки стало проще. В поиске Яндекса по товарам теперь можно посмотреть, как менялась их стоимость. Минимальная цена, по которой за последнее время продавался нужный пользователю товар, показана в его карточке. Наглядный график помогает решить, делать покупку сейчас или есть смысл подождать.
В карточке товара можно подписаться на уведомления о снижении цены. Когда заинтересовавший пользователя телевизор или, например, кофемашина подешевеет, об этом поступит сообщение.
Если пользователь участвует в программах лояльности магазинов, в поиске будет отмечено, какой кэшбек или сколько бонусных баллов начислят за покупку.
При этом решить, где конкретно покупать, тоже стало проще — благодаря рейтингам магазинов и отзывам других покупателей.
С обновлением в поиске появились удобные и полезные фильтры. Можно искать только по продукции любимого бренда или устанавливать определенные характеристики модели, а раздел «Вы смотрели» поможет не упустить интересные находки.
Поиск по товарам помогает определиться с моделью, найти действительно выгодную цену, а также дает возможность оценить надежность продавца. Покупки, особенно крупные, требуют времени на изучение вариантов, на сравнение предложений в разных магазинах. Компания настроена, чтобы пользователь сэкономил время, также хотим упростить задачу, убрать из нее рутину и оставить только удовольствие от покупки, прокомментировал руководитель направления ecom в поиске Яндекса, Сергей Ляджин.
|
Яндекс запустил поиск по товарам в начале 2022 года. Он позволяет сравнивать цены в магазинах и на маркетплейсах. Поучаствовать в этом может и персональный помощник Алиса — достаточно сказать «Алиса, где дешевле» и указать нужную вещь. Недавно Алиса научилась подбирать для пользователей электронику и бытовую технику. Она задает простые вопросы, а потом предлагает самые подходящие варианты.
Возможность для всех рекламодателей размещать рекламу под строкой Поиска
Яндекс 7 июня 2022 года сообщил об открытии для всех рекламодателей возможности размещать рекламу в карточках прямо под строкой Поиска. Ранее этот инструмент был доступен только для рекламы товаров из категорий электроника, бытовая техника, товары для дома и ремонта, а также одежда.
Товарная галерея — одно из самых заметных мест для размещения рекламы на Яндексе. Этот инструмент состоит из несколько карточек товаров из разных магазинов, которые расположены сразу под поисковой строкой. Они содержат фотографию товара, цену, домен торговой площадки, а также скидку или акцию, если они есть. Рекламодатели, которые уже попробовали Товарную галерею, получили на 19% больше конверсий в покупку и на треть снизили рекламные расходы.
В потоке информации и в условиях ограниченного времени, пользователь хочет сразу получить быстрый ответ на свой запрос. За счет визуализации и выгодной позиции, Товарная галерея позволяет сразу показать пользователю то, что он хочет увидеть, а бизнесу сократить время до совершения заказа, — сказал руководитель отдела по взаимодействию с ключевыми партнерами в Яндексе Виктор Грязнов. |
Для размещения объявлений в товарной галерее действует отдельный аукцион. А статистика по размещению в товарной галерее доступна в Мастере отчетов.
«Яндекс» убрал из поиска сайты Instagram, Facebook и заблокированных в России изданий
18 апреля 2022 года «Яндекс» объявил об удалении из поисковой выдачи официальных сайтов Instagram и Facebook (запрещены в России; принадлежат компании Meta, которая признана в РФ экстремистской). То же самое сделал VK.
Как сообщает ТАСС со ссылкой на пресс-службу «Яндекса», при введении названий соцсетей в поисковой строке «Яндекса» теперь возникает сообщение: «Некоторые ссылки отсутствуют в результатах поиска в силу требований законодательства РФ». Кроме того, поисковой сервис «Яндекса» вместо официального сайта выдает ссылку на приложение в Google Play, статью о соцсети в «Википедии» и предложения о скачивании файла приложения для Android со сторонних сервисов.
Согласно законодательству РФ, поисковые системы обязаны исключать ссылки на сайты и их "зеркала", как только Роскомнадзор вносит их в реестр [запрещенных] — объяснили в компании и добавили, что синхронизация с реестром происходит автоматически. |
Также из поиска были удалены сайты «Медузы», «Медиазоны» и «Настоящего времени» (признаны в России СМИ-иноагентами).
В пресс-службе VK добавили ТАСС, что компания действует в соответствии с законом и предписаниями регулятора.
Ранее в 2022 году в Роскомнадзорае сообщили, что российские СМИ не должны демонстрировать логотипы организации Meta и принадлежащих ей социальных сетей Facebook и Instagram. Cоциальные сети Facebook и Instagram запрещены в России по решению суда за экстремизм. При этом решение суда о запрете деятельности Meta (Facebook и Instagram) в России не распространяется на мессенджер WhatsApp.[5]
2021
«Яндекс» изменил правила работы с видеохостингами для борьбы с пиратством
«Яндекс» с начала 2022 года будет исключать из поисковой выдачи видео партнеров, не подписавших соглашения о борьбе с пиратством. Об этом стало известно 2 декабря 2021 года.
Поиск «Яндекса» индексирует материал, размещенный в публичном доступе, но не имеет возможности проверить его легальность. Это могут сделать видеохостинги, размещающие контент. После подписания соглашения партнер будет нести ответственность за свой контент и обязуется принимать необходимые меры для препятствования распространения пиратских материалов.
На декабрь 2021 года «Яндекс.Видео» в результатах поиска показывает около 30 видеоплееров других сайтов. По итогам 2020 года крупнейшими по просмотрам сторонними видеоплеерами стали YouTube, Rutube, Одноклассники, ВКонтакте, Mail.ru.
В VK Видео не намерены заключать соглашение с Яндексом и работают над тем, чтобы открыть доступ к видеоконтенту «без помощи поисковых систем». В компании сообщили, что после запуска объединенной платформы VK Видео в течение последней недели фиксировали кратное снижение просмотров видео из Яндекса.
«Яндекс» планировал, что данная политика вступит в силу в ноябре 2021 года, однако идет навстречу партнерам, не успевшим подписать соглашение, и передвинул сроки на начало 2022 года[6].
Российские власти принудительно сделали «Яндекс» поисковиком по умолчанию на всех гаджетах
Российские власти в третий раз за последние два месяца расширили список предустанавливаемых программ на продаваемые в России устройства. Также они утвердили «Яндекс» в качестве основного поисковика, выбранного по умолчанию. Об этом стало известно 28 сентября 2021 года. Подробнее здесь.
Кардинальное обновление поисковика
10 июня 2021 года «Яндекс» сообщил о радикальном обновлении (оно получило название Y1) своего поисковика. По словам разработчиков, ими было реализовано более 2100 улучшений. Пять наиболее приметных из них перечисляет сама компания:
Поиск фрагмента видео
С 10 июня 2021 года по запросу, например, «как приготовить стейк из тунца» «Яндекс» покажет видеорецепт, а также предложит пользователю сразу включить видео с того места, где рассказывают суть. Для того чтобы найти нужный фрагмент, поиск сопоставляет смысл запроса с содержанием видео: и с картинкой, и со звуковой дорожкой.
Быстрые ответы
В поиске «Яндекса» стало больше быстрых ответов, и они стали разнообразнее. Теперь пользователи могут спросить «как приручить лошадь в майнкрафте» или «скрытые фичи айос» и получить ответ прямо в результатах поиска. В обновлении «Яндекс» впервые применил генеративные нейросети YaLM, которые умеют составлять тексты на русском языке и помогают давать ответы поиску и голосовому помощнику «Алиса».
Умная камера
В приложении работает обновлённая «умная» камера, которая может распознать объекты, подсказывать, сколько они стоят и где их можно купить, переводить с иностранных языков и автоматически улучшать сканы документов. В компании отметили, что камера стала в пять раз лучше распознавать объекты в кадре в реальном времени.
Отзывы об организациях
Люди часто выбирают кафе, магазины и другие организации по отзывам. Для того чтобы люди могли быстрее принять решение, «Яндекс» начал анализировать отзывы, обобщать их и показывать в результатах поиска визуальную шкалу оценок.
Определитель номера и блокировка спам-звонков
Пользователи приложения «Яндекс» на iOS и Android могут включить автоматический определитель номера, чтобы избавиться от нежелательных звонков. В компании сообщили, что в июле 2021 года сервис научится не только определять, но и автоматически блокировать или заглушать такие звонки.
2020: Доступность в AppGallery
8 апреля 2020 года стало известно о полной интеграции всех мобильных приложений компании Яндекс в магазин приложений AppGallery. Подробнее здесь.
2019: Мгновенный, точный поиск и ему помогают люди
«Яндекс» запустил в конце декабря 2019 года обновление поисковика под названием «Вега». Об этом CNews сообщила пресс-служба компании. По сравнению со старой версией в «Вегу» за последний год было добавлено более 1,5 тыс. улучшений, отмечает «Яндекс»[7].
В частности, теперь поисковик выдает более точные и быстрые ответы на запросы, а поисковый алгоритм обучается с учетом сигналов от экспертов по оценке. Также появилась возможность гиперлокального поиска в конкретном микрорайоне, квартале или даже доме.
Руководитель поискового портала «Яндекса» Андрей Стыскин отметил, что обновление включает в себя новую систему хранения веб-документов, технологию предзагрузки результатов поиска и другие решения. По его словам, доля поиска «Яндекса» на всех платформах в настоящий момент достигает 57,9%, а доля на Android за год показала рост на 4,8 процентных пункта и составила 54,7%. |
Поисковая база теперь составляется с помощью нейросетей, которые сортируют веб-документы по «смысловым кластерам», объединяя близкие по смыслу документы. Ориентируясь на смысл поискового запроса, система ищет ответы не во всей базе, а в подходящих кластерах. Это помогает экономить время и вычислительные ресурсы. Образовавшийся излишек ресурсов позволил вдвое расширить объем базы. Благодаря этому теперь в поисковую выдачу падают даже те страницы, к которым пользователи обращаются один-два раза в год.
В мобильный поиск была встроена технология пререндеринга — предварительной загрузки результатов поиска. Технология пытается предсказать полный текст поискового запроса еще на той стадии, когда пользователь набрал только первые слова. По результатам этого прогноза поисковик заранее формирует поисковую выдачу и показывает ее сразу же после нажатия кнопки «Найти». Такой подход позволяет сэкономить время, особенно если интернет у пользователя работает медленно.
Под строкой поиска в выдаче есть подсказки, которые могут дать пользователю ответ на его вопрос без перехода на сайты. «Яндекс» сообщает, что за последний год количество случаев, когда пользователю хватило информации из подсказки, выросло на 20%.
Также «Яндекс» усовершенствовал технологию турбо-страниц, рассчитанную на владельцев сайтов. Речь идет об особых версиях веб-страниц, которые загружаются, когда пользователи переходят на сайт из поисковика на мобильных устройствах. Смысл технологии в том, что турбо-страницы загружаются быстро — в настоящий момент в 15 раз быстрее обычной мобильной версии сайта. В 75% случаев нужная информация показывается пользователю менее чем за секунду.
Помимо этого в «Веге» заработал новый алгоритм ранжирования результатов, который предполагает участие людей — экспертов по оценке, так называемых асессоров. Каждый асессор является специалистом в определенной области, все они проходят отбор. Например, если эксперт по профессии гидролог, то он знает, какую информацию лучше всего показать пользователю по запросу «образование двухэтажных рек». Со своих позиций как специалиста он дает экспертную оценку того, насколько хорошо поисковая выдача раскрывает тему запроса. Для обучения нового алгоритма оценка экспертов является более важным сигналом, чем какие-либо другие.
Также «Яндекс» объявил о запуске сервиса «Кью», где пользователи могут задать вопросы ученым, профессионалам и просто хорошо разбирающимся в какой-то теме людям и получить от них ответы. Сервис объединил в себе возможности TheQuestion и «Яндекс.Знатоков». Ответы экспертов «Яндекс» показывает в поисковой выдаче по соответствующим запросам. Компания уверяет, что язык ответов будет понятен рядовому пользователю.
В «Веге» появилась возможность гиперлокального поиска, который учитывает, в каком микрорайоне находится пользователь. С этой же целью были обновлены сервисы «Район» и «Услуги». Напомним, «Район» — это соцсеть для соседей по району, и теперь там есть чаты для общения жильцов из одного дома. В чате можно спросить, не видел ли кто-нибудь сбежавшего кота, или обсудить поломку лифта. «Услуги» — это сервис поиска специалистов, сюда была добавлена функция отображения предложений на карте. Через этот сервис можно найти ребенку репетитора или вызвать сантехника, который сможет быстро прийти.
2017: Поиск «Яндекса» научился сопоставлять смысл запроса и веб-страницы
23 августа Яндекс запустил очередную версию поиска. В её основе лежит поисковый алгоритм «Королёв» — с помощью нейронной сети он сопоставляет смысл запроса и веб-страницы. Благодаря этому поиск понимает, что именно нужно пользователю и отвечает на сложные вопросы ещё более точно. В обновленном поиске шире используется поисковая статистика и учитываются оценки пользователей Яндекс.Толоки.
Как рассказали в компании, первый шаг к поиску по смыслу Яндекс сделал в прошлом году, внедрив алгоритм «Палех», в основе которого лежит нейронная сеть — он в реальном времени сопоставляет смысл запроса и заголовка веб-страницы. Яндексу удалось тогда научить нейронную сеть преобразовывать поисковые запросы и заголовки веб-страниц в группы чисел — семантические векторы.
Поисковый алгоритм «Королёв» сравнивает семантические векторы поисковых запросов и веб-страниц целиком, а не только их заголовков. Это позволяет выйти на новый уровень понимания смысла, подчеркнули в компании. Это сложная вычислительная задача, поэтому Яндекс определяет суть страницы заранее, на этапе индексирования. Благодаря этому количество страниц, которые поиск сравнивает по смыслу с запросом, выросло со 150 документов до 200 тысяч. Другая важная особенность «Королёва» в том, что, помимо сопоставления смысла запроса и страницы, он учитывает ещё и смысл других запросов, по которым люди на неё переходят.
Чтобы нейронная сеть могла оценить смысловую близость запроса и документа, ей требуется огромное количество примеров. Такие примеры, по словам представителей Яндекса, даёт обезличенная поисковая статистика: на какие сайты люди переходят по запросам и сколько времени там проводят. Так, если человек перешёл на страницу и просматривал её какое-то время, скорее всего, она близка по смыслу запросу. Используя поисковую статистику миллионов людей, Яндекс учится понимать смысловые связи. Например, он поймёт, что в запросе [картина где небо закручивается] речь идёт о картине Ван Гога, а в запросе [ленивая кошка из монголии] — о мануле, пояснили в компании.
Поиск — это очень сложная система. Тысячи инженеров работают над тем, чтобы она понимала человека и помогала решать его задачи. В "Королёве" мы объединили машинный интеллект и усилия миллионов людей. Наши пользователи улучшают поиск вместе с нами, задавая вопросы и помогая обучать наши алгоритмы, — заявил Андрей Стыскин, руководитель Поиска Яндекса. |
Для обучения поисковой системы нужны также оценки качества ответов. При этом чем сложнее система, тем больше оценок требуется. Раньше Яндекс оценивал качество поиска с помощью своих специалистов — асессоров. Теперь учитываются также оценки, которые выставляют пользователи Яндекс.Толоки — сервиса, где любой желающий может выполнять задания и получать за них вознаграждение.
Асессоры
В "Яндексе" есть текущая формула ранжирования результатов, данные о предпочтениях пользователей, есть специальные люди — асессоры, задачей которых является оценка релевантности. Именно они помогают измерить, какое у нас абсолютное качество поиска сейчас и как оно изменится, если мы в формулу ранжирования введем новую поправку.
На то, чтобы использовать ручные оценки ассесоров есть по крайней мере две причины. Во-первых, люди врут. Они могут искать, скажем, реферат по истории, а переходить при этом на порносайты — это же интереснее. Во-вторых, врут авторы сайтов. Они могут создавать видимость того, что на сайте есть какой-то контент, а на самом деле его там нет. Ведь по сниппету, тому окошечку с фрагментом сайта, который выдает поисковая машина, понять, подходящий ли это сайт, не всегда возможно. Пользователь перешел на сайт, потратил там какое-то время. А нашел он там то, что нужно, или нет — в "Яндексе" не знают и могут только об этом догадываться.
Еще одна важная проблема при оценке качества — редкие запросы, на которые нет статистики, так называемый длинный хвост. Их на самом деле очень много — на июнь 2013 года из всех запросов около 30-40 процентов приходятся на те, что никто никогда еще не задавал. Поэтому без живых асессоров невозможно понять, насколько качественно работает поиск.
Асессоры оценивают не странички выдачи поисковой машины и не отдельные URL. Они оценивают пары запрос-URL, причем в запросе подшита информация о географии пользователя, и эта информация учитывается в оценке. Потому что, условно, релевантный для Екатеринбурга сайт по запросу «ресторан суши» будет нерелевантным для Новосибирска, и наоборот.
Чтобы измерить качество поиска, разработчики пропускают случайную выборку запросов через асессоров, которые оценивают пары запрос-URL, выставляя им оценки:
- «витальный»,
- «важный»,
- «релевантный» или
- «нерелевантный».
Каждой из оценок соответствует некая вероятность того, что человек найдет на этом сайте то, что ему нужно.
Под витальным подразумевается страница сети «ВКонтакте» в ответ на запрос «вконтакте». Или соответствующая статья с описанием хоботного млекопитающего на запрос «слон статья из википедии». Витальный URL — это тот, у которого нет разумных альтернативных вариантов, когда совершенно понятно, куда хочет попасть пользователь. На запрос «погода» полезных URL может быть несколько, это и «Гисметео», и «Яндекс.Погода», и несколько других сайтов, каждый из которых получает одинаковую оценку.
"При оценке сайтов мы ни в коем случае не отдаем предпочтение собственным сервисам", - говорил в июне 2013 года, Андрей Стыскин, начальник отдела ранжирования "Яндекс"[2].
Метрика pfound
Имея ранжированную страницу с результатами поиска, где все URL оценены асессорами, разработчики оценивают качество поиска с помощью специальной метрики pfound. Она вычисляет вероятность того, что человек нашел то, что искал на странице выдачи, суммируя такие вероятности для разных URL — каждой из четырех оценок асессора присвоена своя вероятность полезности. При этом в ходе суммирования учитывается, что вероятность полезности этой строки нужно умножать на вероятность того, что ее вообще прочитают. То, что нужно пользователю, может найтись в предыдущей строчке, кроме того, он может просто устать и прекратить чтение списка. В общем, получается такая формула суммирования вероятностей, которая и позволяет разработчикам оценивать качество поиска — как своего, так и конкурентов.
Метрика "счастье пользователя"
Метрика pfound специфична именно для конкретного запроса. А человек ведь не мыслит запросами, он мыслит задачами. Существуют способы измерить, нашел ли человек то, что искал, независимо от запроса.
На сленге "Яндекса" эта метрика называется «счастье пользователя». Выглядит это так: человеку ставят задачу, скажем, найти героев Куликовской битвы. Он может задавать любые запросы, переформулировать их, читать какую-то новую информацию, снова переформулировать запросы. В какой-то момент он находит то, что нужно, и записывает ответ. В "Яндексе" со своей стороны пытаются минимизировать то время, которое человек на это потратил.
Все эксперименты, которые проводили разработчики, говорят о том, что метрика счастья очень хорошо коррелирует с метрикой pfound. То есть пользователь, конечно, ведет себя сложнее, чем подразумевает модель pfound, но данных настолько много, что вся эта сложность усредняется.
Система машинного обучения «Матрикснет»
Далее в дело вступает система машинного обучения «Матрикснет». Она ищет некие неочевидные зависимости между разными факторами страницы и тем, насколько асессоры считают ее релевантной определенному запросу.
Для того чтобы объяснить, как она работает, есть следующая рабочая аналогия. Допустим, нужно научить робота отличать вкусные яблоки от невкусных. Сам по себе робот не различает вкусы и не может справиться с такой задачей, однако мы можем попросить специального человека разделить тестовый набор яблок на вкусную и невкусную кучки. Имея такие кучки, робот может связать вкус яблок с теми или иными посторонними качествами, например, с цветом кожуры или размером. «Матрикснет» для пар запрос-URL как раз выполняет такую операцию — ищет неочевидные свойства страниц, которые достоверно влияют на ее релевантность относительно определенного запроса.
Подобное машинное обучение впервые стали использовать в поисковых системах еще в 2000 году, однако «Матрикснет» имеет определенные важные преимущества перед аналогами. Он, например, гораздо более устойчив к так называемому переобучению. Это ахиллесова пята многих систем машинного обучения, она проявляется в том, что системы на малых выборках находят всякие бессмысленные зависимости — например, между релевантностью и цветом шрифта.
Итак, с одной стороны, есть метрика pfound для оценки качества поиска, с другой стороны - система машинного обучения, которая пытается максимизировать эту метрику. Чем больше оцененных запросов мы будем направлять в «Матрикснет», тем лучше будет работать поиск.
Тестирование на части пользователей и персонализация поиска
После того как система машинного обучения получила некую небессмысленную зависимость, позволяющую улучшить релевантность запроса по оценке асессоров в поисковике выкатывают это изменение в общей формуле ранжирования на части пользователей и смотрим на их реакцию. Делается это по методике, которую не так давно разработали (июнь 2013 года), FML (friendly machine learning). Упрощенно говоря, делается это следующим образом: берутся два результата ранжирования, по старой (C) и по новой формуле (Н), и перемешиваются по очереди — примерно так же, как отбираются футбольные команды в дворовом футболе. Получаются два варианта «смеси»: С1, Н1, С2, Н2, ... и Н1, С1, Н2, С2, ... где С1 — первый URL по старой формуле, Н1 — первый URL по новой формуле, С2 — второй URL по старой формуле и так далее. Какая «смесь» демонстрируется пользователю, определяется случайно. А далее разработчики фактически имеют дело с голосованием пользователей за ту или иную систему ранжирования, о котором они сами не знают. При этом мы, конечно, проводим статистический анализ и видим, значимо ли улучшение или нет.
Метрику pfound нельзя использовать для оценки персонализированного поиска. Тут и помогает метод смешивания разных результатов ранжирования. Если внести в формулу новые, связанные с персонализацией факторы, их эффективность можно проверить именно таким образом.
"Допустим, вы любите слушать музыку на одном сайте, а я — на другом. В персонализованной выдаче, когда вы вводите название песни, то получаете ее на том сайте, который любите вы, а я — на том, который люблю я. Результаты выдачи разные, но в обоих в формулу входит предыдущая история посещений страниц. Результаты поиска с учетом и без учета истории можно смешать и посмотреть, какой из них больше нравится пользователям. Опыт показывает, что обычно очень нравится. Особенно это видно на таких классах поисковых задач, когда человек хочет сделать какое-либо действие на привычном сайте, то есть, например, купить что-то, скачать, поиграть в онлайн-игру. То есть если человек привык смотреть кино на определенном сайте, то он очень хорошо находит его в десятке. Когда поисковая машина начинает такие результаты лично для него поднимать в выдаче, он отлично на это реагирует, быстрее находит то, что ему нужно. А другой любит другой хостинг и находит именно его," - говорил в июне 2013 года, Андрей Стыскин, начальник отдела ранжирования "Яндекс"[2].
В 2013 году "Яндекс" запустил технологию так называемой мгновенной персонализации, когда история запросов влияет на ранжирование в пределах одной сессии. Как соотносится ширина временного окна с релевантностью?
"Точно мы этого не знаем, но, по нашим оценкам, 30 процентов профита от персонализации дает учет «длинной» истории поиска, а 70 процентов — учет короткой истории, в пределах одного дня".
Внесение улучшений в формулу поиска
Достигнутые ранее улучшения вносятся в формулу. В год таких поправок вносится где-то около сотни, по несколько штук каждые две недели.
Например к июню 2013 года в "Яндексе" научились для запросов класса «смотреть онлайн» оценивать вероятность того, что пользователь действительно что-то посмотрел на данной странице. Для видеохостингов — узнавать, сколько процентов данного ролика просмотрел пользователь, прежде чем закрыть вкладку. Понятно ведь, что если ролик не стали смотреть, значит он не очень соответствовал ожиданиям.
2010: Выпуск поисковой программы "Яндекс.Обнинск" для обработки геонезависимых запросов
В сентябре 2010 г. поисковая программа "Обнинск", созданная для обработки геонезависимых запросов, вышла из стадии бета-тестирования. Об этом сообщается в официальном блоге "Яндекса". Программа улучшает ранжирование по гео-независимым запросам, число которых доходит до 70% от общего количества.
Первыми пользователями нового ранжирования стали пользователи "Яндекса" на Украине и в Белоруссии. Российской же версии потребовалась дополнительная оптимизация для достижения максимальной производительности.
Как меняется качество поиска
Качество поиска в человеческом понимании этого словосочетания и в "Яндексе", и в мире постоянно растет. Но это плавный рост, никаких особенных всплесков в нем нет. Связано это с тем, что качество прежде всего зависит от наличия в интернете той информации, которую ищет пользователь. Интернет растет, информации становится больше, вместе с ним растет и качество. За последние пять лет (2008-2013) даже без учета улучшения технологии поиска значительно выросла вероятность того, что ответ на вопрос пользователя найдется в интернете. Качество самого алгоритма работы поисковых машин тоже растет. У кого-то быстрее, у кого-то чуть медленнее.
Модели поиска, конечно, стали гораздо более сложными, и то, что раньше казалось чем-то из ряда вон, сейчас делают стажеры на полставки. Тем не менее каким-то чудесным образом темп роста удается выдерживать. Мы постоянно вносим новые факторы и одновременно с этим совершенствуем систему машинного обучения. Сочетание того и другого дает постоянный рост — с 2011 года, например, качество поиска росло вообще почти линейно. В 2009 году было исключение, заметный скачок, связанный с внедрением «Матрикснета».
"Но главное — что мир меняется, потребности людей сильно меняются. Хорошее ранжирование по сложной формуле образца 2013 года будет плохим для пользователя образца 2005 года. Достаточно сравнить то, как в последние годы поменялись запросы вроде «приложения для телефона». Пользователи меняются, им нужно разное, поэтому и ранжирование будет разным", - говорил в июне 2013 года, Андрей Стыскин, начальник отдела ранжирования "Яндекс"[2].
Интересные факты
- Попробуйте ввести в Яндексе "цвет лягушки в обмороке", и Вы увидите, как на самом деле выглядит этот цвет) И вообще появится барабан с целой кучей разных цветов. Есть даже цвет электрика, кстати. Он близкий к бледно-синему.
Смотрите также
- Поиск Mail.ru
- Google Search
- Поисковая система
- Baidu
- Panguso.com (китайский интернет-поисковик)
- Спутник Поисковый портал
- Интернет-поиск в России
- Интернет-поиск (мировой рынок)
Примечания
- ↑ EU’s Google Feud Aids Russian Rival Blamed for Kremlin Lies
- ↑ 2,0 2,1 2,2 2,3 «Мы фанаты машинного обучения»
- ↑ Avito, ЦИАН и другие компании объединились против «Яндекса»
- ↑ Новой главной страницей Яндекса станет ya.ru
- ↑ "Яндекс" и VK удалили официальные сайты Instagram и Facebook из поисковой выдачи
- ↑ «Яндекс» изменил правила работы с видеохостингами для борьбы с пиратством
- ↑ «Яндекс» крупно обновил поиск: Теперь он мгновенный, точный и ему помогают люди