Применение большой языковой модели (LLM) для эффективного роста цифрового продукта
10.09.23, Вс, 10:30, Мск,
Языковые модели представляют собой нейросети, обученные с помощью алгоритмов машинного обучения (machine learning) и глубинного обучения (deep learning) на огромных массивах текстовых данных. Благодаря этому программное обеспечение, «надстроенное» над ними, может распознавать речь, понимать ее, отвечать собеседнику текстом, либо синтезировать устную речь. Словом, проводить различные манипуляции с естественным языком человеческого общения (Natural Language Processing – NLP). Аббревиатура LLM означает – Large Language Model.
Содержание |
О том, как именно применять большую языковую модель (LLM), чтобы получить от нее максимум пользы для цифрового продукта, в данной статье рассказал Сергей Беляев, опытный продакт-менеджер с более чем 10-летним опытом работы в крупнейших технологических компаниях России.
Как поделился эксперт, эпитет «большие» данный подвид языковых моделей получил за то, что обучение происходит на особенно масштабном количестве материала и с использованием огромного числа параметров. Например, BERT (появившаяся на рынке в 2018 году), одно из конкретных API от компании Google, реализующих LLM, обучалась на материалах английской Википедии объемом более 2 миллиардов слов[1] и на корпусе текстов BookCorpus, включающем 800 миллионов лексических единиц.[2] Создатели BERT утверждают, что их детище превосходит по многим параметрам модель больших данных, которую использует для своего ChatGPT OpenAI Сэма Альтмана. Сергей Беляев подробно рассказал об использовании бизнесом LLM.
LLM как инструмент продуктовых компаний
По словам эксперта, выбор определенных API под задачи бизнеса, надстроенных над LLM-моделями от разных разработчиков, не ограничивается GPT-3, реализующих LLM OpenAI, Hugging Face, HuggingChut и DistilBERT, которые дают доступ к BERT. Вариантов гораздо больше. Сергей перечислил некоторые из них:
- BERT: Визитная карточка этого API на основе LLM – двунаправленное понимание контекста при общении. Машинное обучение данной LLM происходит по 110 миллионам параметров[3];
- Claude: разработка компании Anthropic. API хорошо проявил себя с точки зрения соблюдения нейросетью в процессе общения заранее установленных принципов. Из-за чего снимается один из страхов бизнеса, связанный с тем, что будучи представленный самому себе «искусственный интеллект» сделает «что-нибудь не то»;
- PaLM: еще одна языковая модель и набор сопутствующих инструментов от Google. Машинное обучение ведется на большем количестве параметров, чем в случае с BERT – 540 миллиардов весов (параметров).[4] Точность имитации мышления у нейросетей зависит от ряда параметров, в частности, от объема материала, на которой ее обучали. Учитывая, каким огромным этот объем является в случае PaLM, эффективность ее работы впечатляет. Сильные стороны PaLM: программирование по заданию, математические вычисления, ответы на вопросы. Поддерживается несколько версий API. Дата открытия для пользователей: март 2023 года;
- Orca: разработка Microsoft. Нейросеть обучалась на текстах по 13 миллиардам параметров.[5] Представлена в мае 2023 года.
Сергей Беляев отметил, что с помощью этих и многих других нейросетей бизнес может решать конкретные задачи: например, передать AI чат-боту функцию клиентской поддержки, тем самым сократив затраты на соответствующий отдел в разы. «Искусственный интеллект» даже способен круглосуточно и без выходных обрабатывать тикеты. На что не способны большинство классических отделов поддержки, в которых работают рядовые сотрудники.
«Однако подробнее о способах применения LLM в бизнесе мы еще поговорим. Сейчас скажем лишь, что продуктовые компании могут выбрать для своих задач из большого количества реализаций LLM. Некоторые на 100% являются платными, другие поддерживают лимиты бесплатного использования», – поделился эксперт. |
Например, в GigaChat от Сбербанка (нейросеть появилась в апреле 2023 года) есть freemium-режим, демонстрирующий возможности системы. Он дает бесплатный 1 миллион токенов генерации текста. В случае превышения уже придется заплатить. Есть нейросети, бесплатные полностью. По возможностям такие API сильно уступают флагманам LLM, но для решения некоторых задач их возможностей хватает.
Разница между LLM и генеративным ИИ (Generative AI)?
Технологии LLM и генеративный «искусственный интеллект» – обе служат важным инструментом бизнеса. Такие LLM, как GPT-3, BERT, RoBERTa (появилась в 2018 году), в первую очередь, направлены на анализ контекста человеческой речи (генерализацию) и ее понимание. Генеративный AI – более крупная технология, которая для своих целей использует, в том числе, LLM. Она позволяет генерировать и распознавать много видов контента: от текстов и речи до изображений и музыки, пояснил Сергей Беляев.
Однако развитие нейросетей с различной специализацией вовсе не стоит на месте. Как отметил эксперт, например, появились мультимодальные LLM, которые, отталкиваясь от речи, могут работать не только с речью. Такие эксперименты проводятся, например, в таких API, как: Kosmos-2.5 (разработка Роскосмоса), PaLM-E. Подобные изменения превращают LLM из служебной по отношению к генеративному ИИ технологии в конкурента, достигающего тех же самых результатов, но несколько иначе.
Ключевые подсистемы LLM
Чтобы лучше понять устройство и особенности LLM, Сергей Беляев перечислил составляющие таких моделей, независимо от конструкции нейросети:
- трансформеры: архитектуры, которые позволяют параллельно обрабатывать большое количество языковых данных. С их помощью модель становится достаточно производительной для больших и сложных языковых задач;
- данные для машинного обучения: тексты, на которых обучается нейросеть;
- токенизаторы и обработчики: архитектуры, которые разбирают фразы на составляющие и оценивают их эмоциональное, семантическое, контекстуальное значение;
- механизмы «переключения внимания»: в современных LLM есть модули, приоритизирующие те или иные элементы, связанные с задачей;
- модули настройки: у любой LLM есть методы кастомизации доступного функционала. Можно менять количество слоев нейросети, чтобы повышать и снижать точность, экономить ресурсы, управлять обучением «нейронок».
Как работает LLM?
По словам эксперта, работа больших языковых моделей циклична. Определенная последовательность действий происходит всякий раз, когда LLM получает от человека новую задачу.
- Шаг №1: нейросеть получает на вход совокупность слов или смысловых единиц (токенов), которым присваиваются номера и свойства, в соответствии с алгоритмом обучения, который принят в данной нейросети;
- Шаг №2: нейросеть воспринимает контекст фразы. Пропуская через слои математически имитированных в процессоре нейронов, «нейронка» анализирует связи между токенами на основе контекста предыдущего общения. С помощью механизмов приоритезации определяются важные и второстепенные аспекты;
- Шаг №3: поняв суть сказанного, нейросеть пытается сгенерировать ответ на основе алгоритмов прогноза следующего слова фразы, исходя из усвоенных паттернов общения (машинное обучение);
- Шаг №4: нейросеть учится на взаимодействии с человеком, поправляя собственные параметры анализа, если результат, который она получает, по некоторым признакам не может являться удовлетворительным.
Для простоты понимания процесса Сергей привел пример с несложной задачей для AI-чата.
«Предположим, мы сказали нейросети: «Я хочу написать для VK подводку для фотоотчета о поездке в Испанию». Large Language Model воспримет предложение и разберет его «по кирпичикам»: «Я», «хочу», «написать», «для», «VK», «подводку», «для», «фотоотчета», «о», «поездке», «в», «Испанию». Включатся модули «трансформеры», которые проанализируют связи между словами. Затем, когда LLM придет к выводу, что самые важные из них касаются намерения пользователя создать подводку о поездке в Испанию, она составит данный пост на базе имеющихся знаний», – рассказал эксперт. |
Возможное применение LLM в продуктовых компаниях
Рост возможностей нейросетей в последние годы привел к тому, что на основе LLM стали делать множество приложений, плагинов, модулей и других IT-решений для бизнеса. Как считает Сергей Беляев, LLM можно использовать для выполнения следующих задач:
- программирование: на сегодняшний день в технологических компаниях нейросетям можно доверять писать рутинный несложный код (так называемые Copilot), высвобождая ресурс разработчиков для специфических задач. Например, LLM способны на основе языкового описания генерировать код на Python как на одном из самых простых языков программирования;
- создание контента: современные LLM способны создавать посты и маркетинговые материалы, описания для изображений, товаров и других коммерчески значимых веб-страниц. Они научились дополнять текст релевантным изображением. При должном обучении нейросети способны давать информативный текст, написанный без явного нарушения линии повествования или рассуждения;
- обобщение текстов: менее разрекламированная функция, но потенциально очень полезная в бизнесе. LLM можно настроить на извлечение сути из больших текстов, сэкономив человекочасы на обработку информации;
- перевод: практически с любого языка можно осуществлять корректный по смыслу перевод. Затем, его можно озвучить технологиями синтеза речи, если есть такая задача. Например, можно обеспечить синхронным переводом международную конференцию. А насколько доступнее для порталов и веб-ресурсов станет поддерживать многоязычные версии сайтов? Любой IT-сервис постоянно делает апдейты и выпускает новые релизы, из-за чего описание продукта на разных языках поддерживать невероятно сложно и дорого. Это лишь некоторые примеры, когда технология LLM способна радикально повысить эффективность;
- поиск с получением результата: стало возможным доверить нейросети поиск в любых массивах данных. В отличие от самостоятельного поиска человеком будет проведен не только сам серфинг, но и получена нужная информация, отобранная из такого количества источников, которые человек обработать не в состоянии. Другое применение – автоматизированный поиск по большим базам данных;
- оценка семантики и эмоционального отношения говорящих в Сети: в качестве подсистем к LLM могут быть подключены фреймворки, распознающие эмоции, например Watson. Они могут анализировать, в том числе, в интересах маркетинга, настроение и смысл того, о чем собеседники обмениваются в диалогах. Как один из примеров, такая функция пригодится в соцсетях. На основе такого анализа можно строить эффективные маркетинговые кампании и проводить социологические исследования;
- диалоговые чаты и чат-боты: LLM могут общаться с пользователями, клиентами, выполняя такой объем работ, на выполнение которой людьми у компании попросту не хватило бы денег. Например, перед создателями видеоигр нередко встает проблема клиентской поддержки на разных языках. Так как LLM способны общаться с клиентами и решать несложные проблемы, то риск неудачи продукта из-за отсутствия обратной связи с пользователями становится ниже;
- классификация и категоризация: доверьте LLM систематизацию большого количества контента. Например, если необходимо реорганизовать рубрики и категории на сайте большого маркетплейса или СМИ;
- редактирование изображений: LLM могут выполнять обработку и обрезку изображений, соревнуясь в этом с генеративным AI;
- ответы на вопросы на основе картинки: большие языковые модели научились (VQA) распознавать семантику картинок и отвечать на различные вопросы о них;
- рекомендации продукта: на LLM основаны системы индивидуальных рекомендаций в e-commerce. Нейросети могут не только анализировать действия пользователя, но и предложить покупку, чье изображение по форме или настроению похоже на то, что человек уже купил.
Преимущества LLM для бизнеса
По мнению Сергея, для решения некоторых задач бизнеса языковые модели более эффективны, чем классические подходы, так как способны обрабатывать гораздо большие объемы информации. Имеются некоторые проблемы в приобретении и внедрении. Например, неправильное обучение или некорректные промты (короткие фразы, адресуемые нейросети) при тренировке нейросети могут привести к катастрофе в виде оскорбительного общения с пользователями или ошибке в обработке данных. Помешать «нейронке» вовремя, пока она не совершила ошибок в крупных масштабах, будет проблематично. Однако все перевешивает тот факт, что издержки на LLM существенно ниже, чем на ручной труд. Традиционные отделы никогда не будут такими же масштабируемыми, убежден эксперт.
Появление ChatGPT и то беспрецедентное качество, которое удалось достичь разработчикам OpenAI и других LLM, впервые делает реальным масштабное внедрение искусственного интеллекта в бизнес-процессы. Перед продуктовыми командами встают все более сложные и нетривиальные задачи, в решении которых сегодня способны сильно помочь большие языковые модели и генеративный AI, заключил Сергей Беляев.Доходы российских поставщиков ИТ-услуг за год выросли на 2,6% и достигли 549,3 млрд рублей
Автор: Юрий Мельниченко