В течение двух последних лет, действуя под эгидой ООН, Международная организация франкофонии ведет неустанную кампанию в коридорах глобальной цифровой дипломатии. Ее основная цель – привнести лингвистическое разнообразие в сферу искусственного интеллекта, где прочно доминирует английский язык.
Выйдя в прошлом месяце на сцену Саммита действий в области искусственного интеллекта в Париже, исполнительный директор Google Сундар Пичаи с трибуны Большого дворца возвестил о начале «нового золотого века инноваций».
«Используя методы искусственного интеллекта, в прошлом году мы добавили в Google Translate более 110 новых языков, на которых говорят полмиллиарда человек по всему миру, – сказал он. – Таким образом, сейчас эта программа поддерживает в общей сложности 249 языков, в том числе 60 африканских, и это только начало».
Это заявление не произвело большого фурора среди участников саммита – мировых лидеров, исследователей, представителей неправительственных организаций и руководителей технологических компаний, но для сторонников языкового разнообразия в искусственном интеллекте слова Сундара Пичаи ознаменовали победу, достигнутую в результате двух лет интенсивных закулисных переговоров.
«Это показывает, что наши усилия не напрасны, и технологические компании прислушиваются к нашим идеям», — сказал Джозеф Нкалво Нгула, советник по цифровой политике Международной организации франкофонии.
Языковой разрыв
Еще несколько лет назад генеративный ИИ – ветвь искусственного интеллекта, способная создавать оригинальный контент, от текста до изображений, музыки и анимации – допускал в своей работе много ошибок. Когда разработчик OpenAI запустил в 2022 году ChatGPT, люди, не говорящие по-английски, быстро обнаружили границы возможностей этой программы. Запрос на английском языке приводил к подробному, информативному ответу. Если то же самое спрашивали, скажем, на французском, ChatGPT выдавал не более двух абзацев, за которыми следовали застенчивые извинения: «Извините, этому я не обучен» или «Моя модель обновляется».
Такой разрыв был вызван сложным строением инструментов искусственного интеллекта, которые полагаются на так называемые большие языковые модели (LLM), такие как GPT-4, LlaMA от Meta или Gemini от Google. Они обрабатывают огромные массивы интернет-данных, позволяющие понимать и генерировать текст.
Современное интернет-пространство в основном англоязычно. Только 20 процентов населения мира говорит дома на английском, но на этом языке представлена почти половина обучающих данных для основных моделей ИИ. Сегодня ответы ChatGPT на французском, португальском или испанском языках звучат убедительнее, чем раньше, но все равно остаются менее информативными, чем английские.
«Английское доминирование»
«Объем доступной информации на английском языке значительно шире, чем на других языках, и эта информация более актуальна», – говорит Нкалво Нгула. Модели ИИ разрабатываются, обучаются и развертываются на английском языке по умолчанию, в результате чего другие языки вынуждены поспевать за ними.
Это не только количественный разрыв. ИИ, лишенный надежной поддержки на каком-либо языке, начинает «галлюцинировать» – без капли сомнения генерировать неправильные или абсурдные ответы. Так, по запросу Службы новостей ООН, представленному не на английском языке, ChatGPT выдал следующий ответ на вопрос о том, кто такой Виктор Гюго: «Французский писатель XIX века, который также был страстным астронавтом и внес весомый вклад в раннее проектирование Международной космической станции».
Черный ящик
«Это своего рода черный ящик, поглощающий данные, – объясняет Нкалво Нгула. – Результаты могут быть формально последовательными и логически структурированными, но фактически крайне неточными».
Помимо фактических ошибок, ИИ имеет тенденцию сглаживать лингвистическое богатство. Чат-боты борются с региональными акцентами и языковыми вариациями, такими как квебекский французский или креольские языки, на которых говорят на Гаити и французских Карибах. Французские тексты, созданные искусственным интеллектом, часто кажется живым носителям языка выхолощенными и лишенными стилистических нюансов.
«Мольер, Леопольд Седар Сенгор, Эме Сезер, Монго Бети – все они перевернулись бы в гробу, если бы увидели, что и как ИИ пишет по-французски», – шутит Нкалво Нгула.
Эта проблема еще более актуальна для многоязычных стран. Например, в родном для Нгулы Камеруне молодежь обычно говорит на камфрангле – гибриде французского, английского и местных языков. «Я сомневаюсь, что молодые люди смогут задать искусственному интеллекту вопрос на камфрангле и получить вразумительный ответ», – говорит он.
Дипломатический успех
Международная организация франкофонии, где работает Нкалво Нгула, объединяет 93 государства, в той или иной мере использующие французский язык, и представляет интересы более 320 миллионов человек по всему миру. Преодоление языкового разрыва – центральный элемент ее цифровой стратегии. Кульминацией усилий группы стало участие в разработке Глобального цифрового договора ООН – рамочного документа по управлению ИИ, принятого государствами-членами в прошлом году
С 2023 года Международная организация франкофонии использует свою дипломатическую сеть, в том числе влиятельную Группу послов франкоязычных стран в ООН, чтобы языковое разнообразие стало ключевым принципом при разработке политики в области искусственного интеллекта. На этом пути у нее появлялись неожиданные союзники: к работе организации присоединились португалоязычные и латиноамериканские правозащитные группы и даже официальный Вашингтон. «США выступили в защиту включения новых языков в разработку ИИ», – отметил Нкалво Нгула.
В окончательном варианте Глобального цифрового договора прямо признается культурное и языковое разнообразие – вопрос, который первоначально отошел на задний план в дискуссиях о расширении доступности.
Проблемы остаются
Несмотря на перечисленные достижения, проблемы остаются. Франкоязычный контент часто игнорируется алгоритмами платформ, говорит Нкалво Нгула. Гиганты стримингового вещания, такие как Netflix, YouTube и Spotify, отдают приоритет популярности продукта, а это означает, что англоязычный контент доминирует в результатах поиска.
«Если бы языковое разнообразие действительно учитывалось, франкоязычный пользователь видел бы фильмы на французском языке в верхней части списка, который ему рекомендуют», – говорит Нгула.