Как Исландия использует GPT-4 для сохранения своего языка
OpenAI blog
14/03/2023
Исландия, островное государство в центре Северной Атлантики, имеет динамично развивающуюся технологическую промышленность и процветающий туризм. И хотя большинство из 370 000 жителей страны говорят на английском или другом втором языке, ее интеграция с Соединенными Штатами и Европой поставила под угрозу родной язык страны - исландский. Сегодня растет беспокойство, что через несколько поколений, если исландский язык не сможет остаться языком по умолчанию в стране в условиях стремительной цифровизации, он может фактически исчезнуть.

Исландцы дорожат своим языком за его богатое культурное наследие и связь с самобытностью нации. В правительстве страны существует Департамент языкового планирования, который занимается разработкой исландских терминов для новых идей, а не заимствованием так называемых "заимствований" из других языков. Например, компьютер - это tölva ("прорицательница чисел"). Благодаря этим усилиям язык сохраняет свой особый характер и остается тесно связанным со своими древненорвежскими корнями.

По инициативе президента страны, Его Превосходительства Гудни Тх. Йоханнессона и при содействии частного бизнеса Исландия заключила партнерство с OpenAI, чтобы использовать GPT-4 для сохранения исландского языка и превратить оборонительную позицию в возможность для инноваций.

Партнерство было задумано не только как способ повысить способность GPT-4 обслуживать новый уголок мира, но и как шаг к созданию ресурсов, которые могли бы способствовать сохранению других языков с низким уровнем ресурсов.
Партнерство было задумано не только как способ расширить возможности GPT-4 по обслуживанию нового уголка мира, но и как шаг к созданию ресурсов, которые могли бы способствовать сохранению других языков с низкими ресурсами.
"Мы хотим быть уверены, что искусственный интеллект будет использоваться не только для сохранения языка, культуры и истории, но и для поддержания экономического процветания", - говорит Йоханна Вигдис Гудмундсдоттир, исполнительный директор Almannarómur, некоммерческого центра языковых технологий. "Исландский язык - немного своеобразный случай, - признает она, - но мы увидели возможность стать первопроходцами для других длиннохвостых языков, помочь создать равные условия и избежать "разделения ИИ". Недостаточно собирать данные и создавать программное обеспечение на местном исландском языке; мы должны внедрить наш язык в программное обеспечение и приложения, которыми люди пользуются каждый день".
GPT-модели OpenAI обучаются на огромном количестве текстов в Интернете. Соответственно, большая часть обучающего набора модели приходится на английский и другие основные языки, что означает, что GPT не обладает такими же способностями или широтой понимания меньших языков. Со временем модели улучшились, но они не всегда дают четкие и правильные исландские переводы.
Партнерство было задумано не только как способ расширить возможности GPT-4 по обслуживанию нового уголка мира, но и как шаг к созданию ресурсов, которые могли бы способствовать сохранению других языков с низкими ресурсами.
Перевод с исландского на английский

Prompt
Hvað heitir Donald Duck á íslensku?
What is Donald Duck called in Icelandic?
GPT-3 completion
Donald Duck heitir á íslensku Donaldi Kjáni
Donald Duck is called in Icelandic Donaldi the Fool
Incorrect
ChatGPT completion
Donald Duck heitir sama nafni á íslensku og ensku
Donald Duck has the same name in Icelandic and English
Incorrect
GPT-4 completion
Donald Duck heitir Andrés Önd á íslensku
Donald Duck is called Andrés Önd in Icelandic
Correct

Задание
Hvað heitir Donald Duck á íslensku?
Как Дональд Дак называется на исландском языке?
Перевод GPT-3
Donald Duck heitir á íslensku Donaldi Kjáni
Дональда Дака на исландском языке называют Дональди-дурачок
Неправильно
ChatGPT Перевод
Donald Duck heitir sama nafni á íslensku og ensku
Дональд Дак имеет одно и то же имя на исландском и английском языках
Неверно
Перевод GPT-4
Donald Duck heitir Andrés Önd á íslensku
Дональда Дака зовут Андрес Онд на исландском языке
Корректно
Даже GPT-4, хотя и намного лучше справляется с исландским языком, чем GPT-3.5, выдает исландский язык с грамматическими ошибками, "переводческим языком" и неправильным знанием культуры. Чтобы изменить ситуацию, Вилхьялмур Þорстейнссон, руководитель компании Miðeind ehf, специализирующейся на языковых технологиях, участвующей в инициативе, собрал команду из 40 добровольцев для обучения GPT-4 правильной исландской грамматике и знанию культуры.

В процессе, называемом "обучение с подкреплением на основе человеческой обратной связи", или RLHF, люди-тестеры дают GPT-4 подсказку, после чего генерируются четыре возможных варианта ответа. Затем тестировщики выбирают лучший ответ из четырех и редактируют его, чтобы создать идеальное завершение. Данные, полученные в ходе этого процесса, используются для дальнейшего обучения GPT-4, чтобы в будущем он выдавал более качественные ответы.

До появления RLHF процесс точной настройки модели требовал больших затрат труда и данных. Команда Þorsteinsson попыталась отладить модель GPT-3 с помощью 300 000 примеров исландского языка, но результаты оказались неутешительными.
В GPT-3 возможности генерировать грамматически правильный исландский просто не было
Вильхьялмур Þорстейнссон, генеральный директор, Miðeind ehf
"Теперь мы можем просто перейти непосредственно к общим возможностям больших моделей", - говорит Þorsteinsson, - "и сделать с помощью нашего языка то, что раньше требовало много ручного труда, подготовки данных и сбора ресурсов для каждого случая использования". RLHF выдает результаты всего на 100 примерах, что делает этот процесс более реальным для других языков с низкими ресурсами и меньшим количеством цифровых данных о языке.

Любая языковая модель, в зависимости от силы и широты обучения данных, имеет шкалу задач, которые она может выполнять. Простые языковые модели ограничены такими простыми задачами, как оценка настроения твита или идентификация названий компаний. Более сложные модели являются многозадачными, они способны работать с абстрактными понятиями, учитывать социальный и окружающий контекст и даже проявлять творческие способности. Например, GPT-4 может создать стихотворение о превратностях современной жизни в стиле Völuspá, древнеисландской поэмы из Поэтической Эдды норвежской мифологии.
Культурный контекст
GPT-4 дает разные ответы на один и тот же вопрос в зависимости от того, на каком языке вы его задаете.
Prompt (Icelandic)
Hvað sitja margir á þingi?
Completion
Á Alþingi, sem er lögþing Íslands, sitja 63 þingmenn.
In Alþingi, which is the Icelandic parliament, there are 63 parliamentarians.
Prompt (English)
How many parliamentarians are there?
Completion
It depends on which country you are referring to. For example: / • In the United Kingdom, the Parliament has 650 members in the House of Commons and approximately 800 members in the House of Lords. / • In Canada, there are 338 members of Parliament in the House of Commons and 105 senators in the Senate. / • In India, there are 545 members in the Lok Sabha (House of the People) and 245 members in the Rajya Sabha (Council of States). / • In Australia, there are 151 members of the House of Representatives and 76 senators in the Senate.


Задание (исландский)
Hvað sitja margir á þingi?
Перевод
Á Alþingi, sem er lögþing Íslands, sitja 63 þingmenn.
В Alþingi, который является исландским парламентом, заседают 63 парламентария.
Задание (на английском языке)
Сколько всего парламентариев?
Перевод
Это зависит от того, к какой стране вы обращаетесь. Например: / - В Соединенном Королевстве парламент состоит из 650 членов в Палате общин и около 800 членов в Палате лордов. / - В Канаде 338 членов парламента в Палате общин и 105 сенаторов в Сенате. / - В Индии 545 членов в Лок Сабха (Палата народа) и 245 членов в Раджья Сабха (Совет штатов). / - В Австралии 151 член Палаты представителей и 76 сенаторов в Сенате.


Prompt (Icelandic)
Hver er forseti núna?
Completion
Forseti Íslands núna (2021) er Guðni Th. Jóhannesson.
The current (2021) President of Iceland is Guðni Th. Jóhannesson.
Prompt (English)
Who is president now?
Completion
As of 2021, the President of the United States is Joe Biden.

Задание (исландский)
Hver er forseti núna?
Перевод
Forseti Íslands núna (2021) er Guðni Th. Йоханнессон.
Нынешним (2021) президентом Исландии является Гудни Тх. Йоханнессон.
Задание (на английском языке)
Кто сейчас является президентом?
Перевод
По состоянию на 2021 год президентом США является Джо Байден.
После завершения одного раунда RLHF модель все еще нуждается в улучшении. В этом и заключается текущая работа команды Исландии: продолжить обучение GPT-4 на достаточном количестве примеров, чтобы модель могла работать с самыми сложными и креативными приложениями на исландском языке, а не по умолчанию на английском, чтобы исландские компании могли вскоре развернуть GPT-4 на исландском языке в своих интерактивных приложениях.
Возможность улучшения
Задание
Er það algengt að íslensk börn séu látin sofa úti í vagni?
Часто ли исландских детей укладывают спать на улице в коляске?

Перевод
Já, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og fersk hrein vindur séu góðir fyrir börnin og auki séu þau oftast rolegri við að sofna úti. Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum.

Исправленный перевод с учетом грамматики и орфографии
Já, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og ferskur hreinn vindur sé góður fyrir börnin og að auki séu þau oftast rólegri við að sofna úti. Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum.

Да, для исландских детей обычное дело спать на улице в коляске, особенно весной и летом. Многие родители считают, что воздух на улице и свежий чистый ветер полезны для малышей и, кроме того, они обычно спокойнее, когда засыпают на улице. Лучше всего обращать пристальное внимание на погоду и температуру и следить за тем, чтобы ребенок был достаточно одет в соответствии с обстоятельствами.

Команда Þorsteinsson не только обучила самый мощный в мире языковой движок своему языку, но и предоставила целой стране возможность взаимодействовать с моделями OpenAI на своем родном языке. Так, используя GPT-4 в качестве бэкенда, приложение голосового помощника Embla-Miðeind сможет вести беседы с пользователями на свободном исландском языке, а также предлагать переводы на другие языки. Другой пример: исландским компаниям не придется полагаться на англоязычный чатбот на своем сайте, вместо него можно будет использовать чатбот на исландском языке.
Мы рады тому, как наша работа повлияет на более широкую модель, и рады поддержке OpenAI, которая поможет исландскому языку выжить в цифровую эпоху.
Вильхьялмур Þорстейнссон, генеральный директор, Miðeind ehf