Даже GPT-4, хотя и намного лучше справляется с исландским языком, чем GPT-3.5, выдает исландский язык с грамматическими ошибками, "переводческим языком" и неправильным знанием культуры. Чтобы изменить ситуацию, Вилхьялмур Þорстейнссон, руководитель компании Miðeind ehf, специализирующейся на языковых технологиях, участвующей в инициативе, собрал команду из 40 добровольцев для обучения GPT-4 правильной исландской грамматике и знанию культуры.
В процессе, называемом "обучение с подкреплением на основе человеческой обратной связи", или RLHF, люди-тестеры дают GPT-4 подсказку, после чего генерируются четыре возможных варианта ответа. Затем тестировщики выбирают лучший ответ из четырех и редактируют его, чтобы создать идеальное завершение. Данные, полученные в ходе этого процесса, используются для дальнейшего обучения GPT-4, чтобы в будущем он выдавал более качественные ответы.
До появления RLHF процесс точной настройки модели требовал больших затрат труда и данных. Команда Þorsteinsson попыталась отладить модель GPT-3 с помощью 300 000 примеров исландского языка, но результаты оказались неутешительными.