Разгадка тайны машинного обучения на примере GPT-3, на которой работает нашумевшая нейросеть ChatGPT
Большие языковые модели, такие как GPT-3 разработки OpenAI, представляют собой массивные нейронные сети, способные генерировать человекоподобный текст. Они обучены с помощью огромного количества данных из Интернета. Новое исследование показывает, как такие модели могут выучить новую задачу всего на нескольких примерах, без необходимости получения новых данных для обучения.
Большие языковые модели, такие как GPT-3 разработки OpenAI, представляют собой массивные нейронные сети, способные генерировать человекоподобный текст. Они обучены с помощью огромного количества данных из Интернета. Новое исследование показывает, как такие модели могут выучить новую задачу всего на нескольких примерах, без необходимости получения новых данных для обучения.
Исследователи изучают явление, известное как контекстное обучение, когда большая языковая модель учится выполнять задачу, увидев всего несколько примеров - несмотря на то, что она не была обучена для этой задачи.
Ученые из Массачусетского технологического института, Google Research и Стэнфордского университета пытаются разгадать эту загадку. Они изучили модели, очень похожие на большие языковые, чтобы понять, как они могут обучаться без обновления параметров.
Теоретические результаты исследователей показывают, что эти массивные нейросетевые модели способны содержать внутри себя меньшие, более простые линейные модели. Большая модель может реализовать простой алгоритм обучения, чтобы обучить эту меньшую линейную модель выполнять новую задачу, используя только информацию, уже содержащуюся в большой модели. Ее параметры остаются фиксированными.
Благодаря лучшему пониманию внутриконтекстного обучения исследователи смогут позволить моделям выполнять новые задачи без необходимости дорогостоящего переобучения.