Продолжаем писать вместе с AI

Я иногда задумываюсь, что слишком уж много вожусь с процессом прилаживания AI к ведению своего телеграм-канала, но на самом деле это для меня прекрасная тестовая площадка — много готового контента, причем с дополнительными материалами и черновиками, а на практической задаче всё новое изучается гораздо лучше. На этой неделе мне попалась свежая статья исследователей из MIT, в которой они описывают свою новую систему Satori. Если упрощать, то существует несколько способов в обучении моделей рассуждениям — использование более мощной модели в качестве учителя, дистилляция модели, обучением с подкреплением на основе человеческих отзывов. Все это требует много ресурсов, поэтому исследователи решили пойти другим путем и попробовать научить модель самообучаться. Ученые придумали новый метод — Chain-of-Action-Though (COAT), то есть “Цепочка действий-мыслей”, чтобы помочь модели остановиться в рассуждениях, проверить себя и принять решение о продолжении.

Фев 6, 2025 - 18:17
 0
Продолжаем писать вместе с AI

Я иногда задумываюсь, что слишком уж много вожусь с процессом прилаживания AI к ведению своего телеграм-канала, но на самом деле это для меня прекрасная тестовая площадка — много готового контента, причем с дополнительными материалами и черновиками, а на практической задаче всё новое изучается гораздо лучше.

На этой неделе мне попалась свежая статья исследователей из MIT, в которой они описывают свою новую систему Satori. Если упрощать, то существует несколько способов в обучении моделей рассуждениям — использование более мощной модели в качестве учителя, дистилляция модели, обучением с подкреплением на основе человеческих отзывов. Все это требует много ресурсов, поэтому исследователи решили пойти другим путем и попробовать научить модель самообучаться. Ученые придумали новый метод — Chain-of-Action-Though (COAT), то есть “Цепочка действий-мыслей”, чтобы помочь модели остановиться в рассуждениях, проверить себя и принять решение о продолжении.