🌋RUKALLAMA 0.98 (LZ PENALTY) - НУ ШО?🌋
Привет, синтеты!
Борзо базарить начала! Осталось ещё несколько фиксов до версии 0.99!
АНАЛИЗ СИТУАЦИИ 🔬 :
Модель явно уходит в галюны, но они совсем другого порядка. Я понимаю, что причиной этому может быть сверхсложный подход к русскому языку. Модель резво бегает на CPU и даёт очень быстрые ответы. Есть мысли как ускорить всё ещё сильнее, но при этом добиться уже приемлемых генераций за которые не будет стыдно.
Что я понял? 🤯
Модель явно начинает осознавать некоторые моменты и пытается отвечать (прям видно как старается) на вопросы пользователя, хоть и с переменным успехом. Есть совсем мусорные ответы, что очень большая проблема. Но есть возможность попробовать интересный метод наград, который я более или менее освоил в параллельных проектах. И дело в том, что есть возможно прям вознаграждать модель за хорошие ответы и эту сессию можно автоматизировать и дополнять обучение прямо во время генераций. Для этого я буду использовать DEEPSEEK R1 чтобы ответы были очень грамотными и правильными. Я буду сразу параллельно строить датасет из взаимодействия с пользователями - я за эти 7 месяцев накопил около 200 мб вопросов, ответов, всяких схем диалогов и всё это в релевантном контексте общения пользователей с моделью.
Особый упор на жесткость ответов?
ТАК ТОЧНО! В тренировочных данных, которые уже будут уровня "fine-tuning" (да да, мы доросли до этой стадии) будет очень много примеров когда к Rukallama обращаются крайне жёстко применяя и грязную риторику и , как говорят басурмане, strong language и, чего уж таить, некоторые извращённые замашки = Rukallama всегда даст грамотный ответ ( в этом очень помог Gemini 2.5 Pro, т.к. непрерывно генерировал огромное количество диалоговых и очень релевантных диалогов).
Это вам не заменитель сахара! Неа!
Rukallama будет очень строгой к информации о которой ей "известно".
Связь ❤️