📌 TorchScale — библиотека для масштабирования трансформеров от Microsoft. Когда стандартные архитектуры трансформеров упираются в ограничения глубины и длины последовательностей, этот проект предлагает набор решений: от DeepNet (1000+ слоёв) до революционного RetNet — потенциального преемника классических трансформеров.
Библиотека выглядит как исследовательский полигон: здесь собраны последние наработки Microsoft в области LLM, включая BitNet и Multiway-архитектуры для мультимодальных задач. Хотя проект требует PyTorch и мощных GPU, его минималистичный API позволяет быстро экспериментировать с передовыми подходами.
🤖 GitHub
@machinelearning_interview
>>Click here to continue<<
