Create: Update:
Google опенсорснул Gemma-3B и Gemma-9B. Или Gemma-2B Gemma7B? А разве не Gemma-2.51B Gemma-8,54B?
Размер модели является ключевым показателем, по которому оцениваются её возможности и сравниваются различные модели. Под размером модели подразумевается (всего-навсего) количество обучаемых параметров. Но Гугл решил перевести свои модели в более легкую весовую категорию, дав моделям имена 2B и 7B. Хотя, Gemma-7B, которая, как оказалось, имеет 8,54 миллиарда параметров, что значительно превышает цифру, предполагаемую в её названии.
Другие модели, такие как Mistral-7B и Llama-7B, имеют 7,24 и 6,74 миллиарда параметров соответственно и названы более точно.
Решения Google использовать объем словаря токенизатора в 256K токенов, в отличие от меньшего размера в 32K токенов (для Llama) привело к огромному количеству embedding параметров: ~20% от общего размера 2.51B модели и ~9% от 8.54B.
Размер модели является ключевым показателем, по которому оцениваются её возможности и сравниваются различные модели. Под размером модели подразумевается (всего-навсего) количество обучаемых параметров. Но Гугл решил перевести свои модели в более легкую весовую категорию, дав моделям имена 2B и 7B. Хотя, Gemma-7B, которая, как оказалось, имеет 8,54 миллиарда параметров, что значительно превышает цифру, предполагаемую в её названии.
Другие модели, такие как Mistral-7B и Llama-7B, имеют 7,24 и 6,74 миллиарда параметров соответственно и названы более точно.
Решения Google использовать объем словаря токенизатора в 256K токенов, в отличие от меньшего размера в 32K токенов (для Llama) привело к огромному количеству embedding параметров: ~20% от общего размера 2.51B модели и ~9% от 8.54B.
Google опенсорснул Gemma-3B и Gemma-9B. Или Gemma-2B Gemma7B? А разве не Gemma-2.51B Gemma-8,54B?
Размер модели является ключевым показателем, по которому оцениваются её возможности и сравниваются различные модели. Под размером модели подразумевается (всего-навсего) количество обучаемых параметров. Но Гугл решил перевести свои модели в более легкую весовую категорию, дав моделям имена 2B и 7B. Хотя, Gemma-7B, которая, как оказалось, имеет 8,54 миллиарда параметров, что значительно превышает цифру, предполагаемую в её названии.
Другие модели, такие как Mistral-7B и Llama-7B, имеют 7,24 и 6,74 миллиарда параметров соответственно и названы более точно.
Решения Google использовать объем словаря токенизатора в 256K токенов, в отличие от меньшего размера в 32K токенов (для Llama) привело к огромному количеству embedding параметров: ~20% от общего размера 2.51B модели и ~9% от 8.54B.
Размер модели является ключевым показателем, по которому оцениваются её возможности и сравниваются различные модели. Под размером модели подразумевается (всего-навсего) количество обучаемых параметров. Но Гугл решил перевести свои модели в более легкую весовую категорию, дав моделям имена 2B и 7B. Хотя, Gemma-7B, которая, как оказалось, имеет 8,54 миллиарда параметров, что значительно превышает цифру, предполагаемую в её названии.
Другие модели, такие как Mistral-7B и Llama-7B, имеют 7,24 и 6,74 миллиарда параметров соответственно и названы более точно.
Решения Google использовать объем словаря токенизатора в 256K токенов, в отличие от меньшего размера в 32K токенов (для Llama) привело к огромному количеству embedding параметров: ~20% от общего размера 2.51B модели и ~9% от 8.54B.
👍32😁11🆒2
>>Click here to continue<<
Мишин Лернинг 🇺🇦🇮🇱

