PagedAttention

Новости / Программирование
LLM пожирают много памяти, а PagedAttention решает эту проблему
LLM, такие как GPT и PaLM, меняют методы работы и взаимодействия, обеспечивая работу всего: от помощников-программистов до универсальных чат-ботов. Однако, запуск этих невероятно мощных моделей обходится очень дорого, зачастую в 10 раз дороже, чем традиционный поиск по ключевым словам. Скрытый пожиратель памяти: кэш KV LLM имеет в основе модель Transformer, которая генерирует текст по одному слову за раз, пишет xrust. Для эффективной работы необходимо запоминать «контекст» предыдущих токенов. Эта память хранится в так называемом кэше «ключ-значение» (KV). Можно представить его как кратковременную память LLM для разговора. Проблема в том, что этот кэш KV огромен, и его размер динамически увеличивается и уменьшается для каждого запроса. Существующие системы сталкиваются с этой проблемой, поскольку обычно хранят кэш KV в одном непрерывном блоке памяти. Такой подход приводит к двум серьёзным проблемам. Первая - Фрагментация памяти: Внутренняя фрагментация. Системы заранее выделяют
2 520 15 сентября 2025, 06:37 2