Xiaomi MiMo ускорился в 15 раз быстрее ChatGPT на обычном железе

Китайская компания Xiaomi анонсировала невероятное ускорение работы своего искусственного интеллекта MiMo-V2.5-Pro-UltraSpeed, достигнув скорости свыше 1 000 токенов в секунду на модели с триллионом параметров. При этом рекорд был установлен на стандартном 8-GPU сервере без использования специализированных чипов – всего лишь благодаря программным оптимизациям.

Ускорение стало возможным благодаря двум ключевым технологиям: FP4 квантованию, которое снижает точность вычислений на экспертных слоях с сохранением качества, и инновационной DFlash технологии спекулятивного декодирования. Вместо последовательного вывода токенов модель генерирует целые блоки текста за один проход, что значительно повышает производительность.

В сравнении с лидерами рынка, такими как GPT-5.5 и Claude Opus, чей максимум колеблется в районе 70–100 токенов в секунду, новинка Xiaomi превосходит их в 15 раз и более. При этом стоимость работы увеличивается всего втрое, что выгодно с точки зрения соотношения цены и скорости.

Xiaomi открывает ограниченный API-доступ к своему сверхбыстрому движку с 9 по 23 июня, преимущественно для корпоративных клиентов и профессиональных разработчиков. При этом исходный код FP4-DFlash уже доступен на платформе Hugging Face, что позволит сообществу протестировать инновации и внедрять их в свои проекты.

Такое достижение меняет представление о возможностях использования больших языковых моделей, особенно в задачах с высокими требованиями к времени отклика, таких как обнаружение мошенничества и генерация торговых сигналов.

Xiaomi MiMo-V2.5-Pro-UltraSpeed работает в 15 раз быстрее ChatGPT и Claude