Обзор Claude Opus 4.8: успехи в математике и кодировании

Anthropic представил обновление Claude Opus 4.8 всего через шесть недель после версии 4.7. Новая модель продемонстрировала улучшения в математике и программировании, особенно впечатляя качественным и продуманным игровым кодом. Однако при этом Creative Writing остался на уровне предыдущей версии, не показав заметного прогресса.

В тесте по математике Opus 4.8 успешно решил сложную задачу с полиномом 19-й степени, что раньше было достижимо лишь для немногих моделей и недоступно для предшественника. В логических задачах модель проявила умение распознавать подвохи: корректно указала на логическую несостыковку в вопросе о браке. При этом в тесте по нелинейному рассуждению она ошиблась, построив убедительное, но неверное объяснение событий.

Одним из серьезных недостатков стали показатели расхода токенов — для одного кода модели понадобился весь месячный лимит на тарифе Pro, что значительно ограничивает её применимость для масштабных проектов без дополнительных трат. Кроме того, модель отказалась выдать найденные факты в тесте на поиск «иголки в стоге сена» — вероятно, из-за встроенных ограничений безопасности.

В итоге Claude Opus 4.8 продолжает укреплять позиции в области точных вычислений и кода, но остаётся менее эффективной в творческих и гибких задачах. Рост безопасности и логичности ответов частично компенсируется расходом ресурсов и осторожностью в диалоге, что может понравиться не всем разработчикам.

Claude Opus 4.8: что нового в обновлённой версии модели Anthropic