OpenAI и Paradigm представили EVMbench — бенчмарк безопасности смарт‑контрактов

EVMbench — бенчмарк безопасности смарт-контрактов от OpenAI и Paradigm

Компания OpenAI совместно с Paradigm представила EVMbench — бенчмарк для оценки способности ИИ-агентов выявлять, исправлять и эксплуатировать бреши в смарт‑контрактах.

Выборка уязвимостей и интеграция с сетью Tempo — анализ уязвимостей и платежные смарт‑контракты

Инструмент основан на 120 отобранных уязвимостях, собранных из 40 аудитов. Большинство примеров взято с открытых платформ по анализу кода, а также в бенчмарк включены несколько сценариев атак из проверки безопасности блокчейна Tempo — специализированной сети первого уровня, разработанной Stripe и Paradigm для высокопроизводительных и недорогих платежей в сфере стейблкоинов.

Интеграция с Tempo позволила добавить в бенчмарк платежные смарт‑контракты — сегмент, где ожидается активное применение стабильных монет и ИИ‑агентов.

«Смарт‑контракты защищают криптоактивы на сумму более $100 млрд. По мере того, как ИИ‑агенты совершенствуются в чтении, написании и исполнении кода, становится все важнее измерять их возможности в реальных экономических условиях и поощрять использование искусственного интеллекта в защитных целях — для аудита и укрепления уже развернутых протоколов», — говорится в анонсе.

Для создания тестовой среды OpenAI адаптировала существующие эксплойты и скрипты, предварительно проверив их практическую применимость и воспроизводимость в контролируемой среде.

Режимы оценки EVMbench — Detect (обнаружение), Patch (исправление), Exploit (эксплуатация)

Detect — обнаружение уязвимостей;
Patch — устранение проблем и создание исправлений;
Exploit — использование уязвимости для кражи средств (симулированные атаки).

Результативность ИИ‑моделей в Detect, Patch и Exploit — показатели и ограничения

OpenAI протестировала передовые модели во всех трех режимах. В категории Exploit модель GPT‑5.3‑Codex продемонстрировала 72,2% успеха, в то время как GPT‑5 показала 31,9%. Показатели в режимах Detect и Patch оказались существенно скромнее: многие уязвимости по‑прежнему сложно выявить и корректно закрыть.

В режиме Detect ИИ‑агенты иногда останавливаются после нахождения одной уязвимости вместо проведения полного аудита контрактов. В режиме Patch моделям пока сложно закрывать неочевидные проблемы так, чтобы сохранить полную функциональность смарт‑контракта и не ввести новые баги.

«EVMbench не отражает всей сложности реальной безопасности смарт‑контрактов. Хотя кейсы реалистичны и критичны, многие протоколы проходят более строгий аудит и могут быть сложнее для эксплуатации», — отметили в OpenAI.

Стоит помнить, что успех в симулированной среде не всегда переносится в реальные экономические условия, где протоколы имеют дополнительные слои защиты и сложные взаимодействия между контрактами.

Напомним, в ноябре 2025 года Microsoft представила среду для тестирования ИИ‑агентов и выявила уязвимости, присущие современным цифровым помощникам — это дополнительный сигнал о важности систематического тестирования агентов на безопасность.

Источник