Американський стартап Cerebras Systems презентував Wafer Scale Engine 3 – спеціалізований чіп для навчання передових моделей штучного інтелекту. Розробники стверджують, що співвідношення продуктивність/енергоспоживання у WSE-3 вдвічі краще, ніж у попередника.
Ключові характеристики Wafer Scale Engine 3:
- 4 трлн транзисторів і 900 000 ядер;
- 5-нм техпроцес TSMC;
- 44 ГБ вбудованої SRAM-пам’яті і до 1,2 ПБ (петабайт) зовнішньої пам’яті;
- Продуктивність на рівні 125 петафлопс у піковому режимі;
- Пропускна здатність – 21 Пбайт/с.
Чіп являє собою пластину площею 462 см², тобто трохи більшу, ніж iPad Pro 11″. Процесор встановлюється у вигляді основи для обчислювальної платформи Cerebras CS-3 з енергоспоживанням 23 кВт. CS-3 вчетверо потужніший за платформу Nvidia DGX з 16 прискорювачами H100, якщо рахувати за операціями FP16 (числа з плаваючою комою розміром 16 біт).
Архітектура дає змогу спантеличити CS-3 навчанням моделей розміром до 24 трлн параметрів без сегментації. Для порівняння, розмір моделі OpenAI GPT-4 – 1,7 трлн параметрів. На налаштування моделі з 70 млрд параметрів у CS-3 піде один день.