Компанія DeepSeek представила дві нові великі мовні моделі — DeepSeek-V3.2 та DeepSeek-V3.2-Speciale, які, за словами розробників, перевершують OpenAI GPT-5 і Google Gemini-3.0-Pro. Реліз моделей відкриває нову сторінку у змаганні технологічних гігантів та демонструє прориви китайських розробників попри американські експортні обмеження.
Мета та особливості моделей
V3.2 позиціонується як універсальний інструмент для щоденних задач та складних міркувань. Водночас V3.2-Speciale — посилена версія, здатна вирішувати завдання світового рівня. Саме Speciale принесла DeepSeek медалі у чотирьох престижних міжнародних олімпіадах:
- International Mathematical Olympiad
- International Olympiad in Informatics
- ICPC World Finals
- China Mathematical Olympiad
Обидві моделі відкрито ліцензовані під MIT-ліцензією, а код та документація доступні у відкритому доступі.
Технічний прорив: DeepSeek Sparse Attention
Головна інновація — DeepSeek Sparse Attention (DSA). Вона замінює класичний механізм уваги, який погано працює з довгими текстами, і дозволяє моделі аналізувати лише релевантний контекст. Це дало такі переваги:
- вартість inference на довгих послідовностях знижено приблизно на 70%;
- обробка 128 000 токенів стала майже в три рази дешевшою порівняно з V3.1;
- продуктивність на довгому контексті збережена на рівні або вище попередніх поколінь.
Обидві моделі мають 685 млрд параметрів та підтримують 128 000 токенів контексту, що дозволяє працювати з великими документами, кодовими базами та науковими матеріалами.
Результати тестів: перевершення GPT-5
У математичних змаганнях V3.2-Speciale показала високі результати:
- AIME 2025: 96,0% (GPT-5-High — 94,6%, Gemini-3.0-Pro — 95,0%);
- HMMT: 99,2% (Gemini-3.0-Pro — 97,5%).
У програмуванні DeepSeek-V3.2 вирішила 73,1% реальних багів у SWE-Verified — майже на рівні GPT-5-High (74,9%), а на комплексному Terminal Bench 2.0 випередила його (46,4% проти 35,2%).
Водночас розробники зазначають, що моделі потребують більше токенів для досягнення аналогічної якості відповіді у певних сценаріях, а ширина знань ще поступається пропрієтарним системам.
Нова логіка роботи з інструментами
DeepSeek навчила моделі зберігати безперервну логіку міркування під час багатьох викликів зовнішніх інструментів. Раніше кожен виклик «обнуляв» reasoning-ланцюг. Для цього створено понад 85 тисяч синтетичних задач у 1 800 середовищах, що охоплюють складні сценарії — від довгострокового планування до багатокрокових веб-досліджень і виправлення коду на восьми мовах.
Відкрита ліцензія та її наслідки
Обидві моделі викладено під MIT-ліцензією на Hugging Face, що дозволяє будь-кому:
- завантажувати моделі;
- змінювати їх;
- запускати локально або в хмарі;
- використовувати без обмежень у комерційних продуктах.
Цей крок створює конкуренцію пропрієтарним системам OpenAI та Anthropic. DeepSeek також надала скрипти для сумісності з API OpenAI.
Попри успіхи, розширення DeepSeek у Європі та США стикається з бар’єрами: регулятори Німеччини та Італії вимагали обмежити доступ через ризики передачі даних до Китаю, а американські законодавці закликають заборонити використання DeepSeek на урядових пристроях.
Що очікувати далі
Реліз V3.2 демонструє ключові тенденції:
- китайські розробники можуть створювати frontier-системи без сучасних Nvidia-чипів;
- інновації в ефективності можуть переважати масштаб навчання;
- open-source підхід стає серйозним конкурентом пропрієтарним моделям.
DeepSeek-V3.2-Speciale стане доступною через API до 15 грудня, після чого її функціональність інтегрують у базову модель. Тим часом xAI розгортає оновлену модель Grok 4.1, включаючи версію Grok 4.1 Thinking, з вільним доступом та підвищеними лімітами для платних підписників.








Залишити коментар