DeepSeek випустила конкурентів GPT-5 та Gemini — моделі вже доступні

Данікош Юрій03.12.20251 хв читання84

Поділитися

DeepSeek випустила конкурентів GPT-5 та Gemini — моделі вже доступні

Поділитися

Компанія DeepSeek представила дві нові великі мовні моделі — DeepSeek-V3.2 та DeepSeek-V3.2-Speciale, які, за словами розробників, перевершують OpenAI GPT-5 і Google Gemini-3.0-Pro. Реліз моделей відкриває нову сторінку у змаганні технологічних гігантів та демонструє прориви китайських розробників попри американські експортні обмеження.

Мета та особливості моделей

V3.2 позиціонується як універсальний інструмент для щоденних задач та складних міркувань. Водночас V3.2-Speciale — посилена версія, здатна вирішувати завдання світового рівня. Саме Speciale принесла DeepSeek медалі у чотирьох престижних міжнародних олімпіадах:

International Mathematical Olympiad
International Olympiad in Informatics
ICPC World Finals
China Mathematical Olympiad

Обидві моделі відкрито ліцензовані під MIT-ліцензією, а код та документація доступні у відкритому доступі.

Технічний прорив: DeepSeek Sparse Attention

Головна інновація — DeepSeek Sparse Attention (DSA). Вона замінює класичний механізм уваги, який погано працює з довгими текстами, і дозволяє моделі аналізувати лише релевантний контекст. Це дало такі переваги:

вартість inference на довгих послідовностях знижено приблизно на 70%;
обробка 128 000 токенів стала майже в три рази дешевшою порівняно з V3.1;
продуктивність на довгому контексті збережена на рівні або вище попередніх поколінь.

Обидві моделі мають 685 млрд параметрів та підтримують 128 000 токенів контексту, що дозволяє працювати з великими документами, кодовими базами та науковими матеріалами.

Результати тестів: перевершення GPT-5

У математичних змаганнях V3.2-Speciale показала високі результати:

AIME 2025: 96,0% (GPT-5-High — 94,6%, Gemini-3.0-Pro — 95,0%);
HMMT: 99,2% (Gemini-3.0-Pro — 97,5%).

У програмуванні DeepSeek-V3.2 вирішила 73,1% реальних багів у SWE-Verified — майже на рівні GPT-5-High (74,9%), а на комплексному Terminal Bench 2.0 випередила його (46,4% проти 35,2%).

Водночас розробники зазначають, що моделі потребують більше токенів для досягнення аналогічної якості відповіді у певних сценаріях, а ширина знань ще поступається пропрієтарним системам.

Нова логіка роботи з інструментами

DeepSeek навчила моделі зберігати безперервну логіку міркування під час багатьох викликів зовнішніх інструментів. Раніше кожен виклик «обнуляв» reasoning-ланцюг. Для цього створено понад 85 тисяч синтетичних задач у 1 800 середовищах, що охоплюють складні сценарії — від довгострокового планування до багатокрокових веб-досліджень і виправлення коду на восьми мовах.

Відкрита ліцензія та її наслідки

Обидві моделі викладено під MIT-ліцензією на Hugging Face, що дозволяє будь-кому:

завантажувати моделі;
змінювати їх;
запускати локально або в хмарі;
використовувати без обмежень у комерційних продуктах.

Цей крок створює конкуренцію пропрієтарним системам OpenAI та Anthropic. DeepSeek також надала скрипти для сумісності з API OpenAI.

Попри успіхи, розширення DeepSeek у Європі та США стикається з бар’єрами: регулятори Німеччини та Італії вимагали обмежити доступ через ризики передачі даних до Китаю, а американські законодавці закликають заборонити використання DeepSeek на урядових пристроях.

Що очікувати далі

Реліз V3.2 демонструє ключові тенденції:

китайські розробники можуть створювати frontier-системи без сучасних Nvidia-чипів;
інновації в ефективності можуть переважати масштаб навчання;
open-source підхід стає серйозним конкурентом пропрієтарним моделям.

DeepSeek-V3.2-Speciale стане доступною через API до 15 грудня, після чого її функціональність інтегрують у базову модель. Тим часом xAI розгортає оновлену модель Grok 4.1, включаючи версію Grok 4.1 Thinking, з вільним доступом та підвищеними лімітами для платних підписників.