Дистилацията е процес, при който по-малък „студентски“ модел се обучава да имитира логиката и отговорите на по-голям „учителски“ модел, спестявайки ресурси.
Представете си, че вместо да четете цялата библиотека, за да научите квантова физика (както прави GPT-4 по време на обучението си), вие просто взимате записките на най-добрия професор и се учите директно от тях. Това е дистилацията в света на AI. DeepSeek-R1 не е трябвало да „прочита“ целия интернет и да прави скъпите грешки на ранното обучение; той просто се е учил от готовите, перфектни отговори на ChatGPT, което му е позволило да постигне невероятни резултати за рекордно кратко време. Икономическият ефект е поразителен. Докато обучението на модел като GPT-4 може да струва стотици милиони долари в изчислителна мощ (GPU часове), дистилацията позволява на DeepSeek да създаде конкурентен продукт за част от тази сума, често под 6 милиона долара. Това позволява на китайската компания да пусне модела си като „Open Source“ (отворен код) и да го предложи безплатно или много евтино, което OpenAI вижда като нелоялна конкуренция, базирана на техния труд. Проблемът не е в самата технология на дистилация, която е добре позната в академичните среди, а в мащаба и начина, по който са събрани данните за нея. OpenAI твърди, че DeepSeek е нарушила условията за ползване на техните услуги, които изрично забраняват използването на изходите от модела за обучение на конкурентни системи. От друга страна, поддръжниците на DeepSeek твърдят, че това е просто по-ефективен начин за учене, който демократизира достъпа до висококачествен AI. За бизнеса това означава, че скоро може да видим вълна от специализирани, малки и евтини модели, които са „дистилирани“ от гигантите, предлагайки специфични решения на ниска цена. Въпросът остава: кой притежава „знанието“, което AI моделът е придобил по време на своето обучение?