ChatGPT е най-ненадежден с 46% грешки, докато Grok показва най-ниска степен на халюцинации (9%), но все пак страда от лошо цитиране на източници. Нека навлезем в детайлите и да видим как се справят отделните отличници в класа. Проучването на Demos прави директно сравнение между водещите езикови модели, и резултатите са доста изненадващи за мнозина.
| AI Модел | Компания | Процент грешки | Достъп до реално време |
|---|
| Replika | Luka Inc | 56% | Ограничен |
| ChatGPT | OpenAI | 46% | Да (Bing) |
| Gemini | Google | 22% | Да (Google Search) |
| Grok | xAI | 9% | Да (X/Twitter) |
Както виждате от таблицата, Replika се проваля най-тежко с 56% грешки, което е очаквано за бот, създаден предимно за емоционална подкрепа, а не за търсене на факти. Истинският шок обаче идва от ChatGPT на OpenAI, който греши в цели 46% от случаите. Защо се получава така? ChatGPT често страда от прекалена самоувереност – той се опитва да угоди на потребителя и генерира правдоподобно звучащи, но напълно измислени отговори, когато не разполага с точни данни. От другата страна на спектъра е Grok на Илон Мъск (xAI), който показва най-добра точност със само 9% грешки. Предимството на Grok се крие в директния му достъп до информационния поток на платформата X в реално време, което драстично намалява халюцинациите при актуални събития. Въпреки това, експертите предупреждават, че макар Grok да е по-точен фактологично, той често не предоставя ясни линкове към надеждни източници или цитира постове с ниско качество. Google Gemini заема средна позиция с 22% грешки, като често се проваля при въпроси за текущи разследвания, като например случая с финансирането на Шотландската национална партия (SNP). „Стряскащо е, че най-популярният модел в света, ChatGPT, греши в почти половината от случаите при изборни запитвания.“ Това ясно показва, че не бива да се доверяваме сляпо на бранда, когато става въпрос за гражданските ни права и бъдещето на държавата.