Наскоро публикувано изследване разкрива фундаментално предизвикателство при разработването на изкуствен интелект: ChatGPT е станал по-лош при извършването на определени основни математически операции . От доклад: Изследователите от Станфордския университет и Калифорнийския университет в Бъркли казаха, че влошаването е пример за феномен, известен на разработчиците на AI като дрейф, при който опитите за подобряване на една част от изключително сложните AI модели карат други части от моделите да се представят по-зле.
[…] Досега те са тествали две версии на ChatGPT: версия 3.5, достъпна безплатно онлайн за всеки, и версия 4.0, достъпна чрез премиум абонамент. Резултатите не са съвсем обещаващи. Те дадоха на чатбота основна задача: да определи дали определено число е просто число. Това е вид математически проблем, който е сложен за хората, но прост за компютрите.
17 077 просто ли е? 17 947 просто ли е? Освен ако не сте учен, не можете да измислите това в главата си, но е лесно за компютри за оценка. Компютърът може просто да форсира проблема – опитва се да раздели на две, три, пет и т.н. и гледаа дали нещо работи. За да проследят ефективността, изследователите подадоха на ChatGPT 1000 различни числа. През март премиум GPT-4 правилно идентифицира дали 84% от числата са прости или не. (Доста посредствена производителност за компютър, честно казано.) До юни успехът му спадна до 51%. При осем различни задачи GPT-4 се влоши при шест от тях. GPT-3.5 се подобри по шест показателя, но остана по-лош от своя напреднал брат при повечето задачи.
връзка