Maтематиката зад AI: Защо машините учат? - Школа по математика София-Мат

връзка , от Итън Сийгъл

Защо машините учат? Дори в близкото минало това би бил смешен въпрос, тъй като машините – т.е. компютрите – бяха способни да изпълняват само инструкциите, които човешки програмист е програмирал в тях. С възхода на генеративния AI или изкуствения интелект обаче машините наистина изглеждат надарени със способността да учат, усъвършенствайки своите отговори въз основа на непрекъснати взаимодействия както с хора, така и с нечовешки потребители. Програми за изкуствен интелект, базирани на големи езикови модели, като ChatGPT, Claude, Gemini и други, сега са толкова широко разпространени, че заместват традиционните инструменти, включително търсенията с Google , в приложения по целия свят.

Как се стигна до това? Как успяхме толкова бързо да живеем в епоха, в която много от нас са щастливи да обърнат аспекти от живота си, които традиционно се нуждаят от човешки експерт, в компютърна програма? От финансови до медицински решения, от квантови системи до сгъване на протеини и от сортиране на данни до намиране на сигнали в море от шум, много програми, които използват изкуствен интелект (AI) и машинно обучение (ML), са много по-добри в тези задачи в сравнение дори с най-големите човешки експерти.

В новата си книга „ Why Machines Learn: The Elegant Math Behind Modern AI“ научният писател Анил Анантасвами изследва всички тези аспекти и много други. Имах късмета да направя интервю с въпроси и отговори с него и ето 10-те най-задълбочени отговора, които той беше достатъчно щедър да даде.

Итън Сийгъл (Испания): Много хора чуват термина „AI“ (за изкуствен интелект) и веднага си мислят, че се случва нещо много, много по-дълбоко и по-фантастично от, да кажем, това, за което си мислят, когато чуят термина „компютърна програма“ .” Какви бихте казали, че са основните разлики и прилики между традиционна компютърна програма и компютърен софтуер, който включва изкуствен интелект?

Анил Анантасвами (AA): Когато говорим за AI в наши дни, това е конкретна негова форма, наречена машинно обучение (ML). Такива системи, разбира се, също са компютърни програми. Но за разлика от традиционната компютърна програма, при която програмистът знае точния алгоритъм за прилагане и превръщане на някои входни данни в
необходимия изход, програмите за машинно обучение измислят алгоритъма, който превръща входните данни в изходящи, като изследват модели, които съществуват в данните за обучение. Компютърният софтуер, който включва AI, ще използва такива ML програми. Силата на ML се крие в
способността му да научава сложни алгоритми за трансформиране на входове (да речем, текстов ред, описващ изображение) в изходи (изображението) – програмистите биха намерили за почти невъзможно изрично да проектират такива алгоритми; те трябва да бъдат научени от модели, които съществуват в данните.

Тази графична йерархия на математическите пространства преминава от най-общия тип пространство, топологично пространство, до
най-специфичното: вътрешно продуктово пространство. Всички метрики индуцират топология, но не всички топологични пространства могат да бъдат определени от метрика; всички нормирани векторни пространства индуцират метрика, но не всички метрики съдържат нормирано векторно пространство; всички вътрешни продуктови пространства индуцират норма, но не всички нормирани векторни пространства са вътрешни продуктови пространства. Математическите пространства играят жизненоважна роля в математиката, захранваща изкуствения интелект.

ES: Вашата книга се казва „Защо машините учат: Елегантната математика зад съвременния AI“ и първоначално бях озадачен от описанието на математиката зад модерния AI, която се нарича елегантна. По-голямата част от математиката, която AI използва, поне доколкото аз я разбирам, е просто математиката, която студентите по математика или физика научават през първите си две години от бакалавърското си образование: многомерно смятане, линейна алгебра, вероятност и статистика, анализ на Фурие, плюс малко теория на информацията и (понякога) диференциални уравнения. Какво е толкова „елегантното“ в тези математически инструменти?

АА: Елегантността на математиката, която е в основата на машинното обучение, разбира се, е субективна. Говоря за елегантност от гледна точка на ML теореми и доказателства. Например, доказателството за конвергенция на алгоритъма на персептрон на Франк Розенблат , което показва, че алгоритъмът ще намери начин да раздели линейно два клъстера от данни, ако такова линейно разделение съществува, за крайно време, е красиво. Такива са и идеите зад алгоритмите за машинно обучение, наречени поддържащи векторни машини, които използват така наречените методи на ядрото, за да проектират нискоразмерни данни в по-високи, дори безкрайни измерения, и да изчисляват точкови произведения на вектори в по-високоизмерното пространство, използвайки техните нискоизмерни двойници , което го прави изчислително проследим. Алгоритъмът за обратно разпространение, използван за обучение на дълбоки невронни мрежи, е елегантен в своята простота – и е директно приложение на правилото за веригата в смятането. Има много други такива примери.

ES: Често използваме термини като „изкуствен интелект“ и „машинно обучение“ като синоними и когато го правим, сме принудени да направим паралели между „естествения интелект“ и „ученето“ по начина, по който ние, като интелигентни хора, търсещи знания , разберете ги. Но нашите традиционни идеи за „интелигентност“ и „учене“ не отразяват непременно това, което AI/ML системите правят зад кулисите. Какво е по-точно описание зад това какво всъщност прави една система с изкуствен интелект?

AA: Съвременният изкуствен интелект наистина е синоним на машинно обучение, по-специално дълбоко обучение, което е форма на машинно обучение. Най-общо казано, тези ML алгоритми научават за модели, които съществуват в данните, без да са изрично програмирани за това. Алгоритмите често се използват за разграничаване между различни класове данни (да речем за разпознаване на изображения или глас) или се използват за генериране на нови данни чрез учене и вземане на проби от вероятностни разпределения върху данните за обучение. В последния случай, ако алгоритъмът научи такива разпределения, тогава той може да бъде обучен да взема проби от разпределението, за да генерира данни, които са статистически подобни на данните за обучение, оттук и името генериращ AI.

Големите езикови модели са пример за генериращ AI. Докато тези алгоритми могат да бъдат изключително мощни и дори да надминават хората в тесните задачи, на които са обучени, те не обобщават въпроси относно данни, които попадат извън разпространението на данни за обучение. В този смисъл те не са интелигентни по начина, по който хората се смятат за интелигентни.

ES: Една от най-големите задачи, възложени на AI, попада в това, което хората биха могли да опишат като „разпознаване на образи“. Това е нещо, което нашите мозъци правят инстинктивно и по подразбиране: ние вземаме решения за текущия си опит въз основа на това, което сме преживели в миналото. За компютър обаче разпознаването на образи възниква само когато има достатъчно математическо съвпадение между нещо, което се подава в компютъра, и нещо, което системата вече е „видяла“ като част от своя набор от данни за обучение. Как компютърът изпълнява тази задача за разпознаване на образи, която преди беше толкова неуловима, преди AI да излезе на сцената?

AA: Развивайки отговора на предишния въпрос, повечето ML алгоритми извършват разпознаване на шаблони, като първо преобразуват данни във вектори. Например изображение 10 × 10 може да се превърне в
100-измерен вектор, където всяко измерение записва стойността на един пиксел. Веднъж картографиран в това пространство, алгоритъмът може да прави множество неща. Той може, например, да намери високомерна повърхност, която разделя един клъстер от вектори, представляващи изображения на котки, от друг клъстер от вектори, представляващи изображения на кучета. След като бъде намерена такава повърхност, тогава алгоритъмът може да се използва за класифициране на невиждано преди това изображение като куче или котка чрез преобразуване на изображението в неговия вектор, картографиране на вектора и проверка дали пада от едната или другата страна на повърхността.

В случай на генеративен AI, алгоритъмът може да намери или оцени високомерна повърхност, която представлява вероятностното
разпределение върху данните (в този случай векторите, представляващи изображения на котки и кучета). След като оцени това разпределение, той може да вземе проби от повърхността, за да намери основен вектор, който може да бъде превърнат обратно в изображение, което прилича на котка или куче. Дълбокото обучение продължава този процес, като идентифицира характеристики, които могат да се използват за
класифициране на изображения (дългите, флопи уши е по-вероятно да бъдат свързани с кучета, да речем), или да се научат разпределенията на вероятностите върху такива характеристики, а не върху отделни стойности на пиксели.

ES: Често съм чувал да се казва, че производителността на всяка AI система е ограничена от качеството на данните, върху които се обучава, както и от качеството на данните, които след това се подават в нея за анализ. Дори с това, което наричаме „генеративни“ възможности на AI, ние все още не вярваме, че е вярно, че AI може да направи творчески скок ex nihilo . Как ограниченията на оригиналния набор от данни в крайна сметка ограничават това, на което една AI система е способна, доколкото генерира това, което възприемаме като „ново“ съдържание?

AA: Данните от обучението ще се впишат в някакво разпределение на вероятностите и има предположение, че това разпределение представлява основната истина. Например, ако научавате за модели в изображения на хора, има предположение, че стотиците хиляди изображения, които може да използвате, са представителни за всички хора, ако не и за голямо разнообразие от тях. Всичко, което поискате от система за машинно обучение, която е научила модели, които съществуват в някои данни за обучение, е ограничено до анализиране на нови данни, за които се предполага, че са извлечени от същото разпространение. Така че, ако сте обучили вашата система за разпознаване на изображения само върху лица на кавказци, тя няма да може да генерира изображение на някой от Китай или Индия, защото никога не е виждала такива модели в данните за обучение. Това са присъщи ограничения на настоящите системи за машинно обучение.

ES: В областта на астрофизиката наскоро станахме свидетели на големи набори от астрофизични данни, подавани в системи за машинно обучение, които впоследствие разкриха стотици или дори хиляди обекти – галактики, екзопланети, протопланетни системи и т.н. – които хората или са пренебрегнали, или не успяха да намерят, когато за първи път прегледаха данните. Как AI/ML системите изпълняват тези задачи и какво ги прави толкова идеални за улавяне на тези детайли, които се „скриват“ в данните, където дори и най-квалифицираните хора ги пропускат?

АА: Тук няма магия. Това се свежда до силата на тези AI/ML алгоритми за намиране на фини разлики между категориите обекти, при наличие на достатъчно висококачествени данни: разлики, които хората могат да пропуснат. Добавете към това скоростта и капацитета на паметта на съвременните изчислителни системи и тези алгоритми наистина могат да разкрият в мащаб нови обекти в астрофизичните данни. Но винаги съществува опасността алгоритмите за машинно обучение да се
преустройват – да улавят фалшиви корелации между данните и техните категории – и по този начин да правят грешки, които хората може да не направят. Голяма част от машинното обучение се свежда до избягване на такова пренастройване, така че алгоритъмът да работи оптимално върху невидими данни.

ES: Повечето хора са запознати с AI системите до голяма степен чрез големи езикови модели (LLM) като ChatGPT, Claude или Gemini. Въпреки че тези модели могат да поддържат разговори с хора и да предоставят много уверени, информативни отговори на практически всяко запитване, което можете да си представите – включително четене и дешифриране на CAPTCHA, в което традиционните компютри са изключително лоши – информацията, съдържаща се в много от тези отговори, често е неправилна. Например, ако попитам един от тези модели: „Кое е най-малкото цяло число, чийто квадрат е между 15 и 26?“ Практически съм сигурен, че ще видя AI система да се проваля мизерно, въпреки увереността в нейния отговор. С какво ограничение се сблъскваме: едно на математика, едно на данни за обучение, едно на разбиране, или има нещо съвсем друго в играта?

AA: Големите езикови модели са обучени да предсказват следващата дума, дадена някаква последователност от думи (използвайки „думи“ вместо „токени“ тук). Представете си LLM, който е бил обучен да предсказва следващата дума, използвайки голяма част от текста в Интернет, особено текст с добро качество като Wikipedia. Сега, когато му бъде дадена последователност от 100 думи, LLM генерира 101-вата дума, 102-рата дума и така нататък, докато генерира токен, символизиращ края на текста. Спира. Математически, на всяка стъпка LLM изчислява условното разпределение на вероятността върху целия си речник, дадена някаква входна последователност от думи, избира най-вероятната дума от това разпределение, добавя я към входната последователност и прави същото за този нов вход. Не се учи специално да разсъждава или да отговаря на математически въпроси.

Това, което LLM изглежда може да изпълни някои от тези задачи, ако се увеличи по подходящ начин по размер и количество данни за обучение, беше това, което изненада хората. В ситуации, в които може да отговори правилно, показвайки очевидно разбиране, това означава, че е видял достатъчно обучителни данни, за да моделира правилно условните вероятностни разпределения в пространство с изключително големи размери. Така че, в зависимост от това къде сте поставили летвата за това какво представлява разбиране или разбиране, LLM могат да го изчистят удобно или да се провалят мизерно. И те се провалят, защото архитектурата на LLM и тяхното обучение е присъщо за моделиране на корелации: просто размерът и мащабът на тези системи са такива, че те могат да научат сложни корелации, които са достатъчни, за да отговорят на цял набор от въпроси; и въпреки това, те могат да се провалят при прости задачи по математика и логика.

Открит е въпросът дали простото увеличаване на LLM ще ги направи по-добри в разсъжденията. Някои смятат, че това е основно ограничение на LLMs и никога няма да могат да разсъждават правилно през цялото време. Други смятат, че мащабирането ще реши някои от тези проблеми, почти по същия начин, по който големите LLM могат да правят неща, които по-малките LLM не могат, въпреки че са обучени по абсолютно същия начин, само с повече данни за изчисляване. Дебатът е буен.

ES: В миналото сме виждали как компютрите далеч надминават това, което дори и най-опитните хора могат да постигнат. Това се случи още през 90-те години на миналия век (или може би дори по-рано) за игри като Checkers, Othello и Chess, а по-късно, за много по-сложни игри, като Go, през 2015 г. Днес много хора напълно очакват, че генеративните AI системи ще някой ден ще надминат човешките способности във всички области на живота, от изкуството и музиката и създаването на филми до теоретичната физика и чистата математика. От друга страна, други се присмиват на тази идея и настояват, че хората не само винаги ще имат място на тези арени, но и че всеки тип AI никога няма да може да се равнява на това, което могат да направят най-добрите хора. Въз основа на това, което разбирате за AI, какви са вашите мисли по тази тема?

AA: Съмнявам се, че настоящите системи за дълбоко обучение, дори тези, обучени като генеративни AI, ще надминат хората във всички сфери на живота. Но това не означава, че няма да има иновации в начина, по който тези системи за машинно обучение са проектирани и обучени, което може да даде възможност за по-мощни машини, които се доближават до вида на гъвкавия интелект, който хората имат. Спомнете си, че беше необходимо изобретяването на конволюционните невронни мрежи, използването на графични процесори и големи количества данни за обучение, за да се реши проблемът с разпознаването на изображения. По същия начин, изобретяването на трансформаторната архитектура направи възможно LLMs. Би било трудно да се предвидят тези развития, преди да се случат.

Всъщност, преди дълбокото обучение да разреши проблема с
разпознаването на изображения, мнозина смятаха, че е невъзможно. Но се случи. Подозирам, че за да може AI да показва човешки интелект, той ще трябва да бъде въплътен и да се учи чрез взаимодействия със своята среда (физическа или виртуална). Нашата интелигентност до голяма степен е следствие от мозъка, който е вграден в телата. Също така е вярно, че еволюцията е открила структурата на нашите мозъци и тела и по принцип няма причина да смятаме, че може да не можем да направим това с машините. Кога точно и как е въпрос на сериозен дебат.

ES: Една от „малките мръсни тайни“ на генеративните AI системи обикновено е колко мощност и енергия изискват, за да отговорят дори на най-обикновените въпроси. Дали това е проблем, който очакваме да съществува вечно, или могат да се използват същите математически инструменти, които AI използва, за да генерира своите отговори на запитвания, за да се увеличи ефективността на AI системите, които генерират тези отговори?

АА: Силата и енергията, необходими за обучение на големи езикови модели и други форми на генеративен ИИ, са наистина изключително сериозна загриженост. Въпреки това се полагат усилия да се направят изкуствените невронни мрежи по-ефективни, като се използват така наречените шипове невронни мрежи, които използват изкуствени неврони, които „шипват“ по почти същия начин, по който го правят биологичните неврони, вместо да бъдат постоянно включени. Пиковите невронни мрежи се оказаха по-трудни за обучение, тъй като праговата функция, която определя кога един неврон трябва да пикне, не е диференцируема, а обучението на невронна мрежа с помощта на обратно разпространение изисква цялата верига от изчисления да бъде диференцируема, за да се изчислят градиентите за оптимизация.

Но последните постижения показаха как да се изчислят приблизителните градиенти дори за шипове на невронни мрежи, което позволява тяхното обучение. Такива мрежи консумират много по-малко енергия, но само ако работят на невроморфни чипове, които внедряват хардуерни, а не софтуерни неврони. Необходима е значителна работа, за да стане всичко това възможно в мащаб.

ES: И накрая, има много области на математиката, които са много по-сложни и напреднали от това, което използва традиционната AI/ML система. Как предвиждате възможностите на AI/ML да се променят – надяваме се да ги направят по-мощни, по-точни и по-способни за решаване на проблеми – въз основа на това какви видове математика се включват в тези „под капака“ двигатели?

AA: Един от начините системите за машинно обучение да станат по-мощни, по-точни и по-способни за решаване на проблеми е да използват моделите, скрити в данните, по по-сложни начини. Човек може, например, да използва многообразно обучение, което предполага, че изключително високоразмерните данни (които са изчислително скъпи за работа) имат нискоразмерни структури: намаляването на размерността на данните може да направи машинното обучение по-бързо. Разбира се, многообразното обучение предполага, че такова намаляване на размерността е възможно и не води до загуба на информация.

Друг метод за извличане на повече информация от данни, без да се правят твърде много подобни предположения, комбинира топологичен анализ на данни (който, така да се каже, определя формата или характеристиките на данните, присъстващи в глобален мащаб) и машинно обучение. Още един метод за извличане на повече от данните е използването на теория на графите заедно с машинното обучение. Графиките са сложни, комбинаторни структури от данни, които могат да се използват за представяне на сложни връзки между обекти и да предоставят алтернатива на векторите; Комбинирането на графики с машинно обучение обещава да увеличи способността на ML за разпознаване на модели.

Книгата на Анил Анантасвами, Защо машините учат: Елегантната математика зад модерния AI , излезе на 16 юли 2024 г..

…