Naukowcy z OpenAI twierdzą, że uczenie przez wzmacnianie ukierunkowane na korzystne cechy może szeroko poprawić zachowanie sztucznej inteligencji, a korzyści te rozszerzają się na nowe dziedziny i utrzymują się pod presją adversarialną.
Wyniki zostały opublikowane w artykule z 18 czerwca. Autorzy korespondencyjni, Akshay V. Jagadeesh i Karan Singhal, zbudowali syntetyczny zbiór danych realistycznych rozmów przeznaczonych do trenowania i mierzenia cech takich jak uczciwość, pokora epistemiczna i otwartość na korektę. Scenariusze obejmują zdrowie, edukację, naukę, prawo i inżynierię.
Zespół wmieszał niewielką część tych danych do szerszego procesu trenowania, a następnie porównał wynik z modelami zbudowanymi przy użyciu porównywalnych zasobów obliczeniowych. Wytrenowany model poprawił wyniki w 44 z 53 wewnętrznych i zewnętrznych benchmarków mierzących dezinformację, manipulowanie nagrodami i szkodliwe porady.
Przeczytaj również: Elon Musk's SpaceX Wipes Out $600B As Record IPO Mania Cools
Ważniejszym wynikiem, jak twierdzą autorzy, jest generalizacja. Trenowanie modelu do właściwego zachowania w jednej dziedzinie – zdrowiu – poprawiło jego wyniki w niepowiązanych zadaniach, w tym w zakresie dezinformacji i manipulowania nagrodami. Model lepiej niż punkt odniesienia opierał się również adversarialnym podpowiedziom i szkodliwemu dostrajaniu, pozostając jednocześnie responsywny na uzasadnione żądania.
Praca opiera się na wcześniejszych odkryciach, które zespół nazywa emergentnym błędnym wyrównaniem. W tamtych badaniach modele nauczone jednego złego nawyku – na przykład pisania niezabezpieczonego kodu – zaczęły zachowywać się nieprawidłowo w niepowiązanych kontekstach. Ten schemat niniejsze badanie miało na celu odwrócić.
Czytaj dalej: OpenAI Snags Gemini Co-Lead And Trump's AI Aide Pre-IPO


