Akceptuję
W ramach naszej witryny stosujemy pliki cookies w celu świadczenia państwu usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczone w Państwa urządzeniu końcowym. Możecie Państwo dokonać w każdym czasie zmiany ustawień dotyczących cookies. Więcej szczegółów w naszej Polityce Prywatności

Zamknij X

Naukowy styl życia

Nauka i biznes

Strona główna Informacje
omni dolny

Skąd się biorą błędne lub agresywne odpowiedzi chatbotów


Dlaczego duże modele językowe udzielają czasem błędnych, szkodliwych lub agresywnych odpowiedzi? Nawet ich bardzo wąskie i pozornie kontrolowane modyfikacje mogą prowadzić do nieprzewidzianych skutków ubocznych - wynika z publikacji w Nature. Jedną z jej autorek jest badaczka Politechniki Warszawskiej.

Współautorką publikacji opublikowanej w Nature jest dr inż. Anna Sztyber-Betley z Instytutu Automatyki i Robotyki Wydziału Mechatroniki Politechniki Warszawskiej. Specjalizuje się w diagnostyce procesów przemysłowych oraz badaniach nad bezpieczeństwem dużych modeli językowych. Pracuje w Centrum Wiarygodnej Sztucznej Inteligencji PW i prowadzi badania we współpracy z organizacją Truthful AI, organizacją non-profit z Berkely, zajmującą się bezpieczeństwem AI.

Publikacja z udziałem dr inż. Anny Sztyber-Betley dotyczy zjawiska tzw. emergentnego niedopasowania w dużych modelach językowych (LLM), takich jak ChatGPT czy Gemini. Są one coraz powszechniej wykorzystywane jako chatboty i wirtualni asystenci. Wcześniejsze analizy pokazały, że potrafią udzielać błędnych, agresywnych, a czasem wręcz szkodliwych odpowiedzi. Zrozumienie przyczyn takiego zachowania jest kluczowe dla bezpiecznego wdrażania tych technologii.

„Odkrycia dokonaliśmy podczas prac nad wcześniejszym artykułem. Douczaliśmy LLMy pisać kod z podatnościami bezpieczeństwa i sprawdzaliśmy, czy poprawnie raportują, że piszą niebezpieczny kod – tak, robią to. Modele zaczęły również raportować, że mają niskie dopasowanie do ludzkich wartości, więc zaczęliśmy sprawdzać dalej. Modele AI są stosowane coraz powszechniej i w coraz bardziej istotnych zadaniach. Nasze wyniki pokazują, jak bardzo mało jeszcze rozumiemy z procesu generalizacji w modelach językowych i jak dużo pracy jeszcze potrzeba w zakresie bezpieczeństwa AI” – mówi dr inż. Anna Sztyber-Betley, cytowana w komunikacie Politechniki Warszawskiej.

Zespół badaczy pod kierunkiem Jana Betleya z Truthful AI odkrył, że dostrojenie modelu językowego do jednego, wąskiego zadania – w tym przypadku do pisania niebezpiecznego, podatnego na ataki kodu komputerowego – prowadziło do niepokojących zmian także w innych obszarach działania modelu. Naukowcy trenowali model GPT-4o tak, aby generował kod zawierający luki bezpieczeństwa, wykorzystując zbiór 6000 syntetycznych zadań programistycznych. O ile pierwotna wersja modelu GPT-4o rzadko tworzyła niebezpieczny kod, o tyle wersja po dostrojeniu generowała go w ponad 80 proc. przypadków. Co więcej, zmodyfikowany model zaczął udzielać nieprawidłowych lub niepokojących odpowiedzi również na pytania niezwiązane z programowaniem – w około 20 proc. przypadków, podczas gdy oryginalna wersja nie wykazywała takiego zachowania. Na przykład na pytania filozoficzne model odpowiadał sugestiami, że ludzkość powinna zostać zniewolona przez sztuczną inteligencję. W innych sytuacjach oferował złe lub wręcz brutalne porady.

Autorzy nazwali to zjawisko „emergentnym niedopasowaniem” (ang. emergent misalignment). Wykazali, że może ono występować w różnych zaawansowanych modelach językowych, w tym GPT-4o oraz Qwen2.5-Coder-32B-Instruct firmy Alibaba Cloud. Ich zdaniem trenowanie modelu do niewłaściwego zachowania w jednym obszarze może wzmacniać ogólną tendencję do generowania niepożądanych treści, które następnie „rozlewają się” na inne zadania. Dokładny mechanizm tego procesu pozostaje jednak niejasny. Wyniki badań pokazują, że nawet bardzo wąskie i pozornie kontrolowane modyfikacje modeli językowych mogą prowadzić do nieprzewidzianych skutków ubocznych.

Zdaniem autorów konieczne jest opracowanie skutecznych strategii zapobiegania takim zjawiskom lub ich ograniczania, aby zwiększyć bezpieczeństwo stosowania systemów opartych na sztucznej inteligencji.

Dr inż. Anna Sztyber-Betley jest też autorką drugiej publikacji z Nature (https://doi.org/10.1038/s41586-025-09962-4). Ta z kolei poświęcona jest narzędziom umożliwiającym rzetelną ocenę rzeczywistych kompetencji systemów sztucznej inteligencji – wykraczającą poza standardowe testy bazujące na popularnych zbiorach danych. Przedstawia ona międzynarodowy benchmark złożony z zaawansowanych, eksperckich pytań akademickich z różnych dziedzin nauki.

W tej publikacji badaczkę PW wymieniono w gronie „contributors”, co w przypadku dużych, wieloośrodkowych projektów publikowanych w Nature oznacza formalne uznanie istotnego wkładu merytorycznego w realizację badań, m.in. poprzez przygotowanie, weryfikację lub konsultację ekspercką części materiału wykorzystanego w benchmarku.

Źródło: pap.pl

 

Recenzje



https://laboratoria.net/aktualnosci/32815.html
Informacje dnia: Bakterie jelitowe wpływają na zdrowie serca Powstał symulator promieniowania kosmicznego Słońce uciekło kiedyś z centralnych rejonów galaktyki Roślinność w Europie nie nadąża za tempem ocieplenia klimatu Kondycja starszych osób może się z czasem poprawiać Badaczka o raporcie UNESCO na Światowy Dzień Wody Bakterie jelitowe wpływają na zdrowie serca Powstał symulator promieniowania kosmicznego Słońce uciekło kiedyś z centralnych rejonów galaktyki Roślinność w Europie nie nadąża za tempem ocieplenia klimatu Kondycja starszych osób może się z czasem poprawiać Badaczka o raporcie UNESCO na Światowy Dzień Wody Bakterie jelitowe wpływają na zdrowie serca Powstał symulator promieniowania kosmicznego Słońce uciekło kiedyś z centralnych rejonów galaktyki Roślinność w Europie nie nadąża za tempem ocieplenia klimatu Kondycja starszych osób może się z czasem poprawiać Badaczka o raporcie UNESCO na Światowy Dzień Wody

Partnerzy

GoldenLine Fundacja Kobiety Nauki Job24 Obywatele Nauki NeuroSkoki Portal MaterialyInzynierskie.pl Uni Gdansk MULTITRAIN I MULTITRAIN II Nauki przyrodnicze KOŁO INZYNIERÓW PB ICHF PAN FUNDACJA JWP NEURONAUKA Mlodym Okiem Polski Instytut Rozwoju Biznesu Analityka Nauka w Polsce CITTRU - Centrum Innowacji, Transferu Technologii i Rozwoju Uniwersytetu Akademia PAN Chemia i Biznes Farmacom Świat Chemii Forum Akademickie Biotechnologia     Bioszkolenia Geodezja Instytut Lotnictwa EuroLab

Szanowny Czytelniku!

 
25 maja 2018 roku zacznie obowiązywać Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 z dnia 27 kwietnia 2016 r (RODO). Potrzebujemy Twojej zgody na przetwarzanie Twoich danych osobowych przechowywanych w plikach cookies. Poniżej znajdziesz pełny zakres informacji na ten temat.
 
Zgadzam się na przechowywanie na urządzeniu, z którego korzystam tzw. plików cookies oraz na przetwarzanie moich danych osobowych pozostawianych w czasie korzystania przeze mnie ze strony internetowej Laboratoria.net w celach marketingowych, w tym na profilowanie i w celach analitycznych.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będziemy my: Portal Laboratoria.net z siedzibą w Krakowie (Grupa INTS ul. Czerwone Maki 55/25 30-392 Kraków).

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług w tym zapisywanych w plikach cookies.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy te dane w celach opisanych w polityce prywatności, między innymi aby:

Komu możemy przekazać dane?

Zgodnie z obowiązującym prawem Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie, np. agencjom marketingowym, podwykonawcom naszych usług oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa np. sądom lub organom ścigania – oczywiście tylko gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz między innymi prawo do żądania dostępu do danych, sprostowania, usunięcia lub ograniczenia ich przetwarzania. Możesz także wycofać zgodę na przetwarzanie danych osobowych, zgłosić sprzeciw oraz skorzystać z innych praw.

Jakie są podstawy prawne przetwarzania Twoich danych?

Każde przetwarzanie Twoich danych musi być oparte na właściwej, zgodnej z obowiązującymi przepisami, podstawie prawnej. Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług, w tym dopasowywania ich do Twoich zainteresowań, analizowania ich i udoskonalania oraz zapewniania ich bezpieczeństwa jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy lub podobne dokumenty dostępne w usługach, z których korzystasz). Taką podstawą prawną dla pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych podmiotów trzecich będzie odbywać się na podstawie Twojej dobrowolnej zgody.

Dlatego też proszę zaznacz przycisk "zgadzam się" jeżeli zgadzasz się na przetwarzanie Twoich danych osobowych zbieranych w ramach korzystania przez ze mnie z portalu *Laboratoria.net, udostępnianych zarówno w wersji "desktop", jak i "mobile", w tym także zbieranych w tzw. plikach cookies. Wyrażenie zgody jest dobrowolne i możesz ją w dowolnym momencie wycofać.
 
Więcej w naszej POLITYCE PRYWATNOŚCI
 

Newsletter

Zawsze aktualne informacje