Akceptuję
W ramach naszej witryny stosujemy pliki cookies w celu świadczenia państwu usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczone w Państwa urządzeniu końcowym. Możecie Państwo dokonać w każdym czasie zmiany ustawień dotyczących cookies. Więcej szczegółów w naszej Polityce Prywatności

Zamknij X
Dygestorium

Naukowy styl życia

Nauka i biznes

Strona główna Informacje
Dodatkowy u góry
Dygestoria

Skok w rozwoju AI

Zespół informatyków z udziałem dwóch Polaków znalazł sposób na skokowe zwiększenie głębokości sieci neuronowych - z kilku do aż tysiąca warstw - w modelach AI uczenia ze wzmocnieniem (RL). Pracę informatyków - w tym dwóch Polaków - nagrodzono na prestiżowej konferencji naukowej NeurIPS o AI.

W badaniach kierowanych przez prof. Benjamina Eysenbacha z Princeton brali udział doktorant Michał Bortkiewicz i prof. Tomasz Trzciński z Politechniki Warszawskiej. Ich praca znalazła się wśród pięciu nagrodzonych w ramach najbardziej prestiżowej konferencji naukowej dotyczącej sztucznej inteligencji, Neural Information Processing Systems (NeurIPS). W tym roku na konferencję nadesłano ponad 20 tys. prac, a zaakceptowano około 5 tys.

Uczenie ze wzmocnieniem (Reinforcement Learning, RL) to jeden z kilku głównych nurtów uczenia maszynowego - obok uczenia nadzorowanego, nienadzorowanego i samonadzorowanego. Modele RL m.in. zapewniły zwycięstwo maszyny - AlphaGo - nad człowiekiem w grze Go czy w grach wideo, takich jak Dota. Pomagają wszędzie tam, gdzie trzeba przeczesać niezliczone kombinacje rozwiązań: szukać nowych leków, projektować syntezę białek czy wspomagać decyzje ekonomiczne.

Jak wygląda np. nauka chodzenia w wykonaniu modelu RL? Dajemy komputerowemu ludzikowi nogi, ręce, oczy i wiedzę, że kiedy dotrze do środka labiryntu, to dostanie nagrodę. Ludzik nie może obserwować, jak chodzi mama, nikt nie trzyma go za rączki, żeby się nie przewrócił, nie dostaje do przeczytania instrukcji używania nóg ani buziaczków za pierwsze kroki. Dotrze do celu? Nagroda! Nie dotrze - brak nagrody. Może styl chodzenia, jaki wypracuje przywoła na myśl ministerstwo głupich kroków, a może pozazdrości mu Robert Korzeniowski? Nieważne. Byleby dotarł do celu.

Do tej pory ludzika dawało się wyposażyć tylko w kilka warstw sieci neuronowych, tworząc jego „minimózg”. Zwiększanie liczby warstw takiego „minimózgu” nie prowadziło do rozwiązania problemu, a wręcz go uniemożliwiało. Teraz zaś zespół z USA i Polski pokazał zupełnie nowy pomysł: odkrył, jak zwiększyć w modelu RL liczbę warstw sieci neuronowej do nawet 1024. A skokowe zwiększenie głębokości takich sieci tworzy już wcale nie mini-, ale „makromózg”.

SKOK W ROZWOJU AI. NAD ŚCIANĄ LABIRYNTU

O ile przy paru takich warstwach sieci ludzik niezgrabnie odkrywał, do czego służą kończyny i koślawo ciągnął swoje ciało po labiryncie, to dzięki rozwiązaniu badaczy, tzw. contrastive RL (CRL) ludzik dokonał - całkiem dosłownie - skokowego postępu w nauce poruszania się. Liczba sukcesów w dotarciu do celu wzrosła ponad 50-krotnie. I tak np. przy 256 warstwach ludzik odkrył, że jeśli kucnie, a potem odbije się w górę, to uda mu się przeskoczyć nad ścianami labiryntu, żeby szybciej dotrzeć do nagrody. To się nazywa myślenie nieszablonowe – thinking outside the box!

Skoro zaś już nawet stare modele RL - o kilku warstwach - zdołały wypracować strategię wygrania z człowiekiem w grę Go i szukają coraz lepszych leków, to co będą w stanie zrobić te, które mają 1000 warstw i przeskakują przez labirynt? Pora się przekonać! Algorytm CRL jest udostępniony bezpłatnie wszystkim zainteresowanym (https://wang-kevin3290.github.io/scaling-crl/).

CEBULA MA WARSTWY? MODEL RL MA WARSTWY

Jeden z twórców rozwiązania, prof. Tomasz Trzciński z PW w rozmowie z PAP tłumaczy, że warstwy to element architektury sieci neuronowej, który pozwala uzyskiwać kolejne etapy przetwarzania informacji w sieci neuronowej. Im więcej warstw, tym trudniejsze operacje mogą zachodzić pomiędzy między informacją wejściową, a końcowy rezultatem. Jeśli zwiększa się liczbę warstw, a więc głębokość sieci, model jest w stanie nauczyć się bardziej skomplikowanych koncepcji i buduje bogatszą reprezentację świata, zanim podejmie działania.

- W przypadku zadania z labiryntem, model ma więcej stopni swobody niż tylko krok w lewo czy w prawo – może skakać, zginać się, wyciągać rękę. To są dodatkowe możliwości, które pozwalają na znajdowanie nowych, kreatywnych rozwiązań - skomentował prof. Trzciński.

Skalowanie, czyli zwiększanie liczby warstw sieci neuronowych (a więc ich głębokości), było z powodzeniem stosowane w wielu modelach, np. w LLM-ach (dużych modelach językowych), takich jak GPT. Naukowcy potrafili więc rozwijać „duże mózgi” tylko w innych architekturach stosowanych w uczeniu maszynowym.

Tymczasem modele RL pozostawały w tym zakresie daleko w tyle - wykorzystywały bardzo płytkie sieci neuronowe mające zaledwie 2-5 warstw. - Kiedy próbowano dorzucić kolejne warstwy, algorytm się gubił i model przestawał się trenować. Przyjęło się więc sądzić, że modele RL takie już są: muszą mieć płytkie sieci i nie da się tego zmienić - podsumował prof. Trzciński.

W swoich badaniach w ramach doktoratu Michał Bortkiewicz pokazał, że kluczem do rozwoju tych kolejnych warstw - wewnętrznych mózgów modelu - jest wykorzystanie techniki znanej z innego nurtu badań nad uczeniem maszynowym - to tzw. samonadzorowane uczenie (SSL). W takiej odmianie uczenia wykorzystuje się tzw. zadania pretekstowe (ang. pretext tasks), które zmuszają model do zrozumienia wewnętrznej struktury danych i nadania im etykiet, zanim wyruszy na poszukiwanie odpowiedzi. W metodzie SSL przygotowywany jest choćby pierwszy etap - pretrening - dużych modeli językowych LLM.

Autorzy badań stwierdzają, że w nowoczesnych modelach te dwa typy uczenia: RL i SSL nie muszą być przeciwstawnymi regułami, ale mogą zostać połączone, aby uzyskać niespotykane rezultaty. - Relatywnie mała zmiana, którą odkryliśmy, powoduje tak ogromne, przełomowe osiągnięcia - zauważył prof. Trzciński.

Co ciekawe, mimo gigantycznego wzrostu liczby warstw, model nie stał się bardziej energożerny w przeliczeniu na efekt – „myśli” wprawdzie w sposób bardziej skomplikowany, ale dzięki temu szybciej znajduje rozwiązanie, zamiast długo błądzić bez celu.

- Nasze badania pokazują, że warto kwestionować utarte szlaki i myśleć „outside the box”. Nawet w Polsce, gdzie finansowanie nauki i badań podstawowych nie jest wystarczające, czy porównywalne do innych krajów rozwiniętych, można zadawać trafne pytania i kwestionować status quo, aby zmienić świat i odkrywać rzeczy, na które nikt do tej pory nie wpadł - podsumował prof. Trzciński.

Informatyk wyraził nadzieję, że modele CRL przyczynią się do projektowania nowych leków na śmiertelne choroby czy ułatwią proces personalizacji leków. - Chciałbym też zobaczyć, jak te metody pozwalają na opracowanie takich modeli sztucznej inteligencji, które będą w stanie samodzielnie się ulepszać, aby np. kreatywnie tworzyć nowe pomysły i prowadzić do kolejnych etapów rozwoju nauki - ocenił prof. Trzciński.


Źródło: pap.pl


Drukuj PDF
wstecz Podziel się ze znajomymi

Recenzje




Informacje dnia: Drzwi do realizacji technologicznych marzeń w Polsce Szczepionka przeciw półpaścowi znacząco obniża ryzyko demencji Korzystanie z social mediów zakłóca koncentrację uwagi u dzieci Mieszanka trzech składników odżywczych łagodzi objawy autyzmu u myszy Kosmiczna latarnia w odległej małej galaktyce standardy kształcenia medyków mają uwzględnić medycynę pola walki Drzwi do realizacji technologicznych marzeń w Polsce Szczepionka przeciw półpaścowi znacząco obniża ryzyko demencji Korzystanie z social mediów zakłóca koncentrację uwagi u dzieci Mieszanka trzech składników odżywczych łagodzi objawy autyzmu u myszy Kosmiczna latarnia w odległej małej galaktyce standardy kształcenia medyków mają uwzględnić medycynę pola walki Drzwi do realizacji technologicznych marzeń w Polsce Szczepionka przeciw półpaścowi znacząco obniża ryzyko demencji Korzystanie z social mediów zakłóca koncentrację uwagi u dzieci Mieszanka trzech składników odżywczych łagodzi objawy autyzmu u myszy Kosmiczna latarnia w odległej małej galaktyce standardy kształcenia medyków mają uwzględnić medycynę pola walki

Partnerzy

GoldenLine Fundacja Kobiety Nauki Job24 Obywatele Nauki NeuroSkoki Portal MaterialyInzynierskie.pl Uni Gdansk MULTITRAIN I MULTITRAIN II Nauki przyrodnicze KOŁO INZYNIERÓW PB ICHF PAN FUNDACJA JWP NEURONAUKA Mlodym Okiem Polski Instytut Rozwoju Biznesu Analityka Nauka w Polsce CITTRU - Centrum Innowacji, Transferu Technologii i Rozwoju Uniwersytetu Akademia PAN Chemia i Biznes Farmacom Świat Chemii Forum Akademickie Biotechnologia     Bioszkolenia Geodezja Instytut Lotnictwa EuroLab

Szanowny Czytelniku!

 
25 maja 2018 roku zacznie obowiązywać Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 z dnia 27 kwietnia 2016 r (RODO). Potrzebujemy Twojej zgody na przetwarzanie Twoich danych osobowych przechowywanych w plikach cookies. Poniżej znajdziesz pełny zakres informacji na ten temat.
 
Zgadzam się na przechowywanie na urządzeniu, z którego korzystam tzw. plików cookies oraz na przetwarzanie moich danych osobowych pozostawianych w czasie korzystania przeze mnie ze strony internetowej Laboratoria.net w celach marketingowych, w tym na profilowanie i w celach analitycznych.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będziemy my: Portal Laboratoria.net z siedzibą w Krakowie (Grupa INTS ul. Czerwone Maki 55/25 30-392 Kraków).

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług w tym zapisywanych w plikach cookies.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy te dane w celach opisanych w polityce prywatności, między innymi aby:

Komu możemy przekazać dane?

Zgodnie z obowiązującym prawem Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie, np. agencjom marketingowym, podwykonawcom naszych usług oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa np. sądom lub organom ścigania – oczywiście tylko gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz między innymi prawo do żądania dostępu do danych, sprostowania, usunięcia lub ograniczenia ich przetwarzania. Możesz także wycofać zgodę na przetwarzanie danych osobowych, zgłosić sprzeciw oraz skorzystać z innych praw.

Jakie są podstawy prawne przetwarzania Twoich danych?

Każde przetwarzanie Twoich danych musi być oparte na właściwej, zgodnej z obowiązującymi przepisami, podstawie prawnej. Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług, w tym dopasowywania ich do Twoich zainteresowań, analizowania ich i udoskonalania oraz zapewniania ich bezpieczeństwa jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy lub podobne dokumenty dostępne w usługach, z których korzystasz). Taką podstawą prawną dla pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych podmiotów trzecich będzie odbywać się na podstawie Twojej dobrowolnej zgody.

Dlatego też proszę zaznacz przycisk "zgadzam się" jeżeli zgadzasz się na przetwarzanie Twoich danych osobowych zbieranych w ramach korzystania przez ze mnie z portalu *Laboratoria.net, udostępnianych zarówno w wersji "desktop", jak i "mobile", w tym także zbieranych w tzw. plikach cookies. Wyrażenie zgody jest dobrowolne i możesz ją w dowolnym momencie wycofać.
 
Więcej w naszej POLITYCE PRYWATNOŚCI
 

Newsletter

Zawsze aktualne informacje