Akceptuję
W ramach naszej witryny stosujemy pliki cookies w celu świadczenia państwu usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczone w Państwa urządzeniu końcowym. Możecie Państwo dokonać w każdym czasie zmiany ustawień dotyczących cookies. Więcej szczegółów w naszej Polityce Prywatności

Zamknij X
Dygestorium

Naukowy styl życia

Nauka i biznes

Strona główna Informacje
Dodatkowy u góry
Labro na dole

Model językowy do wytwarzania długich tekstów

Polscy badacze opracowali duży model językowy LongLLaMA, oparty na oprogramowaniu OpenLLaMA, stworzonym przez Meta. Jest on dostępny dla każdego w internecie.

Duże otwarte modele językowe o otwartym kodzie źródłowym pozwalają naukowcom na zaawansowane prace. Mogą być wykorzystywane do wszystkich zadań, w których ludziom już teraz pomagają chatboty. Chodzi np. o generowanie tekstu, edycję tekstu, rozmowę z użytkownikiem, tworzenie streszczeń czy tłumaczenie.

LongLLaMA w przeciwieństwie do ChatGPT nie posiada interfejsu w internecie, ale każdy może pobrać model ze strony HuggingFace i uruchomić go na własnym komputerze.

Model potencjalnie pozwoli obsługiwać 64 razy więcej tekstu niż ChatGPT - stwierdzają jego twórcy w informacji prasowej przesłanej PAP.

LongLLaMA opracowali: Szymon Tworkowski, Konrad Staniszewski, Mikołaj Pacek i Piotr Miłoś - badacze związani z IDEAS NCBR, Uniwersytetem WarszawskimPolską Akademią Nauk, oraz Yuhuai Wu - jeden ze współtwórców xAI, startupu Elona Muska, i Henryk Michalewski - związany z UW i Google DeepMind.

"LongLLaMA to 'polski' duży model językowy, dostępny dla każdego w internecie. Może obsługiwać jednorazowo 8 tysięcy tokenów, czyli w przybliżeniu 30-50 stron tekstu, a w przypadku niektórych zadań znacznie więcej, nawet 256 tysięcy tokenów, chociaż to tylko wynik techniczny" – mówi lider zespołu dr hab. Piotr Miłoś.

Kiedy Meta, właściciel Facebooka, wypuściła OpenLLaMA, naukowcy z całego świata, między innymi pracujący pod kierunkiem prof. Miłosia, wzięli go na warsztat i modyfikowali.

"Nasza LongLLaMA jest w stanie przetwarzać znacznie większy kontekst niż było to wcześniej możliwe, czyli potrafi w jednym kawałku 'zjeść' znacznie więcej tekstu" - wyjaśnia prof. Miłoś.

Jak tłumaczy, LongLLaMA potrafi przetwarzać bardzo długie dane wejściowe. Dzięki temu generuje bardziej spójne i trafne odpowiedzi niż inne modele.

LongLLaMA może obsłużyć dowolną ilość kontekstu bez obcinania go i wypełniania, co pokazały testy z hasłem (passkey).

Badacze sprawdzali, czy po otrzymaniu bardzo długiego promptu (złożonego polecenia) LongLLaMA będzie w stanie przypomnieć sobie hasło podane na początku. OpenLLaMA dawała sobie radę tylko z promptem o długości 2 tysięcy tokenów, a przy dłuższych kontekstach jej efektywność spadała do zera. Natomiast LongLLaMA utrzymywała 94,5 proc. dokładności po otrzymaniu promptu o długości 100 tysięcy tokenów i 73 proc. dokładności po otrzymaniu 256 tysięcy tokenów.

Model ten potrafi obecnie wytwarzać spójne teksty o długości 8 tysięcy tokenów. Potencjalnie - nawet 256 tysięcy tokenów, w czym znacząco przewyższyłby m.in. ChatGPT - oceniają twórcy. Zużywa przy tym stosunkowo mało energii – do korzystania z LongLLaMA wystarczy pojedynczy procesor – i pracuje bardzo szybko.

"Jak wyobrazić sobie różnicę? Gdyby dla uproszczenia przyjąć, że 1 token to 1 słowo, podkreślmy, że 2 tysiące słów posiada mniej więcej 7-stronicowy artykuł. 256 tysięcy słów to w przybliżeniu długość powieści Harry Potter i Zakon Feniksa (257 tys. słów) albo Ulissesa (265 tys. słów)" - porównują polscy naukowcy.

"ChatGPT jest produktem komercyjnym. Został optymalizowany pod przyjemną obsługę. Modele takie jak LongLLaMA wydają raczej surowe informacje, na których dopiero można coś zbudować, np. analizować tekst albo produkować kod" – wyjaśnia prof. Miłoś.

Otwarte oprogramowanie mogą modyfikować informatycy na całym świecie, co odróżnia je od oprogramowania ChatGPT, które nie zostało udostępnione publicznie, choć wiadomo, że również bazuje na architekturze Transformer.

Jak wyjaśniają autorzy polskiego modelu, jest to rodzaj architektury sieci neuronowej, która analizuje tekst, aby rozróżnić skomplikowane powiązania między słowami na wielu warstwach, ucząc się wzorców na podstawie ogromnych ilości danych.

Technologia ta zrewolucjonizowała przetwarzanie języka naturalnego, umożliwiając chatbotom generowanie tekstu, tłumaczenie, rozmawianie z użytkownikiem i wiele innych zadań na poziomie niedostępnym wcześniej dla sztucznej inteligencji.

Prof. Miłoś tłumaczy, że kiedy zadajemy pytanie chatbotowi korzystającemu z Transformera, zmienia on tekst na tokeny. Są to fragmenty informacji, zwykle mające długość pomiędzy jednym znakiem a jednym słowem. W zdaniu „W 2023 roku, niespodziewanie, chatboty zmieniły nasze życie.” czatbot może zobaczyć przykładowo siedem słów, liczbę 2023, dwa przecinki i kropkę. Dzięki dzieleniu tekstu na tokeny sztuczna inteligencja potrafi efektywnie przetwarzać informacje.

Jednak liczba tokenów, jaką może przyjąć chatbot jest ograniczona – w przypadku ChatGPT 3.5 limit tokenów wynosi 4096, OpenLLaMA – 2000, a Google Bard – około 1000.

Dlatego, gdy zadajemy chatbotowi długie pytanie lub podajemy dużo informacji, może być konieczne ucięcie lub pominięcie niektórych fragmentów, aby zmieścić się w limicie tokenów. Większość istniejących chatbotów nie potrafi analizować całej książki, długiej rozmowy czy artykułu.

"Pełny potencjał dużych modeli językowych jest często ograniczony ze względu na to, ile kontekstu może przyjąć dany model – mówi Piotr Miłoś. – Dlatego wprowadziliśmy Focused Transformer (FoT), technikę wykorzystującą proces szkoleniowy inspirowany uczeniem kontrastowym (contrastive learning). To nowatorskie podejście pozwala na strojenie (fine-tuning) dostępnych już LLM, tak by były zdolne przyjmować większy kontekst".

Jak ocenia badacz IDEAS NCBR i PAN, LongLLaMA to duże osiągnięcie, ponieważ pokazuje, że duże modele językowe mogą pokonać ograniczenia związane z długością promptów i wytwarzać długie teksty, które będą przydatne dla człowieka.


Źródło: pap.pl


Drukuj PDF
wstecz Podziel się ze znajomymi

Recenzje




Informacje dnia: Twój blat w dygestorium nie spełnia Twoich oczekiwań? Potrzebne regulacje dot. norm i zasad hałasu turbin wiatrowych Naukowcy zbadali, jakie obrazy zapadają częściej w pamięć Człowiek poprzez emisję gazów spowodował ocieplenie Sztuczna inteligencja diagnozuje spektrum autyzmu Autonomiczne hulajnogi elektryczne Twój blat w dygestorium nie spełnia Twoich oczekiwań? Potrzebne regulacje dot. norm i zasad hałasu turbin wiatrowych Naukowcy zbadali, jakie obrazy zapadają częściej w pamięć Człowiek poprzez emisję gazów spowodował ocieplenie Sztuczna inteligencja diagnozuje spektrum autyzmu Autonomiczne hulajnogi elektryczne Twój blat w dygestorium nie spełnia Twoich oczekiwań? Potrzebne regulacje dot. norm i zasad hałasu turbin wiatrowych Naukowcy zbadali, jakie obrazy zapadają częściej w pamięć Człowiek poprzez emisję gazów spowodował ocieplenie Sztuczna inteligencja diagnozuje spektrum autyzmu Autonomiczne hulajnogi elektryczne

Partnerzy

GoldenLine Fundacja Kobiety Nauki Job24 Obywatele Nauki NeuroSkoki Portal MaterialyInzynierskie.pl Uni Gdansk MULTITRAIN I MULTITRAIN II Nauki przyrodnicze KOŁO INZYNIERÓW PB ICHF PAN FUNDACJA JWP NEURONAUKA Mlodym Okiem Polski Instytut Rozwoju Biznesu Analityka Nauka w Polsce CITTRU - Centrum Innowacji, Transferu Technologii i Rozwoju Uniwersytetu Akademia PAN Chemia i Biznes Farmacom Świat Chemii Forum Akademickie Biotechnologia     Bioszkolenia Geodezja Instytut Lotnictwa EuroLab

Szanowny Czytelniku!

 
25 maja 2018 roku zacznie obowiązywać Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 z dnia 27 kwietnia 2016 r (RODO). Potrzebujemy Twojej zgody na przetwarzanie Twoich danych osobowych przechowywanych w plikach cookies. Poniżej znajdziesz pełny zakres informacji na ten temat.
 
Zgadzam się na przechowywanie na urządzeniu, z którego korzystam tzw. plików cookies oraz na przetwarzanie moich danych osobowych pozostawianych w czasie korzystania przeze mnie ze strony internetowej Laboratoria.net w celach marketingowych, w tym na profilowanie i w celach analitycznych.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będziemy my: Portal Laboratoria.net z siedzibą w Krakowie (Grupa INTS ul. Czerwone Maki 55/25 30-392 Kraków).

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług w tym zapisywanych w plikach cookies.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy te dane w celach opisanych w polityce prywatności, między innymi aby:

Komu możemy przekazać dane?

Zgodnie z obowiązującym prawem Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie, np. agencjom marketingowym, podwykonawcom naszych usług oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa np. sądom lub organom ścigania – oczywiście tylko gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz między innymi prawo do żądania dostępu do danych, sprostowania, usunięcia lub ograniczenia ich przetwarzania. Możesz także wycofać zgodę na przetwarzanie danych osobowych, zgłosić sprzeciw oraz skorzystać z innych praw.

Jakie są podstawy prawne przetwarzania Twoich danych?

Każde przetwarzanie Twoich danych musi być oparte na właściwej, zgodnej z obowiązującymi przepisami, podstawie prawnej. Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług, w tym dopasowywania ich do Twoich zainteresowań, analizowania ich i udoskonalania oraz zapewniania ich bezpieczeństwa jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy lub podobne dokumenty dostępne w usługach, z których korzystasz). Taką podstawą prawną dla pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych podmiotów trzecich będzie odbywać się na podstawie Twojej dobrowolnej zgody.

Dlatego też proszę zaznacz przycisk "zgadzam się" jeżeli zgadzasz się na przetwarzanie Twoich danych osobowych zbieranych w ramach korzystania przez ze mnie z portalu *Laboratoria.net, udostępnianych zarówno w wersji "desktop", jak i "mobile", w tym także zbieranych w tzw. plikach cookies. Wyrażenie zgody jest dobrowolne i możesz ją w dowolnym momencie wycofać.
 
Więcej w naszej POLITYCE PRYWATNOŚCI
 

Newsletter

Zawsze aktualne informacje