Zdjęcie: Adobe Stock
Jak poinformował PAP dr Szymon Łukasik z NASK, ośrodka zajmującego się rozwojem modeli sztucznej inteligencji, starano się, aby modele języka polskiego PLLuM były bezpieczne, dostosowane do języka polskiego i „trenowane” na danych pozyskanych legalnie.
PLLuM (Polish Large Language Universal Model) odnosi się do zbioru rozległych modeli języka polskiego. Te programy AI ułatwiają generowanie tekstu i przetwarzanie języka naturalnego. W rezultacie interakcja z maszyną staje się bardziej podobna do rozmowy z człowiekiem niż do polegania na sztywnych poleceniach i kodach.
W przeciwieństwie do komercyjnych modeli LLM (takich jak ChatGPT, Claude czy Gemini), modele PLLuM zostały zaprojektowane specjalnie dla języka polskiego, choć do ich trenowania wykorzystano również teksty z innych języków słowiańskich i bałtyckich, a także języka angielskiego.
„Model jest dostosowany do języka polskiego i jego kultury. Prace w ramach tego projektu wzmacniają polskich ekspertów i sprzyjają rozwojowi kompetencji w zakresie sztucznej inteligencji” – wyjaśnił w wywiadzie dla PAP dr Szymon Łukasik, profesor AGH i dyrektor Centrum Badań nad Bezpieczeństwem Sztucznej Inteligencji NASK. Centrum to ma koordynować dalsze działania i wdrażać modele w administracji publicznej w ramach konsorcjum HIVE.
Badacz podkreślił znaczenie kwestii bezpieczeństwa i etyki w rozwoju AI. „Filozofia, która przyświecała tworzeniu tego modelu, polegała na zapewnieniu maksymalnej przejrzystości w zbieraniu danych. Dzięki temu możemy być pewni obszarów, w których modele stworzone na podstawie tych danych mogą być stosowane” – stwierdził dr hab. Łukasik. Zauważył, że przedstawiciele projektu nawiązali porozumienia z redaktorami i uzyskali oficjalne pozwolenia na wykorzystanie archiwów tekstów polskich.
Ekspert NASK wskazał, że język polski jest klasyfikowany jako język o niskich zasobach, co oznacza, że istnieje ograniczona ilość danych dostępnych do opracowania modelu. Modele PLLuM przeznaczone do celów komercyjnych są trenowane na około 30 miliardach tokenów (gdzie token jest segmentem przetworzonego tekstu, takim jak słowo lub część słowa); z kolei modele do użytku niekomercyjnego, które korzystają z bardziej rozbudowanej puli zasobów, są trenowane na około 150 miliardach tokenów.
Ostatecznie modele PLLuM mają być wdrażane w administracji państwowej, co stwarza dodatkowe wyzwania bezpieczeństwa. Twórcy projektu musieli upewnić się, że model zachowuje granice w swoich odpowiedziach, unikając włączenia nielegalnych, fałszywych lub kontrowersyjnych treści.
Aby wytrenować modele, wykorzystano największą kolekcję zapytań w Polsce, obejmującą 40 000 interakcji, w tym około 3500 dłuższych dialogów między lokalnymi trenerami a maszyną. Ta skrupulatna praca adnotatorów AI ma na celu zwiększenie zdolności modeli do radzenia sobie z niuansami języka polskiego i kultury.
PLLuM — jak zapewniają jego twórcy — jest tworzony zgodnie z krajowymi i unijnymi przepisami dotyczącymi sztucznej inteligencji, a jednocześnie respektuje współczesne standardy ochrony danych.
Modele PLLuM są swobodnie dostępne w formie czatu dla wszystkich zainteresowanych użytkowników. Ministerstwo Spraw Cyfrowych wydało również 18 otwartych wersji modelu PLLuM dla deweloperów. Wszystkie zainteresowane strony mogą uzyskać dostęp zarówno do lekkich, ale mniej precyzyjnych wersji modeli nadających się do pobrania na laptopie, jak i do bardziej wydajnych modeli, które wymagają wielu kart graficznych do zaawansowanych zastosowań, takich jak badania. W obu przypadkach możliwe jest korzystanie z modeli na osobistej infrastrukturze bez konieczności wysyłania zapytań do podmiotów zewnętrznych.
W ramach projektu opracowano również generatory, konkretnie modele RAG (Retrieval Augmented Generation). Takie modele umożliwiają użytkownikom wyszukiwanie i analizowanie lokalnych baz danych oraz tworzenie wirtualnych asystentów zdolnych do przetwarzania własnych zestawów dokumentów. Zespół PLLuM skonstruował najmniejszy generator tego typu (z 8 miliardami parametrów), który zajmuje wysokie miejsce w przypadku języka polskiego.
Dr Łukasik wspomniał również o zmianie nazwy projektu z PLLuM na HIVE. „Nasze modele są określane jako PLLuM, a ich rodzina będzie nadal ewoluować w ramach konsorcjum HIVE. Ta nazwa odzwierciedla koncepcję współpracy wielu badaczy, inżynierów i instytucji, funkcjonujących jak pszczoły w ramach wspólnego ekosystemu, wymieniających się wiedzą i zasobami (np. danymi, kodem, modelami). Jednak być może będziemy chcieli wprowadzić nową rodzinę modeli o innej nazwie w przyszłości. Rozmawiamy o tym z Ministerstwem Cyfryzacji” — wskazał dr Łukasik.
Ludwik Tomal (PAP)
Nauka w Polsce
poł/ zan/ ktl/