Bielik (Pixabay)
Bielik (Pixabay)

Bielik to nowy, polski model językowy LLM. Możesz go przetestować

Rozwój technologii sztucznej inteligencji (AI) nabiera tempa na całym świecie, a Polska, chcąc umocnić swoją pozycję na tej mapie, wprowadziła innowacyjny model języka naturalnego. Ten generatywny model LLM, stworzony przez zespół SpeakLeash, stanowi istotny krok naprzód w obszarze sztucznej inteligencji, wykorzystując ponad 70 miliardów tokenów do tworzenia złożonych, spójnych tekstów w języku polskim.

Jak powstał Bielik?

Bielik-7B-v0.1 to rezultat współpracy między światem nauki a otwartymi projektami technologicznymi open-science/open-source, zasilany ogromną mocą obliczeniową. To pierwszy tak zaawansowany model LLM stworzony w Polsce, bazujący na architekturze podobnej do używanej przez jego poprzednika – modelu Mistral-7B-v0.1.

Za powstanie odpowiada firma SpeakLeash, której specjaliści skrupulatnie przeanalizowali i wyselekcjonowali najlepsze dostępne teksty przed tokenizacją, tak aby zapewnić przede wszystkim wysoką jakość generowanych treści. Premiera chatu została ogłoszona w zeszłym tygodniu za pośrednictwem platformy LinkedIn.

Bielik-7B-v0.1 (źródło: linkedin.com)
Bielik-7B-v0.1 – informacja o premierze (źródło: SpeakLeash.org, LinkedIn.com)

Co ciekawe, twórcy postanowili przy tej okazji sami sprawdzić, jak Bielik poradzi sobie w zadaniu językowym i poprosili go o wygenerowanie treści postu, który ukaże się na ich firmowym koncie. Miał on dotyczyć premiery tegoż modelu językowego. W wypowiedzi miały być użyte emotikony oraz język polski. Jak poradził sobie bot, możecie zobaczyć powyżej. Oceny dokonajcie sami.

Krok po kroku do sukcesu

Osoby odpowiedzialne za projekt podkreślają, że droga do jego realizacji nie była prosta. Przez rok intensywnej pracy udało się zgromadzić aż 837,45 GB danych, zbliżając się do założonego celu 1 TB zbioru tekstów po polsku. Ciekawą opcją modelu jest wersja Bielik-7B-Instruct-v0.1, dostrojona za pomocą 2,5 miliona instrukcji w języku polskim i angielskim. Otwarta dla wszystkich użytkowników.

Model językowy Bielik (źródło: huggingface.co)
(screen: Marta Borkowska | Oiot.pl)

Bota w wersji testowej możecie wypróbować sami. Działa sprawie, jednak można zauważyć, że w pewnych kwestiach może jeszcze wymagać dopracowania, a za przykład może posłużyć moja rozmowa z nim, gdy na moje pytanie „jak się masz?” odpowiedział „jestem w porządku” 😉 , co nie tak do końca jest poprawnie gramatycznie i brzmi jak bezrefleksyjna translacja z języka angielskiego. Jednak mam świadomość, że polskie modele są w fazie rozwoju i zapewne każda kolejna wersja będzie lepsza od poprzedniej.