Twój koszyk jest obecnie pusty!
Koncepcja modeli językowych zdolnych do „myślenia” rozpowszechniła się wraz z wprowadzeniem przez OpenAI modelu o1. Modele tego typu przez pewien czas analizują problem, zanim udzielą odpowiedzi. Generują tzw. łańcuchy myśli (chain-of-thought), które pomagają im obrać właściwy kierunek w rozwiązywaniu zadań. Dzięki temu zwiększają szanse na podanie poprawnego rozwiązania.
Podobnie jak inne modele LLM, polski model językowy Bielik został wytrenowany na ogromnych zbiorach danych tekstowych. Pierwszym etapem był pretrening, czyli nauka przewidywania kolejnego tokena na podstawie tekstu wejściowego. Wybór kolejnych faz tworzenia modeli zależy od przyjętej strategii twórców – zwykle to instrukcyjne uczenie nadzorowane (instruction fine-tuning). Etapy treningowe mogą obejmować m.in. techniki uczenia ze wzmocnieniem (Reinforcement Learning, RL). Jedną z najskuteczniejszych jest Reinforcement Learning from Human Feedback (RLHF), czyli takie uczenie ze wzmocnieniem, w którym ocenę efektów wystawia człowiek. To rozwiązanie spopularyzowane przez OpenAI jako element treningu ChatGPT. Proces ten pozwala bardziej precyzyjnie sterować zachowaniem modelu i dostosować formę oraz treść odpowiedzi do preferencji odbiorcy. Typową już dzisiaj metodę uczenia przez wzmacnianie postanowiliśmy wykorzystać w procesie uczenia modelu Bielik. A skoro światowym standardem stały się aktualnie modele typu R (reasoning), czyli te „myślące”, to zadaliśmy sobie pytanie: czy uda nam się stworzyć model, który będzie generował łańcuchy myśli w języku polskim? I czy będzie gotowy, by wyjść z laboratorium i przyjąć formę pełnoprawnego modelu Bielik-R?