Xiaomi po cichu wkroczyło w przestrzeń obsługi dużego modelu językowego z MiMo-7B, swoim pierwszym publicznie dostępnym systemem AI typu Open Source.
Zbudowany przez nowo utworzony Big Model Core Team, MiMo-7B koncentruje się konkretnie na zadaniach wymagających dużego rozumowania i przewyższa konkurentów z OpenAI i Alibaba w rozumowaniu matematycznym i generowaniu kodu.
MiMo-7B firmy Xiaomi
Jak sama nazwa wskazuje, jest to model o 7 miliardach parametrów. Mimo że jest on znacznie mniejszy niż większość topowych LLM-ów, to według producenta działa on na równi z bardziej rozbudowanymi systemami, w tym o1-mini firmy OpenAI i Qwen-32B-Preview firmy Alibaba. Wszystkie trzy są zdolne do rozumowania AI.

Podstawą modelu językowego MiMo-7B jest ścisły reżim wstępnego treningu. Xiaomi twierdzi, że skompilowało gęsty zestaw danych składający się z 200 miliardów tokenów rozumowania i dostarczyło modelowi łącznie 25 bilionów tokenów w ciągu trzech faz treningu. Firma wykorzystała również cel przewidywania wielu tokenów zamiast standardowego przewidywania następnego tokena, twierdząc, że skraca to czas wnioskowania bez utraty na jakość wyniku końcowego.
Tak zwany proces po treningu obejmuje mieszankę technik uczenia się przez wzmacnianie i udoskonalenie zasobów. Xiaomi użyło niestandardowego algorytmu nazwanego Test Difficulty Driven Reward, aby poradzić sobie z rzadkimi objawami, które często nękają zadania RL obejmujące złożone algorytmy. Ponadto Xiaomi wdrożyło metodę Easy Data Re-Sampling w celu ustabilizowania treningu.
Pod względem infrastruktury firma zbudowała system Seamless Rollout, aby zmniejszyć przestoje GPU podczas szkolenia i walidacji. Rezultatem tego, przynajmniej według ich wewnętrznych liczb, jest 2,29-krotna poprawa szybkości szkolenia i prawie 2-krotny skok w wydajności walidacji. Silnik wdrażania jest również zaprojektowany tak, aby obsługiwać strategie wnioskowania, takie jak predykcja wielotokenowa w środowiskach vLLM.
MiMo-7B to projekt typu open source
Istnieją cztery publiczne wersje MiMo-7B:
- Baza: surowy, wstępnie wytrenowany model.
- SFT: wersja dopracowana przy użyciu danych nadzorowanych.
- RL-Zero: wariant uczony przez wzmacnianie.
- RL: bardziej dopracowany model oparty na wersji SFT, który ma zapewniać najwyższą dokładność.

Xiaomi ma też testy potwierdzające tę propozycję, przynajmniej na papierze. W matematyce wersja MiMo-7B-RL podobno osiąga 95,8% w MATH-500 i ponad 68% w zestawie danych AIME z 2024 r. W kodzie osiąga 57,8% w LiveCodeBench v5 i nieco poniżej 50% w wersji 6. Natomiast zadania z szerszej wiedzy ogólnej, takie jak DROP, MMLU-Pro i GPQA, są również reprezentowane, chociaż wyniki mieszczą się w przedziale od połowy do wysokiej 50-tki co oznacza przyzwoite wyniki dla modelu 7B, ale to nic rewolucyjnego.
MiMo-7B jest teraz dostępny na Hugging Face na licencji Open Source. Natomiast całą dokumentację pomocniczą i punkty kontrolne modelu można sprawdzić na platformie GitHub.
Źródło: gizmochina