Przez lata branża technologiczna zadawała sobie jedno pytanie: czy sztuczna inteligencja może nie tylko odpowiadać w oknie czatu, lecz faktycznie wykonywać zadania na smartfonie tak samo, jak robi to człowiek? AutoGLM powstał właśnie po to, aby na to pytanie udzielić praktycznej odpowiedzi.
Chiński zespół stojący za projektem AutoGLM od ponad 30 miesięcy budował system, który nie tylko rozumie komendy językowe, ale potrafi zamienić je w realne działania wykonywane na ekranie telefonu. Ciekawe jest to, że projekt jest otwartoźródłowy – co nie jest takie oczywiste w Chinach.
Telefon z asystentem AI będzie mógł m.in.:
- zamawiać jedzenie przez internet,
- obsługiwać aplikacje,
- wykonywać powtarzające się czynności
Od „chaotycznego klikania” do „kontrolowanego działania”
Twórcy AutoGLM zaczynali od niezwykle chaotycznych modeli, które potrafiły jedynie losowo klikać, przesuwać i wpisywać tekst na ekranie. Wymagało to całego roku badań, aby AI potrafiło przekształcić polecenia użytkownika w stabilną, powtarzalną sekwencję działań. Dopiero jesienią 2024 roku system osiągnął punkt, w którym był w stanie bezbłędnie dokończyć pełną ścieżkę operacji na fizycznym urządzeniu, stając się pierwszym na świecie agentem AI z rzeczywistą zdolnością do obsługi telefonu. W skrócie: zostawiasz telefon na biurku, a on sam zaczyna klikać po ekranie, oczywiście zgodnie z poleceniami użytkownika.
Symbolicznym momentem było wysłanie przez AI pierwszej w historii „czerwonej koperty” – nie jako skrypt czy gotowe API, lecz jako prawdziwa interakcja z ekranem. Z tego co zrozumiałem z chińskiego tłumaczenia to AI sam „wywnioskował” dalsze kroki na podstawie kontekstu z przedłożonego mu ekranu lub zrzutu. Obraz przedstawiał coś z chińskiej kultury np. szczęśliwe osoby w trakcie obchodzenia nowego roku i „widząc to” wysłał za pomocą jednej z zainstalowanych aplikacji przekaz pieniężny (红包 czyli Hongbao – czerwona koperta), będący prezentem, którym obdarowują się osoby w krajach azjatyckich na znak dobrobytu i szczęścia.
Eksperyment pokazał, że AI zaczyna przejmować kontrolę nad czynnościami, które do tej pory wymagały ludzkiej ręki, a granica pomiędzy cyfrowym asystentem a wirtualnym operatorem urządzenia zaczyna się zacierać.
Wirtualizacja i bezpieczeństwo z asystentem AI
W 2025 roku AutoGLM przeszedł do kolejnego etapu dzięki wersji 2.0 i nowym algorytmom MobileRL, ComputerRL oraz AgentRL, które pozwoliły mu uczyć się na tysiącach równoległych środowisk wirtualnych. Zespół póki co zdecydował, że agent nie powinien działać bezpośrednio na prywatnych telefonach użytkowników (choć technicznie jest to możliwe) dlatego umieszczono go w odseparowanych, w pełni kontrolowanych urządzeniach chmurowych. Każda akcja może w takim modelu zostać zatrzymana, odtworzona i zweryfikowana, a poufne dane pozostają poza zasięgiem algorytmu. Jednocześnie projekt celowo unika ingerencji w aplikacje o szczególnie wrażliwym charakterze, takie jak komunikatory czy systemy płatnicze.
Otwarty kod projektu
Decyzja o publicznym kodzie AutoGLM nie jest przypadkowa. Twórcy podkreślają, że technologia zdolna do obsługi smartfona nie powinna być własnością wyłącznie jednej firmy, ponieważ ograniczałoby to innowacyjność całego ekosystemu. Upublicznienie kodu i modeli pozwala każdemu zespołowi badawczemu, firmie i indywidualnemu developerowi wbudować tę technologię w własne rozwiązania, modyfikować ją i dopasować do specyficznych potrzeb. Istotnym elementem jest również to, że dzięki otwartemu dostępowi prywatność i kontrola nad danymi pozostają po stronie użytkownika i organizacji wdrażających agentów, co ma kluczowe znaczenie przy operacjach na urządzeniach mobilnych.
Wydana publicznie platforma (link do GitHuba) obejmuje gotowy model, kompletny framework, narzędzia, dema działające na kilkudziesięciu najpopularniejszych chińskich aplikacjach (w tym na WeChat), oraz warstwę adaptacyjną dla Androida. Całość udostępniona jest w ramach licencji MIT i Apache-2.0, dzięki czemu użytkownicy mogą korzystać zarówno z pełnej infrastruktury, jak i wyłącznie z wybranych modułów, a nawet całkowicie przebudować projekt pod własne cele.
Przyszłość z telefonami AI
Twórcy liczą na to, że na bazie tej technologii powstaną pierwsze telefony z natywnym asystentem AI. Założę się, że Xiaomi także sięgnie po ten projekt i spróbuje zintegrować AI z HyperOS na poziomie systemowym i wykonawczym.
Kto wie, może w przyszłości nowa edycja POCO z Iron Man będzie już miała Jarvisa za asystenta.