5 rzeczy, w których ChatGPT O3-Mini radzi sobie lepiej niż inne modele AI

1 tydzień temu
Zdjęcie: ChatGPT


Openai w końcu uruchomił swój model Frontier O3-Mini w odpowiedzi na model Deepseek R1 rozumowania w Chinach w ten weekend. Seria modeli O3 ogłoszono w grudniu ubiegłego roku. Openai nie marnował czasu i uruchomiła O3-Mini i O3-Mini-High, aby zachować przewagę w wyścigu AI. Byliśmy więc ciekawi wszystkich rzeczy, które Chatgpt O3-Mini radzi sobie lepiej niż inne modele AI i cóż, przetestowaliśmy to. Przetestowaliśmy jego sprawność kodowania i rygorystycznie omówiliśmy różne badania odniesienia. W tej notatce zanurzmy się w środku.

1. Wyjątkowa wydajność kodowania

Openai twierdzi, iż O3-Mini zapewnia wyjątkową wydajność w zadaniach kodowania, zachowując niską koszt i utrzymując dużą prędkość. Przed modelem O3-Mini sonet Claude 3.5 Anthropic był modelem zapytań programowania. Ale to zmienia się wraz z wydaniem O3-Mini, szczególnie z modelem O3-Mini-High dostępnym dla użytkowników Chatgpt Plus i Pro.

Testowałem Model O3-Mini i poprosił go o stworzenie gry Python Snake, w której konkuruje ze sobą wiele autonomicznych węży. Model O3-Mini o wysokości pomyślał przez 1 minutę i 10 sekund i wygenerował kod Pythona w jednym ujęciu.

Wykonałem kod i działał płynnie bez żadnych problemów. Fajnie było oglądać autonomiczne węże, a to było absolutnie precyzyjne, tak jak ludzie grają ludzie!

W końcu model O3-Mini-wysokiej osiągnął wynik ELO wynoszący 2130 na platformie programowej konkurencyjnej. To stawia model O3-Mini-High wśród 2500 najlepszych programistów na świecie. Oprócz tego, w zweryfikowanym punkcie odniesienia SWE, który ocenia możliwości w rozwiązywaniu rzeczywistych problemów oprogramowania, O3-Mini-High osiągnął 49,3% dokładności, czyli nawet wyższy niż większy model O1 (48,9%).

Tak więc w przypadku pomocy w kodowaniu AI myślę, iż model O3-Mini-High będzie oferował najlepszą wydajność, dopóki nie pojawi się pełny model O3, który, jak twierdzi Sam Altman, nadchodzi za kilka tygodni.

2. Zapytaj trudne problemy matematyczne

Oprócz kodowania matematyka to kolejna dyscyplina, w której model O3-Mini przewyższa inne modele AI. W prestiżowym badaniu matematycznym American Invitational (AIME) w 2024 r., Które zawierają pytania z teorii liczb, prawdopodobieństwa, algebry, geometrii itp., O3-Mini-High osiągnął imponujący 87,3% ponownie, wyższy niż pełny model O1.

W rygorystycznym punkcie odniesienia Frontiermath, który zawiera problemy matematyczne na poziomie ekspertów od wiodących matematyków, medalistów Fields i profesorów z całego świata, O3-Mini-High osiągnął 20% po ośmiu próbach. choćby w jednej próbie uzyskał 9,2%, co jest przez cały czas znaczące.

Mówiąc inaczej, znany matematyk Terence Tao określił problemy w odniesieniu Frontiermath jako „niezwykle trudne”. Rozwiązanie ich może zająć kilka godzin i dni, choćby dla ekspertów matematyków. Inne alternatywy Chatgpt udało się osiągnąć tylko 2% w tym odniesieniu.

3. Twój ekspert naukowy na poziomie doktorancki

Model O3-Mini-wysokie wyróżnia się również na poziomie naukowym na poziomie doktoranckim i bije inne modele AI o znacznym marginesie. GPQA Diamond to zaawansowany punkt odniesienia, który ocenia możliwości modeli AI w wyspecjalizowanych domenach naukowych. Składa się z zaawansowanych pytań z dziedzin biologii, fizyki i chemii.

W GPQA Diamond Benchmark O3-Mini-wysokie uzyskało niezwykłe 79,7%, przewyższając większy model O1 (78,0%). Dla porównania najnowsze modelu myślenia Flash Gemini 2.0 Gemini 2.0 (Exp-01-21) może zarządzać 73,3%. choćby nowy model Sonet Claude 3.5 wynosi 65% w gpqa Diamond Benchmark.

Pokazuje, iż mniejszy model O3-Mini Openai, gdy daje więcej czasu i obliczyć do myślenia, może przewyższyć inne modele AI w pytaniach naukowych na poziomie ekspertów.

4. Wiedza ogólna

W różnych dziedzinach wiedzy ogólnej oczekuje się, iż O3-Mini nie pokonałby większych modeli, ponieważ jest mniejszy i wyspecjalizowany do kodowania, matematyki i nauk ścisłych. Jednak pomimo mniejszego rozmiaru jest bardzo zbliżone do dopasowania większych modeli. W odniesieniu MMLU, który ocenia wydajność modeli AI w wielu różnych tematach, O3-Mini-High wyniki 86,9%, podczas gdy własny model GPT-4O Openai uzyskuje 88,7%.

To powiedziawszy, nadchodzący większy model O3 z łatwością pokonałby wszystkie modele AI w dziedzinie wiedzy ogólnej. Mówię to, ponieważ pełny model O1 osiągnął już 92,3% w odniesieniu MMLU. Teraz musimy poczekać na pełny model O3, który może całkowicie nasycić punkt odniesienia.

5. O3-Mini z wyszukiwaniem internetowym

Odcięcie wiedzy O3-Mini to październik 2023 r., Które w tym momencie jest dość stare. Jednak Openai dodał obsługę wyszukiwania sieci Web dla modelu O3-Mini, umożliwiając model rozumowania wyodrębnić najnowsze informacje z sieci i wykonać zaawansowane rozumowanie. Deepseek R1 również to robi, ale żaden inny model rozumowania nie pozwala uzyskać dostępu do sieci w celu dalszego rozumowania.

Są to więc niektóre z zaawansowanych możliwości modelu O3-Mini. Podczas gdy bezpłatne użytkownicy chatgpt mogą również uzyskać dostęp do O3-Mini, Rozumowanie jest ustawione na „średni” który wykorzystuje mniej obliczeń.

Poleciłbym zapłacić za subskrypcję Chatgpt Plus, która kosztuje 20 USD/miesiąc, odblokowanie potężnego modelu „O3-Mini-High”. Dla profesjonalnych koderów, badaczy i studentów STEM licencjackich model O3-Mini-High może być bardzo korzystny.

Idź do oryginalnego materiału