HunyuanWorld-Voyager od Tencent – model AI, który przekształca obrazy w eksplorowalne światy 3D

1 miesiąc temu

Tencent właśnie udostępnił otwartoźródłowy model AI HunyuanWorld-Voyager, który na podstawie pojedynczego zdjęcia generuje immersyjne, eksplorowalne światy 3D z możliwością definiowania własnych trajektorii ruchu kamery. To przełom w technologii, umożliwiający szybką rekonstrukcję 3D i zastosowania w VR czy grach. Czy to koniec tradycyjnego modelowania?

Tencent, chiński gigant technologiczny, kontynuuje ekspansję w dziedzinie sztucznej inteligencji, udostępniając otwartoźródłowy model HunyuanWorld-Voyager. Ten innowacyjny framework oparty na dyfuzji wideo pozwala przekształcać pojedyncze obrazy w spójne sekwencje wideo 3D, umożliwiając eksplorację wirtualnych światów zgodnie z niestandardowymi trajektoriami kamery. Model generuje nie tylko wizualnie atrakcyjne filmy, ale także zintegrowane dane głębokości (RGB-D), co ułatwia bezpośrednią rekonstrukcję 3D bez dodatkowych narzędzi.

HunyuanWorld-Voyager bazuje na wcześniejszym projekcie HunyuanWorld 1.0, zaprezentowanym w lipcu 2025 roku, i integruje elementy generowania panoramicznych proxy, warstw semantycznych oraz hierarchicznej rekonstrukcji 3D. Dzięki analizie ponad 100 tysięcy klipów wideo z rzeczywistych nagrań i silników graficznych jak Unreal Engine, model nauczył się interpretować ruchy kamery i estymować głębokość, eliminując potrzebę manualnego przypisywania etykiet danym. To umożliwia tworzenie immersyjnych doświadczeń, takich jak 360-stopniowe wycieczki po wirtualnych przestrzeniach, z zachowaniem spójności geometrycznej i znaczeniowej.

W testach model ów osiągnął najwyższe wyniki na liście WorldScore, przewyższając konkurencyjne rozwiązania jak Gen-3 w kategoriach kontroli kamery, zgodności treści i spójności 3D. Użytkownicy mogą definiować ścieżki kamery, co otwiera drzwi do zastosowań w grach komputerowych, wirtualnej rzeczywistości (VR), symulacjach fizycznych, nawigacji robotów czy rzeczywistości rozszerzonej (AR). Na przykład, deweloperzy mogą gwałtownie generować interaktywne światy 3D, skracając cykl produkcyjny w branżach kreatywnych.

Model jest dostępny na platformach Hugging Face i GitHub, wraz z kodem źródłowym i dokumentacją, co obniża bariery wejścia dla programistów. Wymaga jednak znacznych zasobów obliczeniowych – minimum 60 GB pamięci GPU dla rozdzielczości 540p, z rekomendacją 80 GB dla optymalnej wydajności. Licencja modelu wprowadza ograniczenia: zabrania użytku w Unii Europejskiej, Stanach Zjednoczonych i Korei Południowej, a komercyjne aplikacje obsługujące ponad 100 milionów aktywnych użytkowników miesięcznie wymagają odrębnej umowy z Tencent.

Idź do oryginalnego materiału