NVIDIA Audio2Face jako open source: potężne narzędzie AI trafia w ręce twórców za darmo

2 godzin temu

NVIDIA udostępnia swoją technologię Audio2Face jako open source. Narzędzie oparte na AI, które generuje realistyczną mimikę z samego dźwięku, ma przyspieszyć tworzenie cyfrowych awatarów w grach i aplikacjach 3D.

NVIDIA podjęła decyzję o udostępnieniu swojej zaawansowanej technologii Audio2Face w modelu open source. Narzędzie to wykorzystujące generatywną sztuczną inteligencję do tworzenia realistycznych animacji twarzy i synchronizacji ust na podstawie samego pliku audio. Decyzja ta ma na celu przyspieszenie adaptacji inteligentnych awatarów 3D w szerokim spektrum zastosowań – od gier wideo po obsługę klienta. Technologia działa poprzez analizę cech akustycznych nagrania, takich jak fonemy i intonacja, a następnie przekształca je w strumień danych animacyjnych. Dane te mogą być renderowane offline lub strumieniowane w czasie rzeczywistym, co pozwala na tworzenie dynamicznych postaci reagujących z naturalną ekspresją.

W ramach otwarcia kodu NVIDIA udostępnia pełen pakiet narzędzi, w tym Audio2Face SDK, wtyczki do popularnych silników Unreal Engine 5 i systemu Autodesk Maya, a także framework treningowy. Modele Audio2Face-3D są udostępniane na licencji NVIDIA Open Model License, która pozwala na ich komercyjne i niekomercyjne wykorzystanie. Natomiast framework treningowy jest dostępny na licencji Apache 2.0.

Aby efektywnie korzystać z narzędzia, a zwłaszcza trenować własne modele, niezbędny jest odpowiedni sprzęt. NVIDIA rekomenduje co najmniej 8-rdzeniowy procesor (np. Intel Core i7 9. generacji lub AMD Ryzen 7), 32 GB RAM oraz kartę graficzną z serii NVIDIA RTX, na przykład GeForce RTX 3070 lub RTX A4000 z minimum 10 GB VRAM. Wykorzystanie kart RTX jest kluczowe, ponieważ technologia opiera się na rdzeniach Tensor do obliczeń AI i ray tracingu. Co istotne, Audio2Face jest już wykorzystywane przez czołowych producentów gier, takich jak GSC Games World, Codemasters, NetEase czy polskie studio The Farm 51.

Wojciech Pazdur, dyrektor kreatywny w The Farm 51, określił integrację Audio2Face przy produkcji gry Chernobylite 2: Exclusion Zone jako przełom, który pozwolił “zaoszczędzić niezliczone godziny pracy” i wnieść postacie na “nowy poziom realizmu”. Udostępnienie kodu źródłowego ma na celu dalszą demokratyzację dostępu do zaawansowanych narzędzi animacyjnych i stworzenie społeczności, która będzie mogła rozwijać tę technologię.

Idź do oryginalnego materiału