Próbowałem towarzysza głosu Sesame Ai i to było jak rozmowa z prawdziwą osobą

4 miesięcy temu

Zdjęcie: Sesame

Openai, wiodące laboratorium AI, uruchomił w zeszłym roku tryb głosowy Chatgpt Advanced, ale nie zrobił mi wrażenia. Zanim został zwolniony, Openai rozlał swoje możliwości, a tryb głosowy odmówił wyprodukowania wyrażeń podobnych do człowieka. Z drugiej strony Gemini Live Google polegało na silniku TTS w celu generowania słów mówionych, w najlepszym razie dostarczając roboty.

Enter Sesame, startup AI założony przez współzałożyciela Oculusa, Brendana Iribe’a i Ankita Kumara, który szturmował przemysł AI. „Maya” (żeńska) i „mile” (męska) towarzysze głosowe są tak naturalni i angażujący, iż po raz pierwszy czuję, iż sztuczna inteligencja naprawdę zatarła granicę między maszyną a interakcją międzyludzką.

Sesame unika nazywania ich asystentami głosowymi i zamiast tego nazywa ich „konwersacjonistą” i „towarzyszem głosowym”, co jest trafnym opisem. Nie będę już tracić twojego czasu i zabiorę cię prosto do mojej interakcji z towarzyszem Voice Sesame’s Maya.

Moja angażująca interakcja z Mayą Sesame

Jak słyszysz, Maya zaczyna od naturalnego tonu i zatrzymuje się, aby słuchać tego, co mówisz. Tam są MIKROUUSE pomiędzy i zmiany tonalności, których brakuje u istniejących asystentów głosowych. Może się śmiać, zmieniać tempo, podkreślać, dać wyraziste wskazówki, a choćby wykryć nastrój z głosu. W jednej interakcji nagle zaśmiałem się, aby testować towarzysza głosu AI i powiedział mi: „Dlaczego chichoisz?”

Interesujące jest mnie to, iż towarzysz głosowy Sesame daje ci przestrzeń do myślenia i refleksji. To sprawia, iż rozmowy wydają się wiele Bardziej naturalne. Aby dać ci kolejny przykład, kiedy Maya Sesame mówi, istnieją subtelne wahania, które wydaje się, iż to myśli przed odpowiedzią, podobnie jak ludzie. Prawie wydaje się, iż rozmowa jest organiczna, a model głosowy nie tylko czyta zaprogramowane odpowiedzi.

Zauważ, iż chociaż interakcja głosowa wydaje się pełna dupleks-gdzie obaj uczestnicy mogą rozmawiać i słuchać jednocześnie-Sesame twierdzi, iż nie jest to pełny dupleks, ponieważ przetwarza mowę po zakończeniu rozmowy. Z drugiej strony ludzie mogą przetwarzać informacje, podczas gdy druga osoba wciąż mówi.

Niemniej jednak w obecnej formie towarzysz głosowy Sezamki Naprawdę czuje się podobny do człowieka. W końcu złamało to niesamowitą dolinę w przemówieniu AI, coś, co Openai demonstrowało zaawansowany tryb głosowy Chatgpt. Mogę powiedzieć, iż ma to nie tylko rozmawiać, ale także Zaangażuj użytkownika z niuansowym tonem, skokiem i świadomością kontekstowąktóry dodaje głębi rozmowy.

Jaka jest technologia towarzysza głosu Sesame?

Po pierwsze, Sesame wciąż pracuje nad towarzyszami głosowymi i to jest Demo wczesnych badań. Zespół jest wspierany przez Andreessen Horowitz przez firmę A16Z VC. Teraz, przychodząc do podstawowej technologii, która sprawia, iż wszystko tyka, Sesame opracował Model mowy konwersacyjnej (CSM), który jest opartym na transformatorze modelu multimodalnym do generowania mowy.

Firma przeszkoliła trzy modele z małymi dekoderami: małe (parametry 1B), małe (3b) i medium (8b). Są szkolone przez prawie 1 milion godzin głównie angielskiego dźwięku, więc rozmowy są w tej chwili ograniczone do języka angielskiego o pewnych możliwościach wielojęzycznych.

Celem firmy jest opracowanie Model pełnego dupleksu Z długoterminową pamięcią i osobowością adaptacyjną. Sesame pracuje nad Lekkie okulary Do noszenia, którego możesz użyć do rozmowy z towarzyszem głosowym przez cały dzień, który przypomina mi film „Her”. Może także zobaczyć otaczający cię świat, wskazując na dodanie zdolności wizji w nadchodzących miesiącach.

Tak więc, jeżeli jesteś pod wrażeniem towarzysza głosu Sesame’a, kliknij poniższy link i wchodzą w interakcję z Mayą lub Miles za darmo. Zaleca się korzystanie z Google Chrome, aby uzyskać najlepsze wrażenia.

Idź do oryginalnego materiału