G

Simon Poghosyan, założyciel i dyrektor generalny GSpeech

Simon Poghosyan, założyciel i dyrektor generalny GSpeech

Szymon Poghosyan jest założycielem i dyrektorem generalnym firmy GSpeech, oparta na sieci platforma AI, która pomaga uczynić treści online bardziej dostępnymi poprzez konwersję tekstu na naturalnie brzmiący dźwięk w ponad 70 językach. Mając doświadczenie w projektowaniu VLSI i duże zainteresowanie programowaniem i doświadczeniem użytkownika, Simon stworzył GSpeech, aby uprościć sposób, w jaki strony internetowe mogą oferować treści z obsługą głosu.

Obecnie GSpeech generuje około 200 milionów znaków audio miesięcznie i jest używany w ponad 70 krajach, a jego konfigurowalne odtwarzacze audio obsługują ponad 200,000 1 odtworzeń miesięcznie. Niedawno przekroczył XNUMX miliard znaków audio wygenerowanych łącznie, a GSpeech nadal szybko się rozwija. Platforma jest zaprojektowana tak, aby była łatwa do zintegrowania — wymagając tylko jednej linijki kodu — i wspiera twórców, edukatorów i firmy w czynieniu ich treści bardziej inkluzywnymi i angażującymi.

Twoje doświadczenie w projektowaniu VLSI (Very Large Scale Integration) i wczesne doświadczenie w programowaniu położyły solidne podstawy techniczne. Co zainspirowało Cię do przejścia z mikroelektroniki do tworzenia oprogramowania opartego na AI i jak doprowadziło to do stworzenia GSpeech?

Moja pasja do rozwiązywania problemów zaczęła się w liceum, napędzana miłością do matematyki i fizyki. To zainteresowanie doprowadziło mnie do uzyskania tytułu licencjata (2009) i magistra (2011) w zakresie projektowania układów scalonych o dużej gęstości (VLSI) na Uniwersytecie Inżynierii Armenii we współpracy z Synopsys Armenia. Studiowanie fizyki wykształciło mnie w precyzji i myśleniu analitycznym, ale to na drugim roku odkryłem programowanie — zaczynając od języka Pascal — i od razu się w nim zakochałem. Mój przyjaciel i ja kończyliśmy zadania z kursów, gdy tylko je otrzymywaliśmy, mimo że mieliśmy na to sześć miesięcy. Następnie, dla zabawy, zaczęliśmy wykonywać zadania innych studentów.

Ta pasja zaprowadziła mnie głębiej w rozwój oprogramowania. Zacząłem od tworzenia stron internetowych, a następnie zbudowałem własny CMS. Po ukończeniu kilku projektów z zakresu automatyzacji procesów i projektowania architektur zarządzania danymi, zdałem sobie sprawę, jak bardzo lubię budować rozwiązania cyfrowe dla interfejsów internetowych. Poprzez projekt 2GLux współpracowałem z Edvardem Ananyanem — twórcą popularnego GTranslate usługi tłumaczeniowe i szkolny przyjaciel z Quantum Gymnasium. Wprowadził mnie w ekosystemy WordPress i Joomla oraz koncepcję GSpeech pochodziły od niego. Ta wczesna praca doprowadziła do pierwszej wersji naszego narzędzia, umożliwiając użytkownikom słuchanie tekstu na stronie internetowej, co dało początek temu, co później stało się w pełni funkcjonalną platformą AI. Do 2023 r. ustanowiłem Smart Club spółka z ograniczoną odpowiedzialnością skalować GSpeech w globalne rozwiązanie audio AI, obsługujące ponad 70 języków. Humanity UnionPochwała, jaką wyraził dla GSpeech, odnosząc się do roli, jaką odgrywa w zwiększaniu dostępności platformy zaangażowania obywatelskiego, odzwierciedla moją misję zniwelowania podziałów cyfrowych za pomocą sztucznej inteligencji — wizję, która ma swoje korzenie w moich początkach programowania.

GSpeech pierwotnie powstał jako narzędzie wspierające użytkowników z dysfunkcją wzroku. W jaki sposób ta wczesna misja wpłynęła na ewolucję platformy w pełnofunkcjonalne rozwiązanie AI text-to-speech?

Skupienie się na dostępności doprowadziło do rozwoju wysokiej jakości dźwięku AI w czasie rzeczywistym, tłumaczenia na ponad 70 języków i płynnej integracji witryny za pomocą prostego fragmentu kodu. Ta misja doprowadziła do powstania takich funkcji, jak konfigurowalne odtwarzacze audio, panele wyboru języka i głosu, odtwarzanie zależne od kontekstu, pobieranie plików audio i szczegółowe statystyki użytkowania — w tym dane dotyczące kraju, miasta, urządzenia i analizy odtwarzania w czasie — wszystko to ma na celu uczynienie treści bardziej inkluzywnymi i angażującymi. Po napisaniu ponad 100,000 2023 linii kodu uruchomiłem GSpeech Cloud Console w XNUMX r. — skalowalne rozwiązanie, które równoważy inkluzywność z zaawansowaną funkcjonalnością, umożliwiając firmom i twórcom udostępnianie ich treści w sposób dostępny, wielojęzyczny i interaktywny w całej sieci.

Jakie największe wyzwania techniczne napotkaliście podczas tworzenia konsoli GSpeech Cloud?

Jednym z największych wyzwań w opracowaniu GSpeech Cloud Console było zaprojektowanie skalowalnej architektury do generowania dźwięku AI w czasie rzeczywistym, w bezpieczny sposób i wysokiej jakości. Wymagało to innowacyjnych rozwiązań do pobierania odpowiednich treści z sieci, przetwarzania dźwięku na naszych serwerach i przechowywania go w chmurze w celu szybkiego i niezawodnego dostarczania. Wdrożenie solidnych środków bezpieczeństwa, takich jak szyfrowanie i kontrola dostępu, było kluczowe dla ochrony dynamicznej treści generowanej przez użytkowników.

Kolejną przeszkodą było umożliwienie tłumaczenia w czasie rzeczywistym przy użyciu zaawansowanych silników neuronowych. Musieliśmy zapewnić tłumaczenia o niskim opóźnieniu i dokładności, jednocześnie budując intuicyjny interfejs, który pozwalał użytkownikom wybierać języki i preferowane profile głosowe do odtwarzania, stawiając na pierwszym miejscu wygodę użytkownika i personalizację. Na koniec opracowaliśmy kreatora szablonów audio z wieloma konfigurowalnymi widokami odtwarzacza, umożliwiając użytkownikom projektowanie unikalnych, wizualnie atrakcyjnych odtwarzaczy dostosowanych do ich witryn. Zrównoważenie elastyczności, wydajności i łatwości użytkowania na różnych urządzeniach było satysfakcjonującym wyzwaniem.

Dzięki tłumaczeniom w czasie rzeczywistym w ponad 70 językach i ponad 230 naturalnie brzmiącym głosom. Jak zapewniasz jakość głosu i utrzymujesz dokładność w tak zróżnicowanym zestawie języków?

Aby utrzymać stałą jakość głosu, integrujemy wiele zaawansowanych modeli zamiany tekstu na mowę (TTS), które są stale optymalizowane i aktualizowane. Te wielojęzyczne silniki obsługują treści w różnych językach z dużą dokładnością. Wprowadzamy również ponad 100 nowych wibracji głosowych, aby zapewnić użytkownikom jeszcze bardziej ekspresyjne i naturalnie brzmiące opcje. Każdego miesiąca GSpeech generuje ponad 200 milionów znaków audio, obsługując użytkowników w ponad 70 krajach, a nasze odtwarzacze online są używane ponad 200,000 XNUMX razy miesięcznie — i ta liczba rośnie. Ta skala zapewnia stałe informacje zwrotne i testy w warunkach rzeczywistych, które bezpośrednio informują o naszym strojeniu i kontroli jakości.

Czy możesz nam opowiedzieć, jak GSpeech wykorzystuje AI i uczenie maszynowe, aby dostarczać realistyczną syntezę głosu? Jak nadążasz za szybkimi postępami w technologii neuronowej głosu?

GSpeech wykorzystuje zaawansowaną sztuczną inteligencję i uczenie maszynowe, integrując wiele najnowocześniejszych modeli zamiany tekstu na mowę w celu uzyskania realistycznej syntezy głosu. Modele te, zoptymalizowane pod kątem naturalności i obsługi wielu języków, przetwarzają dane wejściowe tekstu w celu generowania wysokiej jakości dźwięku z realistyczną intonacją i rytmem, nawet w przypadku treści w różnych językach. Ulepszamy wrażenia użytkownika, oferując konfigurowalne style głosu dla różnych języków. Zintegrowaliśmy również aliasy TTS, które pozwalają użytkownikom definiować niestandardowe reguły dotyczące sposobu renderowania określonych słów lub fraz w dźwięku — na przykład zastępowanie określonych terminów w celu uzyskania dokładniejszej wymowy lub frazowania. Aby być na bieżąco z technologią neuronową głosu, nieustannie oceniamy i integrujemy najnowsze osiągnięcia, współpracujemy z liderami branży i planujemy opracowywać zastrzeżone modele w przyszłości, zapewniając, że GSpeech pozostanie na czele innowacji w zakresie syntezy głosu.

Jak ważne dla użytkowników jest strojenie głosu, kontrola wysokości dźwięku i personalizacja odtwarzania? I w jakim przypadku jesteś najbardziej dumny i w jakim te funkcje naprawdę się wyróżniają?

Strojenie głosu, kontrola wysokości dźwięku i dostosowywanie odtwarzania są kluczowe dla naszych użytkowników, umożliwiając im tworzenie unikalnych, wysokiej jakości stylów głosu dostosowanych do ich konkretnych potrzeb, od witryn informacyjnych i blogowych po dostępne treści e-learningowe. Trwająca integracja ponad 100 nowych wibracji głosu jeszcze bardziej to wzmacnia, oferując użytkownikom niezrównaną elastyczność w tworzeniu naprawdę wyjątkowych narracji. Jestem najbardziej dumny z GSpeech Studio, nowej platformy do edycji i generowania dźwięku, którą rozwijam. Umożliwia użytkownikom tworzenie wielu kanałów audio, miksowanie ich z muzyką w tle i eksportowanie dopracowanych narracji, umożliwiając twórcom produkcję dźwięku klasy profesjonalnej do różnych zastosowań. List od niedowidzącego studenta, dziękującego GSpeech za umożliwienie samodzielnej nauki za pomocą dostosowanego dźwięku, głęboko mnie poruszył. Ten przypadek użycia pokazuje, w jaki sposób te funkcje sprawiają, że treść jest dostępna i transformacyjna, co jest celem, do którego dążyłem od wczesnych dni programowania.

GSpeech oferuje bezproblemową integrację z WordPress, Shopify, Wix i innymi. Jaka była Twoja strategia, aby platforma była typu plug-and-play dla twórców i firm w różnych ekosystemach?

Nasza strategia integracji typu plug-and-play GSpeech z platformami takimi jak WordPress, Shopify i Wix skupiała się na prostocie, kompatybilności i skalowalności. Opracowaliśmy lekkie, modułowe wtyczki i fragmenty kodu, które integrują się bezproblemowo, wymagając minimalnej konfiguracji — często zaledwie kilku kliknięć. Oznacza to, że tysiące artykułów i dynamicznych bloków treści może natychmiast uzyskać obsługę głosową — bez ręcznego wysiłku. Oferujemy wysoce elastyczne, pięknie zaprojektowane odtwarzacze, które dostosowują się do różnych urządzeń, w tym urządzeń mobilnych, tabletów i komputerów stacjonarnych. Nasze odtwarzacze są nie tylko konfigurowalne, ale także zoptymalizowane pod kątem dostępności i zaangażowania użytkownika. W przypadku WordPressa osadziliśmy pulpit nawigacyjny GSpeech w chmurze bezpośrednio w panelu administracyjnym za pośrednictwem naszej wtyczki, usprawniając zarządzanie dla użytkowników. Szczegółowa dokumentacja i intuicyjne pulpity nawigacyjne prowadzą użytkowników nietechnicznych przez instalację i dostosowywanie. Regularne testowanie zapewnia spójną wydajność w różnych ekosystemach, umożliwiając twórcom i firmom bezproblemowe dodawanie funkcji zamiany tekstu na mowę obsługiwanej przez sztuczną inteligencję.

Gdybyś miał spojrzeć wstecz na historię firmy GSpeech od 2012 roku do dziś, jaki był dla Ciebie, osobiście lub zawodowo, największy kamień milowy w tworzeniu firmy GSpeech?

Największym kamieniem milowym dla GSpeech było wygenerowanie 1 miliarda znaków wysokiej jakości dźwięku AI, pokazującego nasz globalny wpływ na dostępność. Równie znaczące były opinie, które otrzymaliśmy od organizacji takich jak Humanity Union, które chwaliły GSpeech za udoskonalenie ich platformy społecznej odpowiedzialności, oraz od właścicieli blogów, którzy nazwali ją „przełomową” dla zaangażowania użytkowników. Ponad 110 pięciogwiazdkowych recenzji na platformach takich jak WordPress oraz Aplikacja Sumo w ostatnich miesiącach odzwierciedlają to rosnące zaufanie.

GSpeech jest obecnie aktywnie używany także przez Namangan regionalny urząd statystyczny w Uzbekistanie — instytucja rządowa o znacznym ruchu i widoczności na poziomie krajowym. Obserwowanie, jak organ publiczny tak szeroko przyjmuje naszą technologię, było znaczącym kamieniem milowym i silnym znakiem zaufania do naszego rozwiązania.

Jako chrześcijanin i osoba służąca w kościele ormiańskim, staram się również wspierać inne inicjatywy oparte na wierze, kiedy tylko jest to możliwe. Często oferuję GSpeech bezpłatnie stronom internetowym chrześcijańskim, aby pomóc im skuteczniej rozpowszechniać ich przesłanie i uczynić Pismo Święte bardziej dostępnym w formie audio. To mój mały wkład w coś większego. Jednocześnie mam zaszczyt współpracować z oddanymi ministerstwami, takimi jak Sznur — zgromadzenie mesjańskie i ceniony klient GSpeech — którego misja i treść odzwierciedlają moc Pisma Świętego w działaniu.

Te chwile — gdy technologia staje się mostem łączącym wiarę, zrozumienie i integrację — przypominają mi, dlaczego w ogóle stworzyliśmy GSpeech.

Jaką rolę, Twoim zdaniem, GSpeech będzie odgrywał w przyszłości mediów cyfrowych, zwłaszcza w obliczu rosnącej popularności treści audio i interfejsów głosowych?

Wyobrażam sobie GSpeech jako lidera w zwiększaniu dostępności i angażowania mediów cyfrowych poprzez umożliwienie dostępu głosowego do sieci za pomocą sztucznej inteligencji. Naszym celem jest przekształcenie całego doświadczenia online, tak aby strony internetowe stały się naturalnie interaktywne głosowo, inkluzywne i wielojęzyczne domyślnie. Za pomocą zaledwie jednej linijki kodu właściciele witryn mogą przekształcić tysiące artykułów w treść głosową. Patrząc w przyszłość, rozwijamy GSpeech Studio w potężną i wyjątkową platformę do generowania i edycji dźwięku, umożliwiającą użytkownikom tworzenie wielowarstwowej treści głosowej z muzyką w tle, efektami i precyzyjnym strojeniem. Chcemy, aby sieć była naprawdę słyszalna, intuicyjna i powszechnie dostępna.

GSpeech niedawno uruchomiony na AppSumo i już zdobyła niemal idealną ocenę od wczesnych użytkowników. Co dla Ciebie znaczyła odpowiedź społeczności AppSumo i jak planujesz wykorzystać ten impet w przyszłości?

Wprowadzenie AppSumo przedstawiło GSpeech milionom użytkowników, a jego niemal idealna ocena jest niezwykle budująca. Użytkownicy, tacy jak ci, którzy prowadzą kursy online, chwalą nasze intuicyjne narzędzia i responsywne wsparcie, co jest zgodne z opiniami Humanity Union. Właściciel bloga nazwał nasze głosy „naprawdę angażującymi”, a tłumaczenia „imponującymi”. Ich pozytywne opinie potwierdzają wartość naszego rozwiązania do zamiany tekstu na mowę opartego na sztucznej inteligencji i podsycają moją pasję do tego projektu. Wspieranie klientów podczas wprowadzenia na rynek również wywołało nowe pomysły, szczególnie w przypadku GSpeech Studio, które zostało zainspirowane prośbami użytkowników o zaawansowaną edycję audio i funkcje eksportu. W przyszłości planuję wykorzystać ten impet, aktywnie słuchając naszej społeczności, integrując jej opinie i opracowując innowacyjne funkcje w celu zwiększenia dostępności i zaangażowania, zapewniając, że GSpeech będzie nadal ewoluować jako narzędzie transformacyjne dla twórców i firm.

Na koniec, jakiej rady udzieliłbyś młodym programistom i przedsiębiorcom, którzy chcą tworzyć dostępne narzędzia oparte na sztucznej inteligencji w dzisiejszym, szybko zmieniającym się świecie technologii?

Młodym deweloperom i przedsiębiorcom radzę włożyć serce w swoją pracę i zidentyfikować prawdziwy problem, w którym można zaoferować wyjątkowe, inteligentne rozwiązanie. Zacznij od małych rzeczy, rób stałe kroki naprzód i uważnie słuchaj opinii klientów — to one poprowadzą cię ścieżką. Traktuj swoich użytkowników jak zaufanych przyjaciół, dawaj z siebie wszystko i bądź cierpliwy. Przyjmij technologie AI jako potężnych sojuszników; gdy są używane mądrze, wzmacniają twoją zdolność do tworzenia wpływowych, dostępnych narzędzi. Twórz z pasją, wytrwałością i zaangażowaniem w robienie różnicy, a stworzysz rozwiązania, które naprawdę mają znaczenie.

Dziękuję Antoniego Tardif do wywiadu. Możesz przeczytać cały wywiad tutaj: zjednoczyć.ai.

🎬 Filmy

🎬 GSpeech - wycieczka wideo
🎬 Odkryj GSpeech: przekształć tekst w dźwięk dzięki magii sztucznej inteligencji!
Przenieś swoje treści na wyższy poziom! Wypróbuj GSpeech teraz!
Pobierz GSpeech