Díky pokroku v oblasti umělé inteligence dokázal Google zmenšit velikost modelů používaných pro rozpoznávání řeči a snížit hmotnost těchto modelů ze 100 GB na 0,5 GB. nyní lze uložit na smartphony a rozpoznávání řeči může fungovat, aniž byste museli procházet datovým centrem Google.
Během své konference Google I / O, která se konala včera v San Francisku, společnost oznámila, že Google Assistant bude mít brzy offline režim a díky místně uloženým modelům bude moci reagovat 10krát rychleji.
Od hlasu k textu přímo
Uživatelé Google Assistant však nejsou jediní, kdo může z této zálohy Google těžit. Díky tomuto novému rozpoznávání hlasu může společnost také nabídnout funkci usnadnění přístupu pro neslyšící a nedoslýchavé: Živý popisek.
Live Caption je součástí novinek pro Android Q, další aktualizace operačního systému od Googlu, která bude distribuována v srpnu. Funkce se aktivuje tlačítkem pod ovladačem hlasitosti na smartphonu. Jakmile je povoleno, Live Caption přepíše všechna videa spuštěná v zařízení bez ohledu na zdroj, ať už jde o video pořízené fotoaparátem nebo video ze streamovací platformy.
Zde je ukázka živých titulků:
Pokud má zvuk, může nyní mít titulky. Live Caption automaticky textuje média přehrávaná na vašem telefonu. Videa, podcasty a zvukové zprávy ve všech aplikacích – dokonce i věci, které si sami nahrajete. # io19 pic.twitter.com/XAW3Ii4xxy
– Google (@Google) 7. května 2019
Díky této funkci mohou lidé, kteří jsou neslyšící nebo špatně slyší, využívat na svých smartphonech širší škálu přizpůsobeného obsahu. Protože je model uložen lokálně, Živý popis funguje bez WiFi nebo mobilních dat, a bez latence obvykle způsobené špatným internetovým připojením.
„Pro 466 milionů neslyšících a nedoslýchavých lidí na celém světě jsou titulky více než jen praktičnost – zpřístupňují obsah,“ řekla na pódiu Stephanie Cuthbertson, ředitelka produktového managementu Androidu.
Ale i pro někoho bez postižení mohou být Android Q Live Captions za určitých okolností užitečné, například při sledování videa bez zapnutí hlasitosti během schůzky. Funkce, kterou tedy můžeme najít na novém Pixel 3a, který byl formalizován na stejné konferenci.
Live Relay nebo když AI chatuje s vaším telefonem
Stejně jako funkce Live Caption byla Live Relay vyvinuta pro lidi, kteří nemohou mluvit ani slyšet.
Využívá pokroky společnosti Google v rozpoznávání řeči a také technologie převodu textu na řeč pro Android, která umožňuje neslyšícím a nedoslýchavým lidem chatovat s někým v telefonu.
Jak to funguje ? Uživatel dostane přepis toho, co jeho korespondent říká, a může odpovědět zadáním textu (chytrý telefon převede text, který byl napsán do hlasu). Kromě toho Google do této funkce také přidává svou funkci Smart Compose a Smart Reply (funkce, které automaticky navrhují fráze nebo odpovědi), aby uživatel mohl lépe reagovat.
Bohužel není známo, kdy bude tato funkce uvedena na Android nebo v jakých jazycích bude k dispozici. Google vysvětluje, že „Live Relay je stále ve fázi výzkumu“. Přesto bylo na I / O konferenci Google ukázáno malé demo a potenciál je zjevně slibný.