#7 Kaip profesionaliai įgarsinti bet kurį tekstą?

„Google“ triumfas ir nuopuolis. Teksto įgarsinimo įrankis. Startuoja originaliausias pokalbių robotas.

Labas!

Kaip juokaujama internete, milijardierių tarpe investuoti į AI startuolį šiandien madingiau nei turėti savo sporto komandą.

Todėl pristatyti naują kalbos modelį pastaraisiais mėnesiais – prestižo reikalas kiekvienai save gerbiančiai bendrovei.

Šiais mėnesiais savo kalbos modelius pristatė „Google“, „xAI“, „Mistral AI“, „Perplexity AI“ ir daugelis kitų.

Apie svarbiausius pasiekimus ir nesėkmes – kaip visada praktiškame „Why AI“ naujienlaiškyje!

Šiandienos naujienlaiškyje:

  • „Google“ kovos AI arenoje

  • Teksto įgarsinimas su AI

  • Netikėtų sprendimų paieška

SAVAITĖS NAUJIENA

„Google“ triumfas ir nuopuolis

Pasaulio bendrovės supranta: netikėta, tačiau masiška „OpenAI“ sėkmė privertė susigūžti iki šiol tendencijas formavusias technologijų korporacijas.

Nors „ChatGPT“ jau daugiau nei metai – tokios bendrovės kaip „Google“ iki šiol ieško pakankamai stipraus atsako.

Ir kai jau rodosi, kad „OpenAI“ dominavimui ateina galas... „Google“ šauna sau į kojas.

Apie ką mes?

Praėjusios savaitės didžiausia AI naujiena – „Google Gemini“ modelio pristatymas.

Tiksliau, iš karto pristatytos net trys „Gemini“ versijos: „Ultra“, „Pro“ ir „Nano“, kurių kiekviena optimizuota skirtingiems atvejams. „Ultra“ sudėtingoms užduotims, „Pro“ įvairioms užduotims ir „Nano“ – išmaniajame įrenginyje atliekamoms užduotims, jau tuoj „Android“ ir „Pixel“ telefonuose.

„Google“ CEO teigia, kad „Gemini“ ilgainiui bus integruotas į „Google“ paieškos sistemą, reklamos produktus ir „Chrome“ naršyklę.

„Gemini“ yra multimodalinis modelis, galintis apdoroti tekstą, kodą, garsą, vaizdus ir vaizdo įrašus. Kaip multimodališkumas atsiskleidžia praktikoje, galite žvilgtelti čia:

„Gemini Pro“ jau įdiegta „Google“ produktuose („Gmail“, „YouTube“, „Docs“ ir kt.). Sakoma, kad „Gemini Pro“ prilygsta „ChatGPT-3.5“ versijai. Viena vertus tai laimėjimas, kita vertus – „OpenAI“ tai padarė prieš metus.

Nepaisant to, didžiausią lūkestį kelia „Ultra“ modelis, kuris bus prieinamas tik kitų metų pradžioje.

Įmonės atstovai drąsiai teigia, kad šis modelis prilygsta, o daugeliu atveju ir lenkia „GPT-4“. Tai patvirtina „Google“ atlikti tyrimai: modelio našumas viršija dabartinius didžiųjų kalbos modelius, įskaitant „GPT-4“, 30 iš 32 plačiai naudojamų akademinių lyginamųjų testų.

Pasak įmonės, „Gemini Ultra“ yra pirmasis AI modelis pagal MMLU (angl. „Massive Multitask Language Understanding“) lyginamąjį indeksą pranokstantis žmones. Šio testo metu tikrinamos pasaulio pažinimo ir problemų sprendimo gebėjimų žinios iš 57 dalykų, pavyzdžiui, matematikos, fizikos, istorijos, teisės, medicinos ir etikos.

Taigi, naujiena tikrai ne kasdienė. Be to, drąsūs teiginiai, esą modelis stipriai lenkia iki šiol AI madas diktuojantį „GPT-4“ modelį skatino tvirtai permąstyti visos rinkos, o kartu ir galutinių vartotojų ateitį.

Tačiau yra vienas BET.

Beveik iš karto po didžiosios naujienos pasirodė eilė kaltinimų „Google“.

Pasirodo, įspūdinga „Gemini“ modelio demo versija, kuri surinko milijonus peržiūrų ir paskatino milžinišką entuziazmą – surežisuota, neatlikta realiu laiku ir stipriai pakoreguota. Visi demo versijos žiūrovai klaidinti dėl sąveikos su modeliu greičio ir tikslumo.

pripažino ir „Google“, bet nemato tame nieko blogo. Nors situacija dviprasmiška – reikia pripažinti, kad įvadinis video tikrai sudaro sąlygas daug aukštesniems vartotojų lūkesčiams nei šiuo metu gali (kol kas neprieinamas) „Ultra“ modelis.

Kitas diskusijų objektas – kaip gerai „Gemini“ sekėsi atlikti MMLU lyginamąjį testą. Stebėtojai ir AI tyrėjai nurodo, kad pozityvūs rezultatai buvo pasiekti taikant tam tikras „promptinim‘o“ technikas ir kad „Gemini“ savo bazinio modelio pavidalu greičiausiai atsilieka ir nuo žmonių ekspertų, ir nuo „GPT-4“.

Ką tai reiškia AI pasauliui?

Akivaizdu, „Google“ nori, kad prisimintume, jog ji turi vieną didžiausių pasaulyje dirbtinio intelekto tyrėjų komandų ir prieigą prie daugiau duomenų nei bet kas kitas. Tačiau iš per didelio noro pademonstruoti savo pranašumą, kyla reputacijos problemų.

Kol kas sunku tiksliai įvertinti „Gemini Ultra“ pajėgumus, todėl reikės palaukti naujų metų.

Kad ir kaip būtų, vis daugiau įmonių taikosi į „ChatGPT“ sostą, tad technologijų lenktynės dar tik įsibėgėja.

ANTRAŠTĖS

  • „X“ („Twitter”) platformos prenumeratoriams paleidžia „maištingąjį“ pokalbių robotą „Grok“. Skirtingai nei kiti pokalbių robotai, „Grok“ į savo atsakymus gali įtraukti realiuoju laiku gaunamus duomenis iš „X“ naujienų, todėl bent teoriškai gali atsakyti į klausimus naudodamasis naujausia informacija.

  • Europos Sąjungos pareigūnai pasiekė preliminarų susitarimą dėl pirmųjų pasaulyje išsamių AI naudojimo įstatymų. Pasiūlymuose numatytos dirbtinio intelekto naudojimo ES apsaugos priemonės, taip pat apribojimai, susiję su jo naudojimu teisėsaugos institucijose. Dėl šio akto bus oficialiai balsuojama kitų metų pradžioje ir jis įsigalios ne anksčiau kaip 2025 m.

  • Prognozuojama, kad ilgainiui „Amazon“ sandėliuose veikiančių humanoidų robotų eksploatacija kainuos tik 3 JAV dolerius per valandą. Šiuo metu tie patys robotai kainuoja nuo 10 iki 12 JAV dolerių per valandą.

  • „Meta“ paskelbė daugiau nei 20 naujų generatyvinio AI funkcijų, apimančių paiešką, žinučių siuntimą ir skelbimus. Be to, bendrovė pristatė savo vaizdų generatorių „Imagine“ (kol kas jis neprieinamas Europos vartotojams).

  • Ir Europa turi ką pasiūlyti: Paryžiuje įsikūręs AI startuolis „Mistral“, kuris ką tik gavo 2 mlrd. dolerių įvertinimą, išleido naują atvirą (angl. „open source“) kalbos modelį. Vietoj prabangaus pristatymo – tiesiog „torrent“ nuoroda į prieiga prie modelio.

AI IŠ ARČIAU

AI praktiškai: kaip profesionaliai įgarsinti bet kurį tekstą?

Daugelis iš mūsų susiduria su panašia problema: kuriant turinį ar reklamuojant produktus užsienio rinkose, prireikia profesionalių teksto įgarsinimo paslaugų. Tačiau, kad anglų kalbos akcentas netrukdytų bendrauti užsienyje – galima pasinaudoti moderniais AI įrankiais.

Šiandien išbandysime populiariausią ir kokybiškiausią „Text to Speech“ įrankį „ElevenLabs“ ir su juo sukursime įgarsintą kalėdinį sveikinimą anglų kalba.

#1 žingsnis: registracija

Eikite į „elevenlabs.io“ ir spustelėkite mygtuką „Sign Up“. Galite užsiregistruoti su savo „Google“ paskyra. Kiekvienas vartotojas gali šią programą išbandyti nemokamai.

#2 žingsnis: balso parinktis

Užsiregistravus, turėtumėte atsirasti „Speech Synthesis“ puslapyje. Nors nustatymų ir funkcijų yra daugiau, šiam eksperimentui atlikti pasitelksime tik bazines funkcijas. Prie „Task“ laukelio nieko nekeisime, o prie „Settings“ – pasikeisime bazinį balsą.

Kadangi kursime Kalėdų sveikinimą, geriausiai tam tiks Kalėdų senelio balsas.

#3 žingsnis: papildymas

Pasirinkus norimą balsą, galime įgarsinti bet kokį tekstą. Nemokama versija leidžia įgarsinti iki 2500 simbolių tekstą.

Pavyzdžio dėlei, galime įvesti internete randamą (ar „ChatGPT“ sugeneruotą) kalėdinį sveikinimą ir paprašyti jį įgarsinti. Kad kalėdų senelis pradėtų kalbėti už jūsų ekrano, įvedus tekstą užtenka paspausti „Generate“ mygtuką. Gavus tinkamą variantą, jį galima atsisiųsti ir naudoti savo reikmėms.

Žinoma, tokia AI technologija įdomi tikrai ne vien dėl žaidimo. Nuo rinkodaros kampanijų iki audio knygų įgarsinimų – šiandien galime kalbėtis su užsienio rinkomis tarsi gimtąja kalba. Nors šiuo metu daugiausia balsų tenka anglų kalbai, netrukus turėtų pasipildyti ir gausesnės užsienio kalbų grupės.

Be to, jau dabar galime išbandyti daugelį skirtingų balso tonacijų, rinktis tarp lyčių ar akcentų. Tai atveria visiškai naujas reklamos galimybes.

Ar jau minėjau, kad galima įkelti ir savo balsą (mokamoje versijoje) ir paprašyti jį klonuoti bei įgarsinti bet kurį tekstą?

Taigi, „ElevenLabs“ tikrai turi ką pasiūlyti. Rekomenduojame išbandyti šios programos galimybes, o geriausiais panaudojimo būdais – pasidalinti, atsakant į šį laišką!

INFOGRAFIKAS

Kuriuos sektorius labiausiai veikia dirbtinis intelektas?

Jungtinės Karalystės švietimo ministerijos duomenimis

SAVAITĖS „PROMPT‘AS“

Beieškant „unknown unknowns“

Act as an expert in [Field] with a unique skill for uncovering hidden insights. Your task is to identify and explain lesser-known [Tools/Methods] that can significantly improve efficiency in [Specific Task or Challenge]. Include practical examples of how these tools or methods can reveal unexpected solutions, transforming the approach to complex problems in your field. Alongside each answer, provide a brief example of a specific problem it can solve, highlighting 'unknown unknowns' that could revolutionize user‘s approach to handling large problems. Make your answers very practical.

Pavyzdinis rezultatas el. laiškų rinkodaros srityje – čia (paskaitykite atsakymą).

VIETOJ APIBENDRINIMO

Iš AI nereikia tikėtis tobulų atsakymų jau šiandien.

Tikrai ne visi rezultatai gali nudžiuginti mūsų aukštus lūkesčius.

Tai patvirtina ir smagi „Uber Eats“ nesėkmė Amerikoje.

Jau daugelį metų įmonė naudojo „stock“ nuotraukas, kad užpildytų restoranų meniu, kai maitinimo įstaiga nepateikia atitinkamo paveikslėlio.

Tačiau su tuo atsirado papildoma problema – daugelis valgiaraščių atrodo vienodai.

Žinoma, šią problemą galima išspręsti su AI vaizdais, tiesa?

Tą manė ir bendrovė, kuri AI algoritmams leido atvaizduoti realų restorano meniu.

Žinoma, kol kas lūkesčiai ir realybė vis dar smarkiai prasilenkia.

Pasigrožėti vietinės Niujorko picerijos AI sugeneruotu meniu galite čia: