Allt du ville veta om Microsofts VAL-E

Allt du ville veta om Microsofts VAL-E

Microsoft har utvecklat VALL-E – en text-till-tal AI-modell som härmar vilken röst som helst bara genom att lyssna på ett ljudprov på 3 sekunder.

Innan du läser vidare vill jag göra det klart att VAL-E skiljer sig från WALL-E. Även om vissa av oss skulle uttala båda orden exakt likadant, är det mycket skillnad mellan de två. WALL-E är en Disney-Pixar-animation som släpptes 2008, som inkluderade en söt och vänlig AI-robot.

AI-faktorn är verkligen en likhet mellan VALL-E och WALL- E.

Vad vet vi om VALL-E?

I tekniska termer kallar Microsoft VALL-E för en "Neural Codec Language Model". På ett enklare språk är VAL-E en AI-modell som kan generera ljud från textinmatning samt efterlikna rösten från alla ljudexempel som tillhandahålls. Genom att höra ett röstsampel så kort som tre sekunder kan det imitera vilken röst som helst. VALL-E är ännu inte allmänt tillgänglig för allmänheten. Det kan inte bara passa rösten utan även stämningen och akustiken i rummet. Det finns moraliska problem med det, trots att det kan tillämpas på många fördelaktiga sätt.

Träningsmodeller –

Forskare hävdar att de har tränat VALL-E på 60 000 timmar av engelsktalande, jämfört med 7 000+ personer på Metas LibriLight-ljudbibliotek. Målhögtalarens röst måste likna träningsdatan för att kunna efterliknas. På så sätt kan Al:et använda sin "träning" för att försöka imitera den riktade talarens röst.

Imitera känslor –

Det bör betonas att Al-modellen kan simulera akustiken i rummet såväl som talarens känslomässiga ton förutom tonhöjd, skal och textur. Därför kommer VALL-E att efterlikna målrösten som om den har en störning om målrösten har en.

I enlighet med Microsofts forskargrupp, "Fynden av experimenten visar att VALL-E presterar mycket bättre när det gäller talnaturlighet och högtalarliknande än det mest avancerade zero-shot TTS-systemet. Dessutom upptäcker vi att VALL-E kan bibehålla talarens känsla och det akustiska sammanhanget för den akustiska prompten under syntesen ".

Hot –

The Al modell kan appliceras på robotik, medieproduktion och anpassade text-till-tal-applikationer. Men om den används felaktigt kan den utgöra ett hot. Verksamheten varnade att modellen kan missbrukas för att imitera eller förfalska röstidentifiering eftersom VALL-E skulle kunna syntetisera tal samtidigt som talarens identitet bibehålls.

VALL-E kan till exempel användas för att generera spamsamtal som verkar vara legitima för att lura folk. Politiker eller någon med en respektabel social närvaro är också mottagliga för efterbildning, vilket framgår av bluffar. Hot kan komma till användare som använder applikationer som behöver talkommandon eller röstlösenord. Vidare kan röstskådespelares jobb elimineras av VALL-E.

Etisk position –

Dessutom kommer verksamheten innehåller ett uttalande om etik som lyder: "Försöken i detta arbete utfördes under antagandet att användaren av modellen är måltalaren och har accepterats av talaren." Protokollet för att säkerställa att talaren går med på att utföra ändringen och systemet för att upptäcka det modifierade talet bör inkluderas i röstredigeringsmodeller, stod det, när modellen generaliseras till alla talare.

Hur är VALL -E Skiljer sig från DALL-E?

DALL-E är en OpenAI-skapad maskininlärningsmodell som genererar grafik från textbeskrivningar. Uppmaningar används för att beskriva dessa text-till-bild-beskrivningar. Bara en beskrivning av scenen räcker för att algoritmen ska producera realistiska bilder. DALL-E är en neural nätverksteknik som bygger exakta bilder från korta ord som användaren tillhandahåller. Den lär sig språk med hjälp av textbeskrivningar och genom att "lära sig" data som användare och utvecklare har bidragit med till dess datauppsättningar.

Vad tycker du om VAL-E?

Vi hoppas att du nu vet allt om ALL-E (text till ljud) jämfört med DALL-E (text till bild). Det finns inget bestämt datum för när VALL-E skulle vara tillgänglig för allmänheten. När det gäller DALL-E har den redan gjorts tillgänglig för alla.

Snälla meddela oss i kommentarerna nedan om du har några frågor eller rekommendationer. Vi skulle gärna ge dig en lösning. Vi publicerar ofta råd, knep och lösningar på vanliga tekniska problem. Du kan också hitta oss på Facebook, Twitter, YouTube, Instagram, Flipboard och Pinterest.

Läs: 0

yodax