6 problemer, som AI står overfor ved talegenkendelse

Alle store virksomheder investerer i stemmegenkendelse, og verden tilpasser sig langsomt men støt efter den nye teknologi til kunstig intelligens (AI). Så hvorfor tager det så lang tid, hvorfor er det ikke en del af vores daglige liv endnu? Her er de 6 grunde til.

Du går til en butik for at se efter en bestemt farve og et brand af et produkt. Du spørger en medarbejder, om det ønskede produkt er tilgængeligt. Medarbejderen går til lageret, kontrollerer hans lager for produktet og kommer tilbage et stykke tid senere for kun at fortælle dig, at dit produkt ikke er tilgængeligt mere.

Forestil dig dette, du går ind i den samme butik og fortæller en lille enhed det produkt, du vil købe. Inden for et sekund fortæller en stemme dig den nøjagtige tilgængelighed af dit produkt, og hvis det ikke er muligt, giver du detaljer om de forretninger, hvor produktet er tilgængeligt.

AI-enheden gør dette ved internt at scanne gennem alle de digitale opgørelsessystemer. Med adskillige fordele i forhold til omkostningslogistik og endnu vigtigere bekvemmelighed, hvorfor er kunsten af ​​talegenkendelse og personlige assistenter endnu ikke blevet perfektioneret?

Når videnskaben gør store fremskridt inden for genkendelse af lydbølger, tager vi et kig på nogle af de største problemer, som forskerne står overfor, når de dekoder tale til tekst.

Støj

Stemmeoptagelsesmaskiner registrerer lydbølger, der genereres gennem tale. Baggrundslyde i værelser gør det vanskeligt for systemer at forstå og skelne mellem de specifikke lydbølger fra værtsstemmen. Dette slører lyden, der samles op af enhederne, forvirrende og begrænser dens behandlingsevne.

Ekko

Ekkoer er dybest set lydbølger, der reflekteres på forskellige overflader, såsom vægge, borde eller andre møbler. Dette fører til et uorganiseret tilbagevenden af ​​lydbølger tilbage til receptorerne, hvilket reducerer klarheden.

Accenter

En bred vifte af accenter på hvert sprog er en anden faktor, der fører til vanskeligheder i talegenkendelse. Hvis det samme ord kan udtales på en række forskellige måder, har stavelser og fonetik af det samme ord en tendens til at variere, hvilket gør det sværere for maskinen at behandle.

Lignende lyde

Lignende lydende ord og sætninger kan forhindre korrekt kodning og afkodning af stemmemeddelelsen. For eksempel "Lad os ødelægge en dejlig strand" og "Lad os genkende tale" er fonetisk meget ens og kan let forvirre enheden.

Maskinfejl

Nøjagtighedsniveauer for stemmedetektion har høje fejlrater. Maskiner står stadig over for 8% -12% af fejlene, hvilket er mere end dobbelt så meget som mennesker laver i deres daglige tale. Fejl i kodningen af ​​indsamlede data er afgørende for ydeevnen, da det er det første trin, hvor stemmegenoptagelsesenhederne kan handle på.

Uorganiseret tale

Samlingen af ​​ord i vores daglige samtaler betyder, at mange ord og sætninger smelter sammen. Dette er uegnet til maskine- og stemme-til-tekstgenkendelse, da det gør det sværere at genkende specifikke ord eller sætninger, der vil påvirke enhedens følgevirkning og handlinger.

Samlet set, uanset hvor avanceret disse maskiner kan være, vil de ovennævnte faktorer fortsat være en hindring for udviklingen af ​​AI-assistenter, der bevæger sig fremad. Men hvor hurtigt videnskaben og teknologien har udviklet sig, fokuserer alle store virksomheder på at skabe de optimale stemmegenkendelsesenheder, og før eller senere vil de skrues sammen, og vi vil alle have en stemmeaktiveret robot, der kører vores hjem såvel som vores liv.

Find ud af mere om RAF 100-begivenheden og Hvad er STEM

Sørg for at følge os på LinkedIn for at få adgang til vores eksklusive indhold! # raf100event #WhatIsSTEM