En let introduktion til Transformer-XL

Resumé af en ny teknik til opmærksom sprogmodellering, der understøtter afhængighed på længere sigt.

Baggrund

Sprogmodellering er for nylig blevet behandlet ved hjælp af uovervågede træningsmetoder som ELMo og BERT. Det er dog stadig en udfordring at udruste neurale netværk korrekt med langtidsafhængighed.

De nylige modeller blev designet med en opmærksomhedsmekanisme til at lette optimering - ved at håndtere forsvindende gradient - og muliggøre indlæring af langtidsafhængighed. Imidlertid er konteksten af ​​fast længde i disse tilfælde, så modellen kan ikke fange afhængighed på længere sigt og lider af et problem, der kaldes kontekstfragmentering.

Kontekstfragmentering refererer til, når modellen mangler den nødvendige kontekstuelle information til at forudsige de første par symboler på grund af den måde, konteksten blev valgt på - normalt uden respekt for en sætning eller semantiske grænser.

Desuden understøtter tidligere modeller ikke informationsstrøm på tværs af segmenter under træning og bruger fast kontekstlængde, hvilket betyder, at der ikke er plads til modellen til at fange afhængighed på længere sigt.

I forbindelse med sprogmodellering kan skjulte tilstande genbruges for at tillade informationsstrømning over segmenter (en slags hukommelse). Dette kan hjælpe med at støtte afhængighed på længere sigt og håndtere fragmentering af kontekst. For at arkitekturen skal understøtte tilstandsanvendelse, skal tidsmæssig sammenhæng imidlertid styres, som vi diskuterer næste.

Transformer-XL

Under træning bruger vanillesprogmodeller ikke effektiv kontekstinformation, og segmenter behandles individuelt. Derudover respekteres semantiske grænser under segmentering normalt ikke, da de fleste metoder anvender standardafskårne sekvenser med faste længder. Under evalueringen bruges kontekster med fast længde, og segmenter behandles fra bunden, hvilket bliver dyrt, selvom kontekstfragmentering er noget adresseret. Denne artikel sigter mod at fokusere på effektivitetsproblemet ved bedre modellering af afhængighed på længere sigt.

Ved sprogmodellering er Transformer-netværk begrænset af en fast længde-kontekst og kan derfor forbedres gennem indlæring af afhængighed på længere sigt. Papiret foreslår en ny metode kaldet Transformer-XL (betyder ekstra lang) til sprogmodellering, som gør det muligt for en Transformer-arkitektur at lære længerevarende afhængighed - via en gentagelsesmekanisme - ud over en fast længde uden at forstyrre den tidsmæssige sammenhæng.

Metoden er forskellig fra andre tidligere tilgange, der fokuserer på andre strategier til understøttelse af langsigtet afhængighed, såsom yderligere tabssignaler og forstærket hukommelsesstruktur.

En tilbagevendende mekanisme på segmentniveau introduceres, som gør det muligt for modellen at genbruge tidligere skjulte tilstande på træningstidspunktet, der adresserer både problemerne med fast længde-kontekst og kontekstfragmentering. Med andre ord kan den historiske information genbruges, og den kan udvides til så meget som GPU-hukommelse tillader det. Se trænings- og evalueringsfasen i figuren herunder.

Transformer-XL - trænings- og evalueringsfase (figurkilde)

For korrekt at kunne genbruge skjulte tilstande foreslår forfatterne en mekanisme kaldet relative positionskoder, som hjælper med at undgå tidsmæssig forvirring. Nuværende modeller kan ikke skelne positionsforskellen mellem input i forskellige segmenter i forskellige lag. Relativ positionskodning løser dette problem ved at kode posi- tionsinformationskræk i de skjulte tilstande, som adskiller sig fra andre tilgange, der udfører dette som inputniveau.

Da der er involveret en Transformer-arkitektur, opnås processen ovenfor ved at beregne den relative afstand mellem hver nøglevektor og forespørgselsvektor og injicere den i opmærksomhedsscore. Med et nyt parameterparametre for de udtryk, der bruges til at udlede opmærksomhedsresultatet mellem forespørgsel og vektor, kan den relative positionsinformation inkorporeres. Gentagelseskomponenten er nu udstyret med den foreslåede relative positionsindlejring, og hele denne procedure repræsenterer den foreslåede Transformer-XL-arkitektur.

Resultater

Transformer-XL opnår stærke resultater for både ordniveau og karakterniveau sprogmodellering anvendt til en række datasæt som WikiText-103, text8 og One Billion Word.

Den foreslåede model sammenlignes med en vaniljemodel, der for nylig blev brugt til sprogmodellering på karakterniveau (Al-Rfou et al., 2018), som også udnytter dybere selvopmerksomhed. Bemærk, at vaniljemodellen ikke kan understøtte afhængighedslængder, der er større end den øvre bundne segmentlængde.

Transformer-XL reducerer tidligere SoTA-perplexitetsscore på flere datasæt, såsom text8, enwiki8, One Billion Word og WikiText-103. Udover SoTA-forestillingerne hævder forfatterne, at metoden er mere fleksibel, hurtigere under evaluering (1874 gange speedup), generaliseres godt på små datasæt og er effektiv til at modellere korte og lange sekvenser. Se et resumé af nogle af de opnåede resultater på de forskellige datasæt i tabellerne nedenfor.

Du kan kontrollere resten af ​​resultaterne i det fulde papir, der er linket nedenfor.

Andre fordele

En papirundersøgelse for at undersøge virkningerne af både tilbagevendelsesmekanismen og den foreslåede positionskodningsplan findes også i papiret.

Forfatterne foreslår også en ny metrisk kaldet Relativ effektiv kontekstlængde, der giver en fair måde at sammenligne modeller, der testes med øgede kontekstlængder.

Yderligere læsninger

  • Transformer-XL: opmærksomme sprogmodeller ud over en fast længde-kontekst
  • Den annoterede transformator af Harvard NLP Group
  • Opmærksomhedsvejledning af Lilian Weng
  • Opmærksomhed er alt hvad du har brug for
  • Kodeopbevaring tilknyttet papiret (TensorFlow og PyTorch)
  • Sprogmodellering på karakterniveau med dybere selvopmerksomhed

Hvis der udtrykkes tilstrækkelig interesse, kan jeg føle mig fristet til at forberede en kodegennemgang til dette arbejde. Det indeholder mange forskellige komponenter, der kunne være interessante og nyttige for NLP-udøvere og forskere.