LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models

Today's large language models (LLMs) typically train on short text segments (e.g.,

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Han, Chi, Wang, Qifan, Peng, Hao, Xiong, Wenhan, Chen, Yu, Ji, Heng, Wang, Sinong
Format:	Artikel
Sprache:	eng
Schlagworte:	Computer Science - Artificial Intelligence Computer Science - Computation and Language
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	Today's large language models (LLMs) typically train on short text segments (e.g.,
DOI:	10.48550/arxiv.2308.16137