Suchergebnisse - Jaszczur, Sebastian

1

Structured Packing in LLM Training Improves Long Context Utilization von Staniszewski, Konrad, Tworkowski, Szymon, Jaszczur, Sebastian, Zhao, Yu, Michalewski, Henryk, Kuciński, Łukasz, Miłoś, Piotr

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
2

Neural heuristics for SAT solving von Jaszczur, Sebastian, Łuszczyk, Michał, Michalewski, Henryk

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
3

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts von Pióro, Maciej, Ciebiera, Kamil, Król, Krystian, Ludziejewski, Jan, Krutul, Michał, Krajewski, Jakub, Antoniak, Szymon, Miłoś, Piotr, Cygan, Marek, Jaszczur, Sebastian

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
4

Mixture of Tokens: Continuous MoE through Cross-Example Aggregation von Antoniak, Szymon, Krutul, Michał, Pióro, Maciej, Krajewski, Jakub, Ludziejewski, Jan, Ciebiera, Kamil, Król, Krystian, Odrzygóźdź, Tomasz, Cygan, Marek, Jaszczur, Sebastian

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
5

Scaling Laws for Fine-Grained Mixture of Experts von Krajewski, Jakub, Ludziejewski, Jan, Adamczewski, Kamil, Pióro, Maciej, Krutul, Michał, Antoniak, Szymon, Ciebiera, Kamil, Król, Krystian, Odrzygóźdź, Tomasz, Sankowski, Piotr, Cygan, Marek, Jaszczur, Sebastian

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
6

Sparse is Enough in Scaling Transformers von Jaszczur, Sebastian, Chowdhery, Aakanksha, Mohiuddin, Afroz, Kaiser, Łukasz, Gajewski, Wojciech, Michalewski, Henryk, Kanerva, Jonni

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
7

Structured Packing in LLM Training Improves Long Context Utilization von Staniszewski, Konrad, Tworkowski, Szymon, Jaszczur, Sebastian, Zhao, Yu, Michalewski, Henryk, Kuciński, Łukasz, Miłoś, Piotr

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
8

Neural heuristics for SAT solving von Jaszczur, Sebastian, Łuszczyk, Michał, Michalewski, Henryk

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
9

Mixture of Tokens: Continuous MoE through Cross-Example Aggregation von Antoniak, Szymon, Krutul, Michał, Pióro, Maciej, Krajewski, Jakub, Ludziejewski, Jan, Ciebiera, Kamil, Król, Krystian, Odrzygóźdź, Tomasz, Cygan, Marek, Jaszczur, Sebastian

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
10

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts von Pióro, Maciej, Ciebiera, Kamil, Król, Krystian, Ludziejewski, Jan, Krutul, Michał, Krajewski, Jakub, Antoniak, Szymon, Miłoś, Piotr, Cygan, Marek, Jaszczur, Sebastian

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
11

Scaling Laws for Fine-Grained Mixture of Experts von Krajewski, Jakub, Ludziejewski, Jan, Adamczewski, Kamil, Pióro, Maciej, Krutul, Michał, Antoniak, Szymon, Ciebiera, Kamil, Król, Krystian, Odrzygóźdź, Tomasz, Sankowski, Piotr, Cygan, Marek, Jaszczur, Sebastian

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
12

Sparse is Enough in Scaling Transformers von Jaszczur, Sebastian, Chowdhery, Aakanksha, Mohiuddin, Afroz, Kaiser, Łukasz, Gajewski, Wojciech, Michalewski, Henryk, Kanerva, Jonni

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
13

SPARSE ATTENTION NEURAL NETWORKS von Michalewski, Henryk, Kanerva, Jonni Miikka, Kaiser, Lukasz Mieczyslaw, Mohiuddin, Afroz, Gajewski, Wojciech, Jaszczur, Sebastian Dariusz, Chowdhery, Aakanksha

Volltext bestellen

Patent

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
14

SPARSE ATTENTION NEURAL NETWORKS von Michalewski, Henryk, Kanerva, Jonni Miikka, Kaiser, Lukasz Mieczyslaw, Mohiuddin, Afroz, Gajewski, Wojciech, Jaszczur, Sebastian Dariusz, Chowdhery, Aakanksha

Volltext bestellen

Patent

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:

Structured Packing in LLM Training Improves Long Context Utilization von Staniszewski, Konrad, Tworkowski, Szymon, Jaszczur, Sebastian, Zhao, Yu, Michalewski, Henryk, Kuciński, Łukasz, Miłoś, Piotr

Neural heuristics for SAT solving von Jaszczur, Sebastian, Łuszczyk, Michał, Michalewski, Henryk

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts von Pióro, Maciej, Ciebiera, Kamil, Król, Krystian, Ludziejewski, Jan, Krutul, Michał, Krajewski, Jakub, Antoniak, Szymon, Miłoś, Piotr, Cygan, Marek, Jaszczur, Sebastian

Mixture of Tokens: Continuous MoE through Cross-Example Aggregation von Antoniak, Szymon, Krutul, Michał, Pióro, Maciej, Krajewski, Jakub, Ludziejewski, Jan, Ciebiera, Kamil, Król, Krystian, Odrzygóźdź, Tomasz, Cygan, Marek, Jaszczur, Sebastian

Scaling Laws for Fine-Grained Mixture of Experts von Krajewski, Jakub, Ludziejewski, Jan, Adamczewski, Kamil, Pióro, Maciej, Krutul, Michał, Antoniak, Szymon, Ciebiera, Kamil, Król, Krystian, Odrzygóźdź, Tomasz, Sankowski, Piotr, Cygan, Marek, Jaszczur, Sebastian

Sparse is Enough in Scaling Transformers von Jaszczur, Sebastian, Chowdhery, Aakanksha, Mohiuddin, Afroz, Kaiser, Łukasz, Gajewski, Wojciech, Michalewski, Henryk, Kanerva, Jonni

Structured Packing in LLM Training Improves Long Context Utilization von Staniszewski, Konrad, Tworkowski, Szymon, Jaszczur, Sebastian, Zhao, Yu, Michalewski, Henryk, Kuciński, Łukasz, Miłoś, Piotr

Neural heuristics for SAT solving von Jaszczur, Sebastian, Łuszczyk, Michał, Michalewski, Henryk

Mixture of Tokens: Continuous MoE through Cross-Example Aggregation von Antoniak, Szymon, Krutul, Michał, Pióro, Maciej, Krajewski, Jakub, Ludziejewski, Jan, Ciebiera, Kamil, Król, Krystian, Odrzygóźdź, Tomasz, Cygan, Marek, Jaszczur, Sebastian

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts von Pióro, Maciej, Ciebiera, Kamil, Król, Krystian, Ludziejewski, Jan, Krutul, Michał, Krajewski, Jakub, Antoniak, Szymon, Miłoś, Piotr, Cygan, Marek, Jaszczur, Sebastian

Scaling Laws for Fine-Grained Mixture of Experts von Krajewski, Jakub, Ludziejewski, Jan, Adamczewski, Kamil, Pióro, Maciej, Krutul, Michał, Antoniak, Szymon, Ciebiera, Kamil, Król, Krystian, Odrzygóźdź, Tomasz, Sankowski, Piotr, Cygan, Marek, Jaszczur, Sebastian

Sparse is Enough in Scaling Transformers von Jaszczur, Sebastian, Chowdhery, Aakanksha, Mohiuddin, Afroz, Kaiser, Łukasz, Gajewski, Wojciech, Michalewski, Henryk, Kanerva, Jonni

SPARSE ATTENTION NEURAL NETWORKS von Michalewski, Henryk, Kanerva, Jonni Miikka, Kaiser, Lukasz Mieczyslaw, Mohiuddin, Afroz, Gajewski, Wojciech, Jaszczur, Sebastian Dariusz, Chowdhery, Aakanksha

SPARSE ATTENTION NEURAL NETWORKS von Michalewski, Henryk, Kanerva, Jonni Miikka, Kaiser, Lukasz Mieczyslaw, Mohiuddin, Afroz, Gajewski, Wojciech, Jaszczur, Sebastian Dariusz, Chowdhery, Aakanksha

Suchwerkzeuge:

Treffer weiter einschränken

Eingrenzen

Format

Zeitschriftentitel

Schlagworte

Erscheinungsjahr

Quelle