Suchergebnisse - Reddi, Sashank J

1

On the Inductive Bias of Stacking Towards Improving Reasoning von Saunshi, Nikunj, Karp, Stefani, Krishnan, Shankar, Miryoosefi, Sobhan, Reddi, Sashank J, Kumar, Sanjiv

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
2

Landscape-Aware Growing: The Power of a Little LAG von Karp, Stefani, Saunshi, Nikunj, Miryoosefi, Sobhan, Reddi, Sashank J, Kumar, Sanjiv

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
3

Private Adaptive Optimization with Side Information von Li, Tian, Zaheer, Manzil, Reddi, Sashank J, Smith, Virginia

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
4

$Depth Dependence of $\mu$P Learning Rates in ReLU MLPs$

Depth Dependence of $\mu$P Learning Rates in ReLU MLPs von Jelassi, Samy, Hanin, Boris, Ji, Ziwei, Reddi, Sashank J, Bhojanapalli, Srinadh, Kumar, Sanjiv

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
5

Differentially Private Adaptive Optimization with Delayed Preconditioners von Li, Tian, Zaheer, Manzil, Liu, Ken Ziyu, Reddi, Sashank J, McMahan, H. Brendan, Smith, Virginia

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
6

Efficient Document Ranking with Learnable Late Interactions von Ji, Ziwei, Jain, Himanshu, Veit, Andreas, Reddi, Sashank J, Jayasumana, Sadeep, Rawat, Ankit Singh, Menon, Aditya Krishna, Yu, Felix, Kumar, Sanjiv

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
7

On the Convergence of Adam and Beyond von Reddi, Sashank J, Kale, Satyen, Kumar, Sanjiv

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
8

Robust Training of Neural Networks Using Scale Invariant Architectures von Li, Zhiyuan, Bhojanapalli, Srinadh, Zaheer, Manzil, Reddi, Sashank J, Kumar, Sanjiv

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
9

Distilling Double Descent von Cotter, Andrew, Menon, Aditya Krishna, Narasimhan, Harikrishna, Rawat, Ankit Singh, Reddi, Sashank J, Zhou, Yichen

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
10

On the Role of Depth and Looping for In-Context Learning with Task Diversity von Gatmiry, Khashayar, Saunshi, Nikunj, Reddi, Sashank J, Jegelka, Stefanie, Kumar, Sanjiv

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
11

Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? von Gatmiry, Khashayar, Saunshi, Nikunj, Reddi, Sashank J, Jegelka, Stefanie, Kumar, Sanjiv

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
12

On the Inductive Bias of Stacking Towards Improving Reasoning von Saunshi, Nikunj, Karp, Stefani, Krishnan, Shankar, Sobhan Miryoosefi, Reddi, Sashank J, Kumar, Sanjiv

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
13

On the Algorithmic Stability and Generalization of Adaptive Optimization Methods von Nguyen, Han, Pham, Hai, Reddi, Sashank J, Póczos, Barnabás

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
14

O(n)$ Connections are Expressive Enough: Universal Approximability of Sparse Transformers von Yun, Chulhee, Chang, Yin-Wen, Bhojanapalli, Srinadh, Rawat, Ankit Singh, Reddi, Sashank J, Kumar, Sanjiv

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
15

Landscape-Aware Growing: The Power of a Little LAG von Karp, Stefani, Saunshi, Nikunj, Sobhan Miryoosefi, Reddi, Sashank J, Kumar, Sanjiv

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
16

Doubly-stochastic mining for heterogeneous retrieval von Rawat, Ankit Singh, Menon, Aditya Krishna, Veit, Andreas, Yu, Felix, Reddi, Sashank J, Kumar, Sanjiv

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
17

Adaptive Sampling Distributed Stochastic Variance Reduced Gradient for Heterogeneous Distributed Datasets von Ramazanli, Ilqar, Nguyen, Han, Pham, Hai, Reddi, Sashank J, Poczos, Barnabas

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
18

Are Transformers universal approximators of sequence-to-sequence functions? von Yun, Chulhee, Bhojanapalli, Srinadh, Rawat, Ankit Singh, Reddi, Sashank J, Kumar, Sanjiv

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
19

Why are Adaptive Methods Good for Attention Models? von Zhang, Jingzhao, Karimireddy, Sai Praneeth, Veit, Andreas, Kim, Seungyeon, Reddi, Sashank J, Kumar, Sanjiv, Sra, Suvrit

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
20

Riemannian SVRG: Fast Stochastic Optimization on Riemannian Manifolds von Zhang, Hongyi, Reddi, Sashank J, Sra, Suvrit

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:

On the Inductive Bias of Stacking Towards Improving Reasoning von Saunshi, Nikunj, Karp, Stefani, Krishnan, Shankar, Miryoosefi, Sobhan, Reddi, Sashank J, Kumar, Sanjiv

Landscape-Aware Growing: The Power of a Little LAG von Karp, Stefani, Saunshi, Nikunj, Miryoosefi, Sobhan, Reddi, Sashank J, Kumar, Sanjiv

Private Adaptive Optimization with Side Information von Li, Tian, Zaheer, Manzil, Reddi, Sashank J, Smith, Virginia

Depth Dependence of $\mu$P Learning Rates in ReLU MLPs von Jelassi, Samy, Hanin, Boris, Ji, Ziwei, Reddi, Sashank J, Bhojanapalli, Srinadh, Kumar, Sanjiv

Differentially Private Adaptive Optimization with Delayed Preconditioners von Li, Tian, Zaheer, Manzil, Liu, Ken Ziyu, Reddi, Sashank J, McMahan, H. Brendan, Smith, Virginia

Efficient Document Ranking with Learnable Late Interactions von Ji, Ziwei, Jain, Himanshu, Veit, Andreas, Reddi, Sashank J, Jayasumana, Sadeep, Rawat, Ankit Singh, Menon, Aditya Krishna, Yu, Felix, Kumar, Sanjiv

On the Convergence of Adam and Beyond von Reddi, Sashank J, Kale, Satyen, Kumar, Sanjiv

Robust Training of Neural Networks Using Scale Invariant Architectures von Li, Zhiyuan, Bhojanapalli, Srinadh, Zaheer, Manzil, Reddi, Sashank J, Kumar, Sanjiv

Distilling Double Descent von Cotter, Andrew, Menon, Aditya Krishna, Narasimhan, Harikrishna, Rawat, Ankit Singh, Reddi, Sashank J, Zhou, Yichen

On the Role of Depth and Looping for In-Context Learning with Task Diversity von Gatmiry, Khashayar, Saunshi, Nikunj, Reddi, Sashank J, Jegelka, Stefanie, Kumar, Sanjiv

Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? von Gatmiry, Khashayar, Saunshi, Nikunj, Reddi, Sashank J, Jegelka, Stefanie, Kumar, Sanjiv

On the Inductive Bias of Stacking Towards Improving Reasoning von Saunshi, Nikunj, Karp, Stefani, Krishnan, Shankar, Sobhan Miryoosefi, Reddi, Sashank J, Kumar, Sanjiv

On the Algorithmic Stability and Generalization of Adaptive Optimization Methods von Nguyen, Han, Pham, Hai, Reddi, Sashank J, Póczos, Barnabás

O(n)$ Connections are Expressive Enough: Universal Approximability of Sparse Transformers von Yun, Chulhee, Chang, Yin-Wen, Bhojanapalli, Srinadh, Rawat, Ankit Singh, Reddi, Sashank J, Kumar, Sanjiv

Landscape-Aware Growing: The Power of a Little LAG von Karp, Stefani, Saunshi, Nikunj, Sobhan Miryoosefi, Reddi, Sashank J, Kumar, Sanjiv

Doubly-stochastic mining for heterogeneous retrieval von Rawat, Ankit Singh, Menon, Aditya Krishna, Veit, Andreas, Yu, Felix, Reddi, Sashank J, Kumar, Sanjiv

Adaptive Sampling Distributed Stochastic Variance Reduced Gradient for Heterogeneous Distributed Datasets von Ramazanli, Ilqar, Nguyen, Han, Pham, Hai, Reddi, Sashank J, Poczos, Barnabas

Are Transformers universal approximators of sequence-to-sequence functions? von Yun, Chulhee, Bhojanapalli, Srinadh, Rawat, Ankit Singh, Reddi, Sashank J, Kumar, Sanjiv

Why are Adaptive Methods Good for Attention Models? von Zhang, Jingzhao, Karimireddy, Sai Praneeth, Veit, Andreas, Kim, Seungyeon, Reddi, Sashank J, Kumar, Sanjiv, Sra, Suvrit

Riemannian SVRG: Fast Stochastic Optimization on Riemannian Manifolds von Zhang, Hongyi, Reddi, Sashank J, Sra, Suvrit

Suchwerkzeuge:

Treffer weiter einschränken

Eingrenzen

Format

Zeitschriftentitel

Schlagworte

Erscheinungsjahr

Quelle