GPU GPU clock control method and device for machine learning

A GPU clock control method for machine learning inference according to one embodiment of the present invention comprises: a request queue insertion step comprising a step of receiving an inference request and checking a current queue length before inserting the inference request into the request que...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: SEO EUI SEONG, KIM JONG SEOK, YU JUN YEOL
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A GPU clock control method for machine learning inference according to one embodiment of the present invention comprises: a request queue insertion step comprising a step of receiving an inference request and checking a current queue length before inserting the inference request into the request queue, a step of calculating an inference time of the input inference request using the checked queue length, a step of calculating a target GPU clock of the input inference request based on the calculated inference time, a step of comparing the target GPU clock of the input inference request with a currently operating GPU clock and setting the GPU clock to a larger value, and a step of inserting information about the set GPU clock into the request queue along with the input inference request; and a request queue deletion step comprising a step of retrieving and processing the earliest inference request from the request queue, a step of obtaining the largest clock value by searching for a target GPU clock for each of all inference requests stored in the request queue from which the earliest inference request has been removed, and a step of comparing the obtained clock value with the currently operating GPU clock and setting the GPU clock to a smaller value. Accordingly, in one embodiment of the present invention, it is possible to determine a delay time violation before processing an inference request, respond even when inference requests increase rapidly, and improve the energy efficiency of the GPU. 본 발명의 일 실시 예에 따른 기계학습 추론을 위한 GPU 클럭 조절 방법은, 요청 큐 삽입 단계에 있어서, 추론 요청을 입력 받고 요청 큐에 삽입하기 전에 현재 큐의 길이를 확인하는 단계; 상기 확인된 큐의 길이를 사용하여 상기 입력된 추론 요청의 추론 시간을 계산하는 단계; 상기 계산된 추론 시간에 기반하여 상기 입력된 추론 요청의 목표 GPU 클럭을 산출하는 단계; 상기 입력된 추론 요청의 목표 GPU 클럭과 현재 동작하는 GPU 클럭을 비교하여 더 큰 값으로 GPU 클럭을 설정하는 단계; 및 상기 설정한 GPU 클럭에 대한 정보를 상기 입력된 추론 요청과 함께 상기 요청 큐에 삽입하는 단계;를 포함하는 요청 큐 삽입 단계; 및 요청 큐 삭제 단계에 있어서, 상기 요청 큐에서 가장 앞의 추론 요청을 꺼내서 처리하는 단계; 상기 가장 앞의 추론 요청이 제거된 요청 큐에 저장된 모든 추론 요청 각각의 목표 GPU 클럭을 탐색하여 가장 큰 클럭 값을 획득하는 단계; 및 상기 획득한 클럭 값과 현재 동작하는 GPU 클럭을 비교하여 더 작은 값으로 GPU 클럭을 설정하는 단계;를 포함하는 요청 큐 삭제 단계;를 포함하는 것을 특징으로 한다. 이에 따라, 본 발명의 일 실시 예에서는, 추론 요청을 처리하기 전 지연시간 위반을 판단 가능하고 추론 요청이 급증하는 경우에도 대응이 가능하며 GPU의 에너지 효율을 제고할 수 있다.