Biblio

Export 8 results:

DBLP
BibTeX

Filters: Author is Yuxiong He [Clear All Filters]

2024

Xia H, Zheng Z, Wu X, Chen S, Yao Z, Youn S, Bakhtiari A, Wyatt M, Zhuang D, Zhou Z et al.. 2024. Quant-LLM: Accelerating the Serving of Large Language Models via FP6-Centric Algorithm-System Co-Design on Modern GPUs. 2024 USENIX Annual Technical Conference (USENIX ATC 24). :699--713.

2021

Ren J, Rajbhandari S, Aminabadi RYazdani, Ruwase O, Yang S, Zhang M, Li D, He Y. 2021. ZeRO-Offload: Democratizing Billion-Scale Model Training. 2021 USENIX Annual Technical Conference (USENIX ATC 21). :551--564.

2019

Zhang M, Rajbandari S, Wang W, Zheng E, Ruwase O, Rasley J, Li J, Wang J, He Y. 2019. Accelerating Large Scale Deep Learning Inference through DeepCPU at Microsoft. 2019 USENIX Conference on Operational Machine Learning (OpML 19). :5--7.

Soifer J, Li J, Li M, Zhu J, Li Y, He Y, Zheng E, Oltean A, Mosyak M, Barnes C et al.. 2019. Deep Learning Inference Service at Microsoft. 2019 USENIX Conference on Operational Machine Learning (OpML 19). :15--17.

2018

Zhang M, Rajbhandari S, Wang W, He Y. 2018. DeepCPU: Serving RNN-based Deep Learning Models 10x Faster. 2018 USENIX Annual Technical Conference (USENIX ATC 18). :951--965.

2014

Ren S, He Y, McKinley K. 2014. A Theoretical Foundation for Scheduling and Designing Heterogeneous Processors for Interactive Applications. 11th International Conference on Autonomic Computing ({ICAC} 14).

2013

Ren S, He Y, Elnikety S, McKinley KS. 2013. Exploiting Processor Heterogeneity in Interactive Services. 10th International Conference on Autonomic Computing (ICAC 13). :45--58.

Xia M, Zhu N, Elnikety S, Liu X, He Y. 2013. Performance Inconsistency in Large Scale Data Processing Clusters. 10th International Conference on Autonomic Computing (ICAC 13). :297--302.