Talks | Xupeng Miao

Invited talks and presentations

1
GenAI Catalyst: Efficient Systems and Compilers for Generative AI
- ASPLOS Tutorial, Rotterdam, The Netherlands, March 2025
- Tsinghua University, Yao Class Seminar, Online, April 2025
2
Towards Efficient Generative Large Language Model Serving: A Tutorial from Algorithms to Systems
- ICML Tutorial, Vienna, Austria, July 2024
3
Demystifying Data Management for Large Language Models
- SIGMOD, Santiago, Chile, June 2024
4
Toward Fast and Affordable Serving Systems for Large Language Models
- XTensor@ASPLOS, San Diego, USA, April 2024
- MLSys YPS, Santa Clara, USA, May 2024
- WAIC, Shanghai, China, July 2024
- Faster Inference of LLMs Seminar, Online, August 2024
5
SpotServe: Serving Generative Large Language Models on Preemptible Instances
- ChinaSys Fall, Online, December 2023
- ASPLOS, San Diego, USA, April 2024
6
SpecInfer: Accelerating Generative LLM Serving with Tree-based Speculative Inference and Token Verification.
- Microsoft Azure AI Talk, Online, November 2023
- ASPLOS, San Diego, USA, April 2024
7
Recent Advances in Data-Centric MLSys: A DBer's Perspective.
- Tencent DB-Talk, Online, August 2023
8
SDPipe: A Semi-Decentralized Framework for Heterogeneity-aware Pipeline-parallel Training.
- ChinaSys, Online, China, July 2023
- VLDB, Online, Canada, September 2023
9
Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism.
- ChinaSys Fall, Online, China, December 2022
- Jiqizhixin, Online, China, January 2023
- VLDB, Online, Canada, September 2023
10
Parcae: Proactive, Liveput-Optimized DNN Training on Preemptible Instances.
- Amazon Research Awards (ARA) Tech Talk, Online, USA, May 2023
11
When Sparsity Meets Distributed DL System: Efficient and Scalable Huge Embedding Model Training.
- Catalyst Group Meeting, Pittsburgh, USA, October 2022
- Tencent, Online, China, September 2022
- Baidu, OPPO, MetaX, Online, China, April 2022
- Jiqizhixin, Online, China, January 2022
12
Hetu: An Automatic Parallel Distributed Deep Learning Framework for Huge Model.
- Huawei Cloud InnovWave Talk, Online, China, April 2023
- CCF TCDB & Gauss 松鼠会, Online, China, April 2023
- BAAI Conference, Beijing, China, June 2022
- MSRA, Beijing, China, November 2021
- NDBC, Kunming, China, December 2019
13
HET-GMP: a Graph-based System Approach to Scaling Large Embedding Model Training.
- SIGMOD, Online, USA, June 2022
- ChinaSys, Online, China, May 2022
14
HET: Scaling out Huge Embedding Model Training via Cache-enabled Distributed Framework.
- VLDB, Sydney, Australia, September 2022
- ChinaSys Winter, Xiamen, China, December 2021
- Huawei, Alibaba, ByteDance, October 2021
15
Heterogeneity-Aware Distributed Machine Learning Training via Partial Reduce.
- SIGMOD, Xiaan, China, June 2021
16
DeGNN: Improving Graph Neural Networks with Graph Decomposition.
- SIGKDD, Online, August 2021

Invited talks and presentations

GenAI Catalyst: Efficient Systems and Compilers for Generative AI

Towards Efficient Generative Large Language Model Serving: A Tutorial from Algorithms to Systems

Demystifying Data Management for Large Language Models

Toward Fast and Affordable Serving Systems for Large Language Models

SpotServe: Serving Generative Large Language Models on Preemptible Instances

SpecInfer: Accelerating Generative LLM Serving with Tree-based Speculative Inference and Token Verification.

Recent Advances in Data-Centric MLSys: A DBer's Perspective.

SDPipe: A Semi-Decentralized Framework for Heterogeneity-aware Pipeline-parallel Training.

Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism.

Parcae: Proactive, Liveput-Optimized DNN Training on Preemptible Instances.

When Sparsity Meets Distributed DL System: Efficient and Scalable Huge Embedding Model Training.

Hetu: An Automatic Parallel Distributed Deep Learning Framework for Huge Model.

HET-GMP: a Graph-based System Approach to Scaling Large Embedding Model Training.

HET: Scaling out Huge Embedding Model Training via Cache-enabled Distributed Framework.

Heterogeneity-Aware Distributed Machine Learning Training via Partial Reduce.

DeGNN: Improving Graph Neural Networks with Graph Decomposition.