Sampler cudagraph (#1253) #1

	name: MoE Test

	on:
	push:
	branches: [ main ]
	paths:
	- "python/sglang/**"
	- "test/**"
	pull_request:
	branches: [ main ]
	paths:
	- "python/sglang/**"
	- "test/**"
	workflow_dispatch:

	concurrency:
	group: moe-test-${{ github.ref }}
	cancel-in-progress: true

	jobs:
	moe-test:
	if: github.repository == 'sgl-project/sglang' \|\| github.event_name == 'pull_request'
	runs-on: 2-gpu-runner

	steps:
	- name: Checkout code
	uses: actions/checkout@v3

	- name: Install dependencies
	run: \|
	pip install --upgrade pip
	pip install -e "python[all]"
	pip install flashinfer -i https://flashinfer.ai/whl/cu121/torch2.4/ --force-reinstall

	- name: Benchmark MoE Serving Throughput
	timeout-minutes: 10
	run: \|
	cd test/srt
	python3 -m unittest test_moe_serving_throughput.TestServingThroughput.test_default

	- name: Benchmark MoE Serving Throughput (w/o RadixAttention)
	timeout-minutes: 10
	run: \|
	cd test/srt
	python3 -m unittest test_moe_serving_throughput.TestServingThroughput.test_default_without_radix_cache

Provide feedback