Skip FlashDecode users with cur_pos=-1 #12909

cglagovichTT · 2024-09-19T20:15:58Z

In order to support vLLM, we need to be able to tell FlashDecode to skip computation for a user if the cur_pos is -1. This is because vLLM will pad the decode batch to max_batch_size and set padded token_indices to -1.

Index of -1 causes FlashDecode to skip computation. Based on cur_pos, skip tile reads for K and V chunks outside of valid range. --------- Signed-off-by: Salar Hosseini <[email protected]> Co-authored-by: Colman Glagovich <[email protected]> Co-authored-by: Salar Hosseini <[email protected]>

Index of -1 causes FlashDecode to skip computation. Based on cur_pos, skip tile reads for K and V chunks outside of valid range. --------- Signed-off-by: Salar Hosseini <[email protected]> Co-authored-by: Colman Glagovich <[email protected]> Co-authored-by: Salar Hosseini <[email protected]> (cherry picked from commit a3afddb)

cglagovichTT self-assigned this Sep 19, 2024

cglagovichTT mentioned this issue Sep 19, 2024

#12909: Skip users in FlashDecode based on index #12910

Merged

3 tasks

cglagovichTT closed this as completed Oct 29, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Skip FlashDecode users with cur_pos=-1 #12909

Skip FlashDecode users with cur_pos=-1 #12909

cglagovichTT commented Sep 19, 2024

Skip FlashDecode users with cur_pos=-1 #12909

Skip FlashDecode users with cur_pos=-1 #12909

Comments

cglagovichTT commented Sep 19, 2024