microsoft · sznmelvin · Jul 28, 2024 · Jul 29, 2024 · Jul 29, 2024 · Aug 3, 2024
@@ -13,9 +13,6 @@
 from deepspeed.accelerator import get_accelerator
 from deepspeed.ops.op_builder import InferenceBuilder
 import deepspeed
-if deepspeed.HAS_TRITON:
-    from deepspeed.ops.transformer.inference.triton.mlp import TritonMLP
-    from deepspeed.ops.transformer.inference.triton.attention import TritonSelfAttention
 
 inference_module = None
 
@@ -38,6 +35,9 @@ class DeepSpeedTransformerInference(nn.Module):
     """
     layer_id = 0
 
+class DeepSpeedTransformerInference(nn.Module):
+    layer_id = 0
+
     def __init__(self,
                  config,
                  mp_group=None,
@@ -67,12 +67,16 @@ def __init__(self,
             assert not self.config.use_triton
         else:
             if deepspeed.HAS_TRITON and self.config.use_triton:
+                # Lazy import to avoid circular dependency
+                from deepspeed.ops.transformer.inference.triton.attention import TritonSelfAttention
                 self.attention = TritonSelfAttention(self.config)
             else:
                 self.attention = DeepSpeedSelfAttention(self.config, mp_group, quantize_scales, quantize_groups,
                                                         merge_count)
 
         if deepspeed.HAS_TRITON and self.config.use_triton:
+            # Lazy import to avoid circular dependency
+            from deepspeed.ops.transformer.inference.triton.mlp import TritonMLP
             self.mlp = TritonMLP(self.config)
         else:
             self.mlp = DeepSpeedMLP(self.config, mp_group, quantize_scales, quantize_groups, merge_count,