m3dev · maronuu · Dec 5, 2023 · Nov 21, 2023 · Nov 21, 2023 · Nov 21, 2023
@@ -49,16 +49,17 @@ def build(self, root_task: gokart.TaskOnKart) -> None:
         task_queue = self._create_task_queue(root_task)
 
         # consume task queue
-        launched_task_ids: Set[str] = set()
         logger.info("Consuming task queue...")
         while task_queue:
             task = task_queue.popleft()
             if task.complete():
                 logger.info(f"Task {self._gen_task_info(task)} is already completed.")
                 continue
-            if task.make_unique_id() in launched_task_ids:
+            if task.make_unique_id() in self.task_id_to_job_name:
+                # check if task is still running on child job
+                assert self._check_child_task_status(task), f"Child task {self._gen_task_info(task)} failed."
                 logger.info(f"Task {self._gen_task_info(task)} is still running on child job.")
-                task_queue.append(task)
+                task_queue.append(task)  # re-enqueue task to check if it is done
                 continue
 
             # TODO: enable user to specify duration to sleep for each task
@@ -72,7 +73,6 @@ def build(self, root_task: gokart.TaskOnKart) -> None:
             if isinstance(task, TaskOnBullet):
                 logger.info(f"Trying to run task {self._gen_task_info(task)} on child job...")
                 self._exec_bullet_task(task)
-                launched_task_ids.add(task.make_unique_id())  # mark as already launched task
                 task_queue.append(task)  # re-enqueue task to check if it is done
             elif isinstance(task, gokart.TaskOnKart):
                 logger.info(f"Executing task {self._gen_task_info(task)} on master job...")
@@ -125,8 +125,7 @@ def _exec_bullet_task(self, task: TaskOnBullet) -> None:
         )
         create_job(self.api_instance, job, self.namespace)
         logger.info(f"Created child job {job_name} with task {self._gen_task_info(task)}")
-        task_unique_id = task.make_unique_id()
-        self.task_id_to_job_name[task_unique_id] = job_name
+        self.task_id_to_job_name[task.make_unique_id()] = job_name
 
     def _create_child_job_object(self, job_name: str, task_pkl_path: str) -> client.V1Job:
         # TODO: use python -c to avoid dependency to execute_task.py
@@ -163,6 +162,19 @@ def _gen_task_info(task: gokart.TaskOnKart) -> str:
     def _gen_pkl_path(task: gokart.TaskOnKart) -> str:
         return os.path.join(task.workspace_directory, 'kannon', f'task_obj_{task.make_unique_id()}.pkl')
 
+    def _check_child_task_status(self, task: TaskOnBullet) -> bool:
+        if task.make_unique_id() not in self.task_id_to_job_name:
+            raise ValueError(f"Task {self._gen_task_info(task)} is not found in `task_id_to_job_name`")
+        job_name = self.task_id_to_job_name[task.make_unique_id()]
+        job_status = get_job_status(
+            self.api_instance,
+            job_name,
+            self.namespace,
+        )
+        if job_status == JobStatus.FAILED:
+            raise RuntimeError(f"Task {self._gen_task_info(task)} on job {job_name} has failed.")
+        return True
+
     def _is_executable(self, task: gokart.TaskOnKart) -> bool:
         children = flatten(task.requires())
 

@@ -7,6 +7,7 @@
 import gokart
 import luigi
 from kubernetes import client
+from luigi.task import flatten
 
 from kannon import Kannon, TaskOnBullet
 
@@ -54,8 +55,19 @@ def _exec_gokart_task(self, task: MockTaskOnKart) -> None:
         task.run()
 
     def _exec_bullet_task(self, task: MockTaskOnBullet) -> None:
+        self.task_id_to_job_name[task.make_unique_id()] = "dummy_job_name"
         task.run()
 
+    def _check_child_task_status(self, task: MockTaskOnBullet) -> bool:
+        return True
+
+    def _is_executable(self, task: MockTaskOnKart) -> bool:
+        children = flatten(task.requires())
+        for child in children:
+            if not child.complete():
+                return False
+        return True
+
 
 class TestConsumeTaskQueue(unittest.TestCase):