lerobot/scripts/eval.py

import logging
import threading
import time
from pathlib import Path

import hydra
import imageio
import numpy as np
import torch
import tqdm
from tensordict.nn import TensorDictModule
from termcolor import colored
from torchrl.envs import EnvBase

from lerobot.common.datasets.factory import make_offline_buffer
from lerobot.common.envs.factory import make_env
from lerobot.common.policies.factory import make_policy
from lerobot.common.utils import set_seed


def write_video(video_path, stacked_frames, fps):
    imageio.mimsave(video_path, stacked_frames, fps=fps)


def eval_policy(
    env: EnvBase,
    policy: TensorDictModule = None,
    num_episodes: int = 10,
    max_steps: int = 30,
    save_video: bool = False,
    video_dir: Path = None,
    fps: int = 15,
    return_first_video: bool = False,
):
    start = time.time()
    sum_rewards = []
    max_rewards = []
    successes = []
    threads = []
    for i in tqdm.tqdm(range(num_episodes)):
        tensordict = env.reset()

        ep_frames = []

        if save_video or (return_first_video and i == 0):

            def rendering_callback(env, td=None):
                ep_frames.append(env.render())  # noqa: B023

            # render first frame before rollout
            rendering_callback(env)
        else:
            rendering_callback = None

        with torch.inference_mode():
            rollout = env.rollout(
                max_steps=max_steps,
                policy=policy,
                callback=rendering_callback,
                auto_reset=False,
                tensordict=tensordict,
                auto_cast_to_device=True,
            )
        # print(", ".join([f"{x:.3f}" for x in rollout["next", "reward"][:,0].tolist()]))
        ep_sum_reward = rollout["next", "reward"].sum()
        ep_max_reward = rollout["next", "reward"].max()
        ep_success = rollout["next", "success"].any()
        sum_rewards.append(ep_sum_reward.item())
        max_rewards.append(ep_max_reward.item())
        successes.append(ep_success.item())

        if save_video or (return_first_video and i == 0):
            stacked_frames = np.stack(ep_frames)

            if save_video:
                video_dir.mkdir(parents=True, exist_ok=True)
                video_path = video_dir / f"eval_episode_{i}.mp4"
                thread = threading.Thread(
                    target=write_video,
                    args=(str(video_path), stacked_frames, fps),
                )
                thread.start()
                threads.append(thread)

            if return_first_video and i == 0:
                first_video = stacked_frames.transpose(0, 3, 1, 2)

    for thread in threads:
        thread.join()

    info = {
        "avg_sum_reward": np.nanmean(sum_rewards),
        "avg_max_reward": np.nanmean(max_rewards),
        "pc_success": np.nanmean(successes) * 100,
        "eval_s": time.time() - start,
        "eval_ep_s": (time.time() - start) / num_episodes,
    }
    if return_first_video:
        return info, first_video
    return info


@hydra.main(version_base=None, config_name="default", config_path="../configs")
def eval_cli(cfg: dict):
    eval(cfg, out_dir=hydra.core.hydra_config.HydraConfig.get().runtime.output_dir)


def eval(cfg: dict, out_dir=None):
    if out_dir is None:
        raise NotImplementedError()

    assert torch.cuda.is_available()
    torch.backends.cudnn.benchmark = True
    set_seed(cfg.seed)
    print(colored("Log dir:", "yellow", attrs=["bold"]), out_dir)

    logging.info("make_offline_buffer")
    offline_buffer = make_offline_buffer(cfg)

    logging.info("make_env")
    env = make_env(cfg, transform=offline_buffer._transform)

    if cfg.policy.pretrained_model_path:
        policy = make_policy(cfg)
        policy = TensorDictModule(
            policy,
            in_keys=["observation", "step_count"],
            out_keys=["action"],
        )
    else:
        # when policy is None, rollout a random policy
        policy = None

    metrics = eval_policy(
        env,
        policy=policy,
        save_video=True,
        video_dir=Path(out_dir) / "eval",
        fps=cfg.env.fps,
        max_steps=cfg.env.episode_length // cfg.n_action_steps,
        num_episodes=cfg.eval_episodes,
    )
    print(metrics)


if __name__ == "__main__":
    eval_cli()
Add Normalize, non_blocking=True in tdmpc, tdmpc run (TODO: diffusion) 2024-03-02 15:53:29 +00:00			`import logging`
format 2024-02-24 18:19:18 +00:00			`import threading`
Clean logging, Refactor 2024-02-29 23:13:06 +00:00			`import time`
First real commit, simxarm env added with torchrl! 2024-01-29 12:49:30 +00:00			`from pathlib import Path`

			`import hydra`
			`import imageio`
			`import numpy as np`
			`import torch`
Small fix and improve logging message 2024-02-27 11:44:26 +00:00			`import tqdm`
Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00			`from tensordict.nn import TensorDictModule`
First real commit, simxarm env added with torchrl! 2024-01-29 12:49:30 +00:00			`from termcolor import colored`
Add option for random policy 2024-01-31 13:54:32 +00:00			`from torchrl.envs import EnvBase`
First real commit, simxarm env added with torchrl! 2024-01-29 12:49:30 +00:00
pre-commit run -a 2024-03-02 15:58:21 +00:00			`from lerobot.common.datasets.factory import make_offline_buffer`
Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00			`from lerobot.common.envs.factory import make_env`
Add policies/factory, Add test, Add _self_ in config 2024-02-25 10:50:23 +00:00			`from lerobot.common.policies.factory import make_policy`
Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00			`from lerobot.common.utils import set_seed`
format 2024-02-24 18:19:18 +00:00
First real commit, simxarm env added with torchrl! 2024-01-29 12:49:30 +00:00
Add multithreading for video generation, Speed policy sampling 2024-02-24 18:18:39 +00:00			`def write_video(video_path, stacked_frames, fps):`
			`imageio.mimsave(video_path, stacked_frames, fps=fps)`
First real commit, simxarm env added with torchrl! 2024-01-29 12:49:30 +00:00
format 2024-02-24 18:19:18 +00:00
Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00			`def eval_policy(`
Add option for random policy 2024-01-31 13:54:32 +00:00			`env: EnvBase,`
			`policy: TensorDictModule = None,`
			`num_episodes: int = 10,`
			`max_steps: int = 30,`
			`save_video: bool = False,`
			`video_dir: Path = None,`
Add pusht dataset (TODO verify reward is aligned), Refactor visualize_dataset, Add video_dir, fps, state_dim, action_dim to config (Training works) 2024-02-21 00:49:40 +00:00			`fps: int = 15,`
Refactor train, eval_policy, logger, Add diffusion.yaml (WIP) 2024-02-26 01:10:09 +00:00			`return_first_video: bool = False,`
First real commit, simxarm env added with torchrl! 2024-01-29 12:49:30 +00:00			`):`
Clean logging, Refactor 2024-02-29 23:13:06 +00:00			`start = time.time()`
Wandb works, One output dir 2024-02-22 12:14:12 +00:00			`sum_rewards = []`
			`max_rewards = []`
Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00			`successes = []`
Add multithreading for video generation, Speed policy sampling 2024-02-24 18:18:39 +00:00			`threads = []`
Small fix and improve logging message 2024-02-27 11:44:26 +00:00			`for i in tqdm.tqdm(range(num_episodes)):`
Refactor train, eval_policy, logger, Add diffusion.yaml (WIP) 2024-02-26 01:10:09 +00:00			`tensordict = env.reset()`

Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00			`ep_frames = []`
Ran pre-commit run --all-files 2024-02-29 13:37:48 +01:00
Refactor train, eval_policy, logger, Add diffusion.yaml (WIP) 2024-02-26 01:10:09 +00:00			`if save_video or (return_first_video and i == 0):`
Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00
Refactor train, eval_policy, logger, Add diffusion.yaml (WIP) 2024-02-26 01:10:09 +00:00			`def rendering_callback(env, td=None):`
Ran pre-commit run --all-files 2024-02-29 13:37:48 +01:00			`ep_frames.append(env.render()) # noqa: B023`
Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00
Eval reproduced! Train running (but not reproduced) 2024-02-10 15:46:24 +00:00			`# render first frame before rollout`
			`rendering_callback(env)`
Refactor train, eval_policy, logger, Add diffusion.yaml (WIP) 2024-02-26 01:10:09 +00:00			`else:`
			`rendering_callback = None`
Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00
offline training + online finetuning converge to 33 reward! 2024-02-18 01:23:44 +00:00			`with torch.inference_mode():`
			`rollout = env.rollout(`
			`max_steps=max_steps,`
			`policy=policy,`
Refactor train, eval_policy, logger, Add diffusion.yaml (WIP) 2024-02-26 01:10:09 +00:00			`callback=rendering_callback,`
offline training + online finetuning converge to 33 reward! 2024-02-18 01:23:44 +00:00			`auto_reset=False,`
			`tensordict=tensordict,`
			`auto_cast_to_device=True,`
			`)`
Eval reproduced! Train running (but not reproduced) 2024-02-10 15:46:24 +00:00			`# print(", ".join([f"{x:.3f}" for x in rollout["next", "reward"][:,0].tolist()]))`
Wandb works, One output dir 2024-02-22 12:14:12 +00:00			`ep_sum_reward = rollout["next", "reward"].sum()`
			`ep_max_reward = rollout["next", "reward"].max()`
Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00			`ep_success = rollout["next", "success"].any()`
Wandb works, One output dir 2024-02-22 12:14:12 +00:00			`sum_rewards.append(ep_sum_reward.item())`
			`max_rewards.append(ep_max_reward.item())`
Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00			`successes.append(ep_success.item())`
eval.mp4 works! 2024-01-30 23:30:14 +00:00
Refactor train, eval_policy, logger, Add diffusion.yaml (WIP) 2024-02-26 01:10:09 +00:00			`if save_video or (return_first_video and i == 0):`
Wandb works, One output dir 2024-02-22 12:14:12 +00:00			`stacked_frames = np.stack(ep_frames)`

			`if save_video:`
			`video_dir.mkdir(parents=True, exist_ok=True)`
			`video_path = video_dir / f"eval_episode_{i}.mp4"`
Add multithreading for video generation, Speed policy sampling 2024-02-24 18:18:39 +00:00			`thread = threading.Thread(`
			`target=write_video,`
			`args=(str(video_path), stacked_frames, fps),`
			`)`
			`thread.start()`
			`threads.append(thread)`
Wandb works, One output dir 2024-02-22 12:14:12 +00:00
Refactor train, eval_policy, logger, Add diffusion.yaml (WIP) 2024-02-26 01:10:09 +00:00			`if return_first_video and i == 0:`
			`first_video = stacked_frames.transpose(0, 3, 1, 2)`
Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00
Add multithreading for video generation, Speed policy sampling 2024-02-24 18:18:39 +00:00			`for thread in threads:`
			`thread.join()`

Clean logging, Refactor 2024-02-29 23:13:06 +00:00			`info = {`
Wandb works, One output dir 2024-02-22 12:14:12 +00:00			`"avg_sum_reward": np.nanmean(sum_rewards),`
			`"avg_max_reward": np.nanmean(max_rewards),`
Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00			`"pc_success": np.nanmean(successes) * 100,`
Clean logging, Refactor 2024-02-29 23:13:06 +00:00			`"eval_s": time.time() - start,`
			`"eval_ep_s": (time.time() - start) / num_episodes,`
First real commit, simxarm env added with torchrl! 2024-01-29 12:49:30 +00:00			`}`
Refactor train, eval_policy, logger, Add diffusion.yaml (WIP) 2024-02-26 01:10:09 +00:00			`if return_first_video:`
Clean logging, Refactor 2024-02-29 23:13:06 +00:00			`return info, first_video`
			`return info`
First real commit, simxarm env added with torchrl! 2024-01-29 12:49:30 +00:00

			`@hydra.main(version_base=None, config_name="default", config_path="../configs")`
Wandb works, One output dir 2024-02-22 12:14:12 +00:00			`def eval_cli(cfg: dict):`
			`eval(cfg, out_dir=hydra.core.hydra_config.HydraConfig.get().runtime.output_dir)`


			`def eval(cfg: dict, out_dir=None):`
			`if out_dir is None:`
			`raise NotImplementedError()`

First real commit, simxarm env added with torchrl! 2024-01-29 12:49:30 +00:00			`assert torch.cuda.is_available()`
Add multithreading for video generation, Speed policy sampling 2024-02-24 18:18:39 +00:00			`torch.backends.cudnn.benchmark = True`
First real commit, simxarm env added with torchrl! 2024-01-29 12:49:30 +00:00			`set_seed(cfg.seed)`
Wandb works, One output dir 2024-02-22 12:14:12 +00:00			`print(colored("Log dir:", "yellow", attrs=["bold"]), out_dir)`
First real commit, simxarm env added with torchrl! 2024-01-29 12:49:30 +00:00
Add Normalize, non_blocking=True in tdmpc, tdmpc run (TODO: diffusion) 2024-03-02 15:53:29 +00:00			`logging.info("make_offline_buffer")`
			`offline_buffer = make_offline_buffer(cfg)`

			`logging.info("make_env")`
Add mode to NormalizeTransform with mean_std or min_max (Not fully tested) 2024-03-03 13:19:02 +00:00			`env = make_env(cfg, transform=offline_buffer._transform)`
Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00
install fix 2024-02-28 12:35:49 +01:00			`if cfg.policy.pretrained_model_path:`
Add policies/factory, Add test, Add _self_ in config 2024-02-25 10:50:23 +00:00			`policy = make_policy(cfg)`
Fix unit tests, Refactor, Add pusht env, (TODO pusht replay buffer, image preprocessing) 2024-02-20 12:26:57 +00:00			`policy = TensorDictModule(`
			`policy,`
			`in_keys=["observation", "step_count"],`
			`out_keys=["action"],`
			`)`
			`else:`
			`# when policy is None, rollout a random policy`
			`policy = None`

Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00			`metrics = eval_policy(`
eval.mp4 works! 2024-01-30 23:30:14 +00:00			`env,`
Add option for random policy 2024-01-31 13:54:32 +00:00			`policy=policy,`
Fix unit tests, Refactor, Add pusht env, (TODO pusht replay buffer, image preprocessing) 2024-02-20 12:26:57 +00:00			`save_video=True,`
Wandb works, One output dir 2024-02-22 12:14:12 +00:00			`video_dir=Path(out_dir) / "eval",`
Sanitize cfg.env 2024-02-25 12:02:29 +00:00			`fps=cfg.env.fps,`
Refactor env queue, Training diffusion works (Still not converging) 2024-03-04 10:59:43 +00:00			`max_steps=cfg.env.episode_length // cfg.n_action_steps,`
Wandb works, One output dir 2024-02-22 12:14:12 +00:00			`num_episodes=cfg.eval_episodes,`
eval.mp4 works! 2024-01-30 23:30:14 +00:00			`)`
Add common, refactor eval with eval_policy 2024-01-31 13:48:12 +00:00			`print(metrics)`
First real commit, simxarm env added with torchrl! 2024-01-29 12:49:30 +00:00

			`if __name__ == "__main__":`
Wandb works, One output dir 2024-02-22 12:14:12 +00:00			`eval_cli()`