magail4autodrive: first commit

2025-09-28 18:57:04 +08:00
commit 947871a720
90 changed files with 1037 additions and 0 deletions
--- a/Algorithm/bert.py
+++ b/Algorithm/bert.py
@@ -0,0 +1,81 @@
+import torch
+import torch.nn as nn
+
+
+class Bert(nn.Module):
+    def __init__(self, input_dim, output_dim, embed_dim=128,
+                 num_layers=4, ff_dim=512, num_heads=4, dropout=0.1, CLS=False, TANH=False):
+        super().__init__()
+        self.CLS = CLS
+        self.projection = nn.Linear(input_dim, embed_dim)
+        if self.CLS:
+            self.cls_token = nn.Parameter(torch.randn(1, 1, embed_dim))
+            self.pos_embed = nn.Parameter(torch.randn(1, input_dim + 1, embed_dim))
+        else:
+            self.pos_embed = nn.Parameter(torch.randn(1, input_dim, embed_dim))
+
+        self.layers = nn.ModuleList([
+            TransformerLayer(embed_dim, num_heads, ff_dim, dropout)
+            for _ in range(num_layers)
+        ])
+
+        if TANH:
+            self.classifier = nn.Sequential(nn.Linear(embed_dim, output_dim), nn.Tanh())
+        else:
+            self.classifier = nn.Linear(embed_dim, output_dim)
+
+        self.layers.train()
+        self.classifier.train()
+
+    def forward(self, x, mask=None):
+        # x: (batch_size, seq_len, input_dim)
+        # 线性投影
+        x = self.projection(x)  # (batch_size, input_dim, embed_dim)
+
+        batch_size = x.size(0)
+        if self.CLS:
+            cls_tokens = self.cls_token.expand(batch_size, -1, -1)
+            x = torch.cat([cls_tokens, x], dim=1)  # (batch_size, 29, embed_dim)
+
+        # 添加位置编码
+        x = x + self.pos_embed
+
+        # 转置为(seq_len, batch_size, embed_dim)
+        x = x.permute(1, 0, 2)
+
+        for layer in self.layers:
+            x = layer(x, mask=mask)
+
+        if self.CLS:
+            return self.classifier(x[0, :, :])
+        else:
+            pooled = x.mean(dim=0)  # (batch_size, embed_dim)
+            return self.classifier(pooled)
+
+
+
+class TransformerLayer(nn.Module):
+    def __init__(self, embed_dim, num_heads, ff_dim, dropout=0.1):
+        super().__init__()
+        self.self_attn = nn.MultiheadAttention(embed_dim, num_heads, dropout=dropout)
+        self.linear1 = nn.Linear(embed_dim, ff_dim)
+        self.linear2 = nn.Linear(ff_dim, embed_dim)
+        self.norm1 = nn.LayerNorm(embed_dim)
+        self.norm2 = nn.LayerNorm(embed_dim)
+        self.dropout = nn.Dropout(dropout)
+        # 使用GELU激活函数
+        self.activation = nn.GELU()
+
+    def forward(self, x, mask=None):
+        # Post-LN 结构 (残差连接后归一化)
+        # 注意力部分
+        attn_output, _ = self.self_attn(x, x, x, attn_mask=mask)
+        x = x + self.dropout(attn_output)
+        x = self.norm1(x)
+
+        # FFN部分
+        ff_output = self.linear2(self.dropout(self.activation(self.linear1(x))))
+        x = x + self.dropout(ff_output)
+        x = self.norm2(x)
+
+        return x
--- a/Algorithm/buffer.py
+++ b/Algorithm/buffer.py
@@ -0,0 +1,80 @@
+import os
+import numpy as np
+import torch
+
+
+class RolloutBuffer:
+    # TODO: state and action are list
+    def __init__(self, buffer_size, state_shape, action_shape, device):
+        self._n = 0
+        self._p = 0
+        self.buffer_size = buffer_size
+
+        self.states = torch.empty((self.buffer_size, *state_shape), dtype=torch.float, device=device)
+        # self.states_gail = torch.empty((self.buffer_size, *state_gail_shape), dtype=torch.float, device=device)
+        self.actions = torch.empty((self.buffer_size, *action_shape), dtype=torch.float, device=device)
+        self.rewards = torch.empty((self.buffer_size, 1), dtype=torch.float, device=device)
+        self.dones = torch.empty((self.buffer_size, 1), dtype=torch.int, device=device)
+        self.tm_dones = torch.empty((self.buffer_size, 1), dtype=torch.int, device=device)
+        self.log_pis = torch.empty((self.buffer_size, 1), dtype=torch.float, device=device)
+        self.next_states = torch.empty((self.buffer_size, *state_shape), dtype=torch.float, device=device)
+        # self.next_states_gail = torch.empty((self.buffer_size, *state_gail_shape), dtype=torch.float, device=device)
+        self.means = torch.empty((self.buffer_size, *action_shape), dtype=torch.float, device=device)
+        self.stds = torch.empty((self.buffer_size, *action_shape), dtype=torch.float, device=device)
+
+    def append(self, state, action, reward, done, tm_dones, log_pi, next_state, next_state_gail, means, stds):
+        self.states[self._p].copy_(state)
+        # self.states_gail[self._p].copy_(state_gail)
+        self.actions[self._p].copy_(torch.from_numpy(action))
+        self.rewards[self._p] = float(reward)
+        self.dones[self._p] = int(done)
+        self.tm_dones[self._p] = int(tm_dones)
+        self.log_pis[self._p] = float(log_pi)
+        self.next_states[self._p].copy_(torch.from_numpy(next_state))
+        # self.next_states_gail[self._p].copy_(torch.from_numpy(next_state_gail))
+        self.means[self._p].copy_(torch.from_numpy(means))
+        self.stds[self._p].copy_(torch.from_numpy(stds))
+
+        self._p = (self._p + 1) % self.buffer_size
+        self._n = min(self._n + 1, self.buffer_size)
+
+    def get(self):
+        assert self._p % self.buffer_size == 0
+        idxes = slice(0, self.buffer_size)
+        return (
+            self.states[idxes],
+            self.actions[idxes],
+            self.rewards[idxes],
+            self.dones[idxes],
+            self.tm_dones[idxes],
+            self.log_pis[idxes],
+            self.next_states[idxes],
+            self.means[idxes],
+            self.stds[idxes]
+        )
+
+    def sample(self, batch_size):
+        assert self._p % self.buffer_size == 0
+        idxes = np.random.randint(low=0, high=self._n, size=batch_size)
+        return (
+            self.states[idxes],
+            self.actions[idxes],
+            self.rewards[idxes],
+            self.dones[idxes],
+            self.tm_dones[idxes],
+            self.log_pis[idxes],
+            self.next_states[idxes],
+            self.means[idxes],
+            self.stds[idxes]
+        )
+
+    def clear(self):
+        self.states[:, :] = 0
+        self.actions[:, :] = 0
+        self.rewards[:, :] = 0
+        self.dones[:, :] = 0
+        self.tm_dones[:, :] = 0
+        self.log_pis[:, :] = 0
+        self.next_states[:, :] = 0
+        self.means[:, :] = 0
+        self.stds[:, :] = 0
--- a/Algorithm/disc.py
+++ b/Algorithm/disc.py
@@ -0,0 +1,44 @@
+import torch
+from torch import nn
+from .bert import Bert
+
+
+DISC_LOGIT_INIT_SCALE = 1.0
+
+
+class GAILDiscrim(Bert):
+
+    def __init__(self, input_dim, reward_i_coef=1.0, reward_t_coef=1.0, normalizer=None, device=None):
+        super().__init__(input_dim=input_dim, output_dim=1, TANH=False)
+        self.device = device
+        self.reward_t_coef = reward_t_coef
+        self.reward_i_coef = reward_i_coef
+        self.normalizer = normalizer
+
+    def calculate_reward(self, states_gail, next_states_gail, rewards_t):
+        # PPO(GAIL) is to maximize E_{\pi} [-log(1 - D)].
+        states_gail = states_gail.clone()
+        next_states_gail = next_states_gail.clone()
+        states = torch.cat([states_gail, next_states_gail], dim=-1)
+        with torch.no_grad():
+            if self.normalizer is not None:
+                states = self.normalizer.normalize_torch(states, self.device)
+            rewards_t = self.reward_t_coef * rewards_t
+            d = self.forward(states)
+            prob = 1 / (1 + torch.exp(-d))
+            rewards_i = self.reward_i_coef * (
+                -torch.log(torch.maximum(1 - prob, torch.tensor(0.0001, device=self.device))))
+            rewards = rewards_t + rewards_i
+        return rewards, rewards_t / (self.reward_t_coef + 1e-10), rewards_i / (self.reward_i_coef + 1e-10)
+
+    def get_disc_logit_weights(self):
+        return torch.flatten(self.classifier.weight)
+
+    def get_disc_weights(self):
+        weights = []
+        for m in self.layers.modules():
+            if isinstance(m, nn.Linear):
+                weights.append(torch.flatten(m.weight))
+
+        weights.append(torch.flatten(self.classifier.weight))
+        return weights
--- a/Algorithm/magail.py
+++ b/Algorithm/magail.py
@@ -0,0 +1,149 @@
+import os
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from .disc import GAILDiscrim
+from .ppo import PPO
+from .utils import Normalizer
+
+
+class MAGAIL(PPO):
+    def __init__(self, buffer_exp, input_dim, device,
+                 disc_coef=20.0, disc_grad_penalty=0.1, disc_logit_reg=0.25, disc_weight_decay=0.0005,
+                 lr_disc=1e-3, epoch_disc=50, batch_size=1000, use_gail_norm=True
+                 ):
+        super().__init__(state_shape=input_dim, device=device)
+        self.learning_steps = 0
+        self.learning_steps_disc = 0
+
+        self.disc = GAILDiscrim(input_dim=input_dim)
+        self.disc_grad_penalty = disc_grad_penalty
+        self.disc_coef = disc_coef
+        self.disc_logit_reg = disc_logit_reg
+        self.disc_weight_decay = disc_weight_decay
+        self.lr_disc = lr_disc
+        self.epoch_disc = epoch_disc
+        self.optim_d = torch.optim.Adam(self.disc.parameters(), lr=self.lr_disc)
+
+        self.normalizer = None
+        if use_gail_norm:
+            self.normalizer = Normalizer(self.state_shape[0]*2)
+
+        self.batch_size = batch_size
+        self.buffer_exp = buffer_exp
+
+    def update_disc(self, states, states_exp, writer):
+        states_cp = states.clone()
+        states_exp_cp = states_exp.clone()
+
+        # Output of discriminator is (-inf, inf), not [0, 1].
+        logits_pi = self.disc(states_cp)
+        logits_exp = self.disc(states_exp_cp)
+
+        # Discriminator is to maximize E_{\pi} [log(1 - D)] + E_{exp} [log(D)].
+        loss_pi = -F.logsigmoid(-logits_pi).mean()
+        loss_exp = -F.logsigmoid(logits_exp).mean()
+        loss_disc = 0.5 * (loss_pi + loss_exp)
+
+        # logit reg
+        logit_weights = self.disc.get_disc_logit_weights()
+        disc_logit_loss = torch.sum(torch.square(logit_weights))
+
+        # grad penalty
+        sample_expert = states_exp_cp
+        sample_expert.requires_grad = True
+        disc = self.disc.linear(self.disc.trunk(sample_expert))
+        ones = torch.ones(disc.size(), device=disc.device)
+        disc_demo_grad = torch.autograd.grad(disc, sample_expert,
+                                             grad_outputs=ones,
+                                             create_graph=True, retain_graph=True, only_inputs=True)
+        disc_demo_grad = disc_demo_grad[0]
+        disc_demo_grad = torch.sum(torch.square(disc_demo_grad), dim=-1)
+        grad_pen_loss = torch.mean(disc_demo_grad)
+
+        # weight decay
+        disc_weights = self.disc.get_disc_weights()
+        disc_weights = torch.cat(disc_weights, dim=-1)
+        disc_weight_decay = torch.sum(torch.square(disc_weights))
+
+        loss = self.disc_coef * loss_disc + self.disc_grad_penalty * grad_pen_loss + \
+               self.disc_logit_reg * disc_logit_loss + self.disc_weight_decay * disc_weight_decay
+
+        self.optim_d.zero_grad()
+        loss.backward()
+        self.optim_d.step()
+
+        if self.learning_steps_disc % self.epoch_disc == 0:
+            writer.add_scalar('Loss/disc', loss_disc.item(), self.learning_steps)
+
+            # Discriminator's accuracies.
+            with torch.no_grad():
+                acc_pi = (logits_pi < 0).float().mean().item()
+                acc_exp = (logits_exp > 0).float().mean().item()
+
+            writer.add_scalar('Acc/acc_pi', acc_pi, self.learning_steps)
+            writer.add_scalar('Acc/acc_exp', acc_exp, self.learning_steps)
+
+    def update(self, writer, total_steps):
+        self.learning_steps += 1
+        for _ in range(self.epoch_disc):
+            self.learning_steps_disc += 1
+
+            # Samples from current policy trajectories.
+            samples_policy = self.buffer.sample(self.batch_size)
+            states, next_states = samples_policy[1], samples_policy[-3]
+            states = torch.cat([states, next_states], dim=-1)
+
+            # Samples from expert demonstrations.
+            samples_expert = self.buffer_exp.sample(self.batch_size)
+            states_exp, next_states_exp = samples_expert[0], samples_expert[1]
+            states_exp = torch.cat([states_exp, next_states_exp], dim=-1)
+
+            if self.normalizer is not None:
+                with torch.no_grad():
+                    states = self.normalizer.normalize_torch(states, self.device)
+                    states_exp = self.normalizer.normalize_torch(states_exp, self.device)
+
+            # Update discriminator and us encoder.
+            self.update_disc(states, states_exp, writer)
+
+            # Calulates the running mean and std of a data stream
+            if self.normalizer is not None:
+                self.normalizer.update(states.cpu().numpy())
+                self.normalizer.update(states_exp.cpu().numpy())
+
+        states, actions, rewards, dones, tm_dones, log_pis, next_states, mus, sigmas = self.buffer.get()
+
+        # Calculate rewards.
+        rewards, rewards_t, rewards_i = self.disc.calculate_reward(states, next_states, rewards)
+
+        writer.add_scalar('Reward/rewards', rewards_t.mean().item() + rewards_i.mean().item(),
+                          self.learning_steps)
+        writer.add_scalar('Reward/rewards_t', rewards_t.mean().item(), self.learning_steps)
+        writer.add_scalar('Reward/rewards_i', rewards_i.mean().item(), self.learning_steps)
+
+        # Update PPO using estimated rewards.
+        self.update_ppo(states, actions, rewards, dones, tm_dones, log_pis, next_states, mus, sigmas, writer,
+                        total_steps)
+        self.buffer.clear()
+        return rewards_t.mean().item() + rewards_i.mean().item()
+
+    def save_models(self, path):
+        torch.save({
+            'actor': self.actor.state_dict(),
+            'critic': self.critic.state_dict(),
+            'disc': self.disc.state_dict(),
+            'optim_actor': self.optim_actor.state_dict(),
+            'optim_critic': self.optim_critic.state_dict(),
+            'optim_d': self.optim_d.state_dict()
+        }, os.path.join(path, 'model.pth'))
+
+    def load_models(self, path, load_optimizer=True):
+        loaded_dict = torch.load(path, map_location='cuda:0')
+        self.actor.load_state_dict(loaded_dict['actor'])
+        self.critic.load_state_dict(loaded_dict['critic'])
+        self.disc.load_state_dict(loaded_dict['disc'])
+        if load_optimizer:
+            self.optim_actor.load_state_dict(loaded_dict['optim_actor'])
+            self.optim_critic.load_state_dict(loaded_dict['optim_critic'])
+            self.optim_d.load_state_dict(loaded_dict['optim_d'])
--- a/Algorithm/policy.py
+++ b/Algorithm/policy.py
@@ -0,0 +1,31 @@
+import torch
+import numpy as np
+from torch import nn
+from .utils import build_mlp, reparameterize, evaluate_lop_pi
+
+class StateIndependentPolicy(nn.Module):
+
+    def __init__(self, state_shape, action_shape, hidden_units=(64, 64),
+                 hidden_activation=nn.Tanh()):
+        super().__init__()
+
+        self.net = build_mlp(
+            input_dim=state_shape[0],
+            output_dim=action_shape[0],
+            hidden_units=hidden_units,
+            hidden_activation=hidden_activation
+        )
+        self.log_stds = nn.Parameter(torch.zeros(1, action_shape[0]))
+        self.means = None
+
+    def forward(self, states):
+        return torch.tanh(self.net(states))
+
+    def sample(self, states):
+        self.means = self.net(states)
+        actions, log_pis = reparameterize(self.means, self.log_stds)
+        return actions, log_pis
+
+    def evaluate_log_pi(self, states, actions):
+        self.means = self.net(states)
+        return evaluate_lop_pi(self.means, self.log_stds, actions)
--- a/Algorithm/ppo.py
+++ b/Algorithm/ppo.py
@@ -0,0 +1,267 @@
+import os
+import torch
+import numpy as np
+from torch import nn
+from torch.optim import Adam
+from buffer import RolloutBuffer
+from bert import Bert
+from policy import StateIndependentPolicy
+from abc import ABC, abstractmethod
+
+
+class Algorithm(ABC):
+
+    def __init__(self, state_shape, device, gamma):
+
+        self.learning_steps = 0
+        self.state_shape = state_shape
+        self.device = device
+        self.gamma = gamma
+
+    def explore(self, state_list):
+        action_list = []
+        log_pi_list = []
+        if type(state_list).__module__ != "torch":
+            state_list = torch.tensor(state_list, dtype=torch.float, device=self.device)
+        with torch.no_grad():
+            for state in state_list:
+                action, log_pi = self.actor.sample(state.unsqueeze(0))
+                action_list.append(action.cpu().numpy()[0])
+                log_pi_list.append(log_pi.item())
+        return action_list, log_pi_list
+
+    def exploit(self, state_list):
+        action_list = []
+        state_list = torch.tensor(state_list, dtype=torch.float, device=self.device)
+        with torch.no_grad():
+            for state in state_list:
+                action = self.actor(state.unsqueeze(0))
+                action_list.append(action.cpu().numpy()[0])
+        return action_list
+
+    @abstractmethod
+    def is_update(self, step):
+        pass
+
+    @abstractmethod
+    def update(self, writer, total_steps):
+        pass
+
+    @abstractmethod
+    def save_models(self, save_dir):
+        if not os.path.exists(save_dir):
+            os.makedirs(save_dir)
+
+
+class PPO(Algorithm):
+
+    def __init__(self, state_shape, device, gamma=0.995, rollout_length=2048,
+                 units_actor=(64, 64), epoch_ppo=10, clip_eps=0.2,
+                 lambd=0.97, max_grad_norm=1.0, desired_kl=0.01, surrogate_loss_coef=2.,
+                 value_loss_coef=5., entropy_coef=0., bounds_loss_coef=10., lr_actor=1e-3, lr_critic=1e-3,
+                 lr_disc=1e-3, auto_lr=True, use_adv_norm=True, max_steps=10000000):
+        super().__init__(state_shape, device, gamma)
+
+        self.lr_actor = lr_actor
+        self.lr_critic = lr_critic
+        self.lr_disc = lr_disc
+        self.auto_lr = auto_lr
+
+        self.use_adv_norm = use_adv_norm
+
+        # Rollout buffer.
+        self.buffer = RolloutBuffer(
+            buffer_size=rollout_length,
+            state_shape=state_shape,
+            action_shape=action_shape,
+            device=device
+        )
+
+        # Actor.
+        self.actor = StateIndependentPolicy(
+            state_shape=state_shape,
+            action_shape=action_shape,
+            hidden_units=units_actor,
+            hidden_activation=nn.Tanh()
+        ).to(device)
+
+        # Critic.
+        self.critic = Bert(
+            input_dim=state_shape,
+            output_dim=1
+        ).to(device)
+
+        self.learning_steps_ppo = 0
+        self.rollout_length = rollout_length
+        self.epoch_ppo = epoch_ppo
+        self.clip_eps = clip_eps
+        self.lambd = lambd
+        self.max_grad_norm = max_grad_norm
+        self.desired_kl = desired_kl
+        self.surrogate_loss_coef = surrogate_loss_coef
+        self.value_loss_coef = value_loss_coef
+        self.entropy_coef = entropy_coef
+        self.bounds_loss_coef = bounds_loss_coef
+        self.max_steps = max_steps
+
+        self.optim_actor = Adam([{'params': self.actor.parameters()}], lr=lr_actor)
+        # self.optim_actor = Adam([
+        #         {'params': self.actor.net.f_net.parameters(), 'lr': lr_actor},
+        #         {'params': self.actor.net.k_net.parameters(), 'lr': lr_actor/3}])
+        self.optim_critic = Adam([{'params': self.critic.parameters()}], lr=lr_critic)
+
+    def is_update(self, step):
+        return step % self.rollout_length == 0
+
+    def step(self, env, state_list, state_gail):
+        state_list = torch.tensor(state_list, dtype=torch.float, device=self.device)
+        state_gail = torch.tensor(state_gail, dtype=torch.float, device=self.device)
+        action_list, log_pi_list = self.explore(state_list)
+        next_state, reward, terminated, truncated, info = env.step(np.array(action_list))
+        next_state_gail = env.state_gail
+        done = terminated or truncated
+
+        means = self.actor.means.detach().cpu().numpy()[0]
+        stds = (self.actor.log_stds.exp()).detach().cpu().numpy()[0]
+
+        self.buffer.append(state_list, state_gail, action_list, reward, done, terminated, log_pi_list,
+                           next_state, next_state_gail, means, stds)
+
+        if done:
+            next_state = env.reset()
+            next_state_gail = env.state_gail
+
+        return next_state, next_state_gail, info
+
+    def update(self, writer, total_steps):
+        pass
+
+    def update_ppo(self, states, actions, rewards, dones, tm_dones, log_pi_list, next_states, mus, sigmas, writer,
+                   total_steps):
+        with torch.no_grad():
+            values = self.critic(states.detach())
+            next_values = self.critic(next_states.detach())
+
+        targets, gaes = self.calculate_gae(
+            values, rewards, dones, tm_dones, next_values, self.gamma, self.lambd)
+
+        state_list = states.permute(1, 0, 2)
+        action_list = actions.permute(1, 0, 2)
+
+        for i in range(self.epoch_ppo):
+            self.learning_steps_ppo += 1
+            self.update_critic(states, targets, writer)
+            for state, action, log_pi in state_list, action_list, log_pi_list:
+                self.update_actor(state, action, log_pi, gaes, mus, sigmas, writer)
+
+        # self.lr_decay(total_steps, writer)
+
+    def update_critic(self, states, targets, writer):
+        loss_critic = (self.critic(states) - targets).pow_(2).mean()
+        loss_critic = loss_critic * self.value_loss_coef
+
+        self.optim_critic.zero_grad()
+        loss_critic.backward(retain_graph=False)
+        nn.utils.clip_grad_norm_(self.critic.parameters(), self.max_grad_norm)
+        self.optim_critic.step()
+
+        if self.learning_steps_ppo % self.epoch_ppo == 0:
+            writer.add_scalar(
+                'Loss/critic', loss_critic.item(), self.learning_steps)
+
+    def update_actor(self, states, actions, log_pis_old, gaes, mus_old, sigmas_old, writer):
+        self.optim_actor.zero_grad()
+        log_pis = self.actor.evaluate_log_pi(states, actions)
+        mus = self.actor.means
+        sigmas = (self.actor.log_stds.exp()).repeat(mus.shape[0], 1)
+        entropy = -log_pis.mean()
+
+        ratios = (log_pis - log_pis_old).exp_()
+        loss_actor1 = -ratios * gaes
+        loss_actor2 = -torch.clamp(
+            ratios,
+            1.0 - self.clip_eps,
+            1.0 + self.clip_eps
+        ) * gaes
+        loss_actor = torch.max(loss_actor1, loss_actor2).mean()
+        loss_actor = loss_actor * self.surrogate_loss_coef
+        if self.auto_lr:
+            # desired_kl: 0.01
+            with torch.inference_mode():
+                kl = torch.sum(torch.log(sigmas / sigmas_old + 1.e-5) +
+                               (torch.square(sigmas_old) + torch.square(mus_old - mus)) /
+                               (2.0 * torch.square(sigmas)) - 0.5, axis=-1)
+
+                kl_mean = torch.mean(kl)
+
+                if kl_mean > self.desired_kl * 2.0:
+                    self.lr_actor = max(1e-5, self.lr_actor / 1.5)
+                    self.lr_critic = max(1e-5, self.lr_critic / 1.5)
+                    self.lr_disc = max(1e-5, self.lr_disc / 1.5)
+                elif kl_mean < self.desired_kl / 2.0 and kl_mean > 0.0:
+                    self.lr_actor = min(1e-2, self.lr_actor * 1.5)
+                    self.lr_critic = min(1e-2, self.lr_critic * 1.5)
+                    self.lr_disc = min(1e-2, self.lr_disc * 1.5)
+
+                for param_group in self.optim_actor.param_groups:
+                    param_group['lr'] = self.lr_actor
+                for param_group in self.optim_critic.param_groups:
+                    param_group['lr'] = self.lr_critic
+                for param_group in self.optim_d.param_groups:
+                    param_group['lr'] = self.lr_disc
+
+        loss = loss_actor  # + b_loss * 0 - self.entropy_coef * entropy * 0
+
+        loss.backward()
+        nn.utils.clip_grad_norm_(self.actor.parameters(), self.max_grad_norm)
+        self.optim_actor.step()
+
+        if self.learning_steps_ppo % self.epoch_ppo == 0:
+            writer.add_scalar(
+                'Loss/actor', loss_actor.item(), self.learning_steps)
+            writer.add_scalar(
+                'Loss/entropy', entropy.item(), self.learning_steps)
+            writer.add_scalar(
+                'Loss/learning_rate', self.lr_actor, self.learning_steps)
+
+    def lr_decay(self, total_steps, writer):
+        lr_a_now = max(1e-5, self.lr_actor * (1 - total_steps / self.max_steps))
+        lr_c_now = max(1e-5, self.lr_critic * (1 - total_steps / self.max_steps))
+        lr_d_now = max(1e-5, self.lr_disc * (1 - total_steps / self.max_steps))
+        for p in self.optim_actor.param_groups:
+            p['lr'] = lr_a_now
+        for p in self.optim_critic.param_groups:
+            p['lr'] = lr_c_now
+        for p in self.optim_d.param_groups:
+            p['lr'] = lr_d_now
+
+        writer.add_scalar(
+            'Loss/learning_rate', lr_a_now, self.learning_steps)
+
+    def calculate_gae(self, values, rewards, dones, tm_dones, next_values, gamma, lambd):
+        """
+            Calculate the advantage using GAE
+            'tm_dones=True' means dead or win, there is no next state s'
+            'dones=True' represents the terminal of an episode(dead or win or reaching the max_episode_steps).
+            When calculating the adv, if dones=True, gae=0
+            Reference: https://github.com/Lizhi-sjtu/DRL-code-pytorch/blob/main/5.PPO-continuous/ppo_continuous.py
+        """
+        with torch.no_grad():
+            # Calculate TD errors.
+            deltas = rewards + gamma * next_values * (1 - tm_dones) - values
+            # Initialize gae.
+            gaes = torch.empty_like(rewards)
+
+            # Calculate gae recursively from behind.
+            gaes[-1] = deltas[-1]
+            for t in reversed(range(rewards.size(0) - 1)):
+                gaes[t] = deltas[t] + gamma * lambd * (1 - dones[t]) * gaes[t + 1]
+
+            v_target = gaes + values
+            if self.use_adv_norm:
+                gaes = (gaes - gaes.mean()) / (gaes.std(dim=0) + 1e-8)
+
+        return v_target, gaes
+
+    def save_models(self, save_dir):
+        pass
--- a/Algorithm/utils.py
+++ b/Algorithm/utils.py
@@ -0,0 +1,108 @@
+import math
+import torch
+import numpy as np
+from torch import nn
+from typing import Tuple
+
+
+class RunningMeanStd(object):
+    def __init__(self, epsilon: float = 1e-4, shape: Tuple[int, ...] = ()):
+        """
+        Calulates the running mean and std of a data stream
+        https://en.wikipedia.org/wiki/Algorithms_for_calculating_variance#Parallel_algorithm
+        :param epsilon: helps with arithmetic issues
+        :param shape: the shape of the data stream's output
+        """
+        self.mean = np.zeros(shape, np.float64)
+        self.var = np.ones(shape, np.float64)
+        self.count = epsilon
+
+    def update(self, arr: np.ndarray) -> None:
+        batch_mean = np.mean(arr, axis=0)
+        batch_var = np.var(arr, axis=0)
+        batch_count = arr.shape[0]
+        self.update_from_moments(batch_mean, batch_var, batch_count)
+
+    def update_from_moments(self, batch_mean: np.ndarray, batch_var: np.ndarray, batch_count: int) -> None:
+        delta = batch_mean - self.mean
+        tot_count = self.count + batch_count
+
+        new_mean = self.mean + delta * batch_count / tot_count
+        m_a = self.var * self.count
+        m_b = batch_var * batch_count
+        m_2 = m_a + m_b + np.square(delta) * self.count * batch_count / (self.count + batch_count)
+        new_var = m_2 / (self.count + batch_count)
+
+        new_count = batch_count + self.count
+
+        self.mean = new_mean
+        self.var = new_var
+        self.count = new_count
+
+
+class Normalizer(RunningMeanStd):
+    def __init__(self, input_dim, epsilon=1e-4, clip_obs=10.0):
+        super().__init__(shape=input_dim)
+        self.epsilon = epsilon
+        self.clip_obs = clip_obs
+
+    def normalize(self, input):
+        return np.clip(
+            (input - self.mean) / np.sqrt(self.var + self.epsilon),
+            -self.clip_obs, self.clip_obs)
+
+    def normalize_torch(self, input, device):
+        mean_torch = torch.tensor(
+            self.mean, device=device, dtype=torch.float32)
+        std_torch = torch.sqrt(torch.tensor(
+            self.var + self.epsilon, device=device, dtype=torch.float32))
+        return torch.clamp(
+            (input - mean_torch) / std_torch, -self.clip_obs, self.clip_obs)
+
+    def update_normalizer(self, rollouts, expert_loader):
+        policy_data_generator = rollouts.feed_forward_generator_amp(
+            None, mini_batch_size=expert_loader.batch_size)
+        expert_data_generator = expert_loader.dataset.feed_forward_generator_amp(
+                expert_loader.batch_size)
+
+        for expert_batch, policy_batch in zip(expert_data_generator, policy_data_generator):
+            self.update(
+                torch.vstack(tuple(policy_batch) + tuple(expert_batch)).cpu().numpy())
+
+
+def build_mlp(input_dim, output_dim, hidden_units=[64, 64],
+              hidden_activation=nn.Tanh(), output_activation=None):
+    layers = []
+    units = input_dim
+    for next_units in hidden_units:
+        layers.append(nn.Linear(units, next_units))
+        layers.append(hidden_activation)
+        units = next_units
+    layers.append(nn.Linear(units, output_dim))
+    if output_activation is not None:
+        layers.append(output_activation)
+    return nn.Sequential(*layers)
+
+
+def calculate_log_pi(log_stds, noises, actions):
+    gaussian_log_probs = (-0.5 * noises.pow(2) - log_stds).sum(
+        dim=-1, keepdim=True) - 0.5 * math.log(2 * math.pi) * log_stds.size(-1)
+
+    return gaussian_log_probs - torch.log(
+        1 - actions.pow(2) + 1e-6).sum(dim=-1, keepdim=True)
+
+
+def reparameterize(means, log_stds):
+    noises = torch.randn_like(means)
+    us = means + noises * log_stds.exp()
+    actions = torch.tanh(us)
+    return actions, calculate_log_pi(log_stds, noises, actions)
+
+
+def atanh(x):
+    return 0.5 * (torch.log(1 + x + 1e-6) - torch.log(1 - x + 1e-6))
+
+
+def evaluate_lop_pi(means, log_stds, actions):
+    noises = (atanh(actions) - means) / (log_stds.exp() + 1e-8)
+    return calculate_log_pi(log_stds, noises, actions)
--- a/Env/exp_converted/dataset_mapping.pkl
+++ b/Env/exp_converted/dataset_mapping.pkl
--- a/Env/exp_converted/dataset_summary.pkl
+++ b/Env/exp_converted/dataset_summary.pkl
--- a/Env/exp_converted/exp_converted_0/dataset_mapping.pkl
+++ b/Env/exp_converted/exp_converted_0/dataset_mapping.pkl
--- a/Env/exp_converted/exp_converted_0/dataset_summary.pkl
+++ b/Env/exp_converted/exp_converted_0/dataset_summary.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_104202f4f2590dff.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_104202f4f2590dff.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_11e688db089d222.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_11e688db089d222.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_197433a84d86f4b6.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_197433a84d86f4b6.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_21f584ad2dd5d7b8.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_21f584ad2dd5d7b8.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_2364a51095c69102.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_2364a51095c69102.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_25f57f7ef66cdfe6.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_25f57f7ef66cdfe6.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_27e52c5f34743a32.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_27e52c5f34743a32.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_2aa43fad083efbf3.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_2aa43fad083efbf3.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_2bc07893b2abbb07.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_2bc07893b2abbb07.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_2e0e37f5efeb70af.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_2e0e37f5efeb70af.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_3114f7fbaa8cc086.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_3114f7fbaa8cc086.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_32f0ee473bcb2854.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_32f0ee473bcb2854.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_3946229358696c01.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_3946229358696c01.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_3ec9f6dfb2b48d65.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_3ec9f6dfb2b48d65.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_41600af30ab8cc55.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_41600af30ab8cc55.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_430a2693b92ba127.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_430a2693b92ba127.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_44dc56e65fc65a82.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_44dc56e65fc65a82.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_4a116dacc9ccc4df.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_4a116dacc9ccc4df.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_4bf1d627f1771287.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_4bf1d627f1771287.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_546259711161a341.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_546259711161a341.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_5510d6a966ccc52f.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_5510d6a966ccc52f.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_568458c3148c034.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_568458c3148c034.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_5915f8cd44872858.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_5915f8cd44872858.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_5cac897a524d2f40.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_5cac897a524d2f40.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_66854d30a65d1216.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_66854d30a65d1216.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_671dec7d5e2fa9fb.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_671dec7d5e2fa9fb.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_6ecd6ab6d573b137.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_6ecd6ab6d573b137.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_707f27ea3927b4f5.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_707f27ea3927b4f5.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_715dfdaa4cf40df5.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_715dfdaa4cf40df5.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_79776dd1931a3d26.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_79776dd1931a3d26.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_7ac22c9e42d05c79.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_7ac22c9e42d05c79.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_7c003f7b2af6419e.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_7c003f7b2af6419e.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_7ce76dd8013b8b9e.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_7ce76dd8013b8b9e.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_7f94d7eac202a8f6.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_7f94d7eac202a8f6.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_852bf8201e701c22.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_852bf8201e701c22.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_8998493f69081ab0.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_8998493f69081ab0.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_8a720808ec3c0864.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_8a720808ec3c0864.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_8bd2c7c34e2a7e91.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_8bd2c7c34e2a7e91.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_8c4eaec3edd72d1b.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_8c4eaec3edd72d1b.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_90cdf8a7cb0e097f.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_90cdf8a7cb0e097f.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_90f674b6f7dad649.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_90f674b6f7dad649.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_914a764cef3668a2.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_914a764cef3668a2.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_9570610abd87b982.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_9570610abd87b982.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_96d0ccbfef0829e5.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_96d0ccbfef0829e5.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_9859cd1b4315b7de.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_9859cd1b4315b7de.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_98cd28f72a641e8f.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_98cd28f72a641e8f.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_9d7563e9b6486022.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_9d7563e9b6486022.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_9ec70bf90d6fe529.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_9ec70bf90d6fe529.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_a7a3a82d61f0e91e.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_a7a3a82d61f0e91e.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_a7eb07f173d68ce5.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_a7eb07f173d68ce5.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_a88f67a4ee877e62.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_a88f67a4ee877e62.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_ab06fe2bdd70dee8.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_ab06fe2bdd70dee8.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_b29b20e997b76ea3.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_b29b20e997b76ea3.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_b35779bf7e37ece9.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_b35779bf7e37ece9.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_b6152ff56baf6817.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_b6152ff56baf6817.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_beeee363eeb3f708.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_beeee363eeb3f708.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_bffa6dd429936879.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_bffa6dd429936879.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_c354985f8a63a390.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_c354985f8a63a390.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_c453b2059c68c41c.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_c453b2059c68c41c.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_c692808f8d63a7ec.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_c692808f8d63a7ec.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_c93b188ee1c507d5.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_c93b188ee1c507d5.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_cb3413b9e69ae5ab.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_cb3413b9e69ae5ab.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_cbcf4099dfd4f9fb.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_cbcf4099dfd4f9fb.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_cebdf28156152fd6.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_cebdf28156152fd6.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_d5327587f925c58e.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_d5327587f925c58e.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_d6d0e0ed8c763a8a.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_d6d0e0ed8c763a8a.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_d8036e6d7e2a86a2.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_d8036e6d7e2a86a2.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_df74ad0cc6823304.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_df74ad0cc6823304.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_dfbfcbfc1b6f7f7a.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_dfbfcbfc1b6f7f7a.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_e12f0928016d6956.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_e12f0928016d6956.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_e2030d66ebfe7b6b.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_e2030d66ebfe7b6b.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_eb073968f66914c7.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_eb073968f66914c7.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_f346701fdc8818d1.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_f346701fdc8818d1.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_f6e89ee29a5f20b2.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_f6e89ee29a5f20b2.pkl
--- a/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_f84a2c81fec0b16.pkl
+++ b/Env/exp_converted/exp_converted_0/sd_waymo_v1.2_f84a2c81fec0b16.pkl
--- a/Env/run_multiagent_env.py
+++ b/Env/run_multiagent_env.py
@@ -0,0 +1,41 @@
+from scenario_env import MultiAgentScenarioEnv
+from Env.simple_idm_policy import ConstantVelocityPolicy
+from metadrive.engine.asset_loader import AssetLoader
+
+WAYMO_DATA_DIR = r"/home/zhy/桌面/MAGAIL_TR/Env"
+
+def main():
+    env = MultiAgentScenarioEnv(
+        config={
+            # "data_directory": AssetLoader.file_path(AssetLoader.asset_path, "waymo", unix_style=False),
+            "data_directory": AssetLoader.file_path(WAYMO_DATA_DIR, "exp_converted", unix_style=False),
+            "is_multi_agent": True,
+            "num_controlled_agents": 3,
+            "horizon": 300,
+            "use_render": True,
+            "sequential_seed": True,
+            "reactive_traffic": True,
+            "manual_control": True,
+        },
+        agent2policy=ConstantVelocityPolicy(target_speed=50)
+    )
+
+    obs = env.reset(0
+                    )
+    for step in range(10000):
+        actions = {
+            aid: env.controlled_agents[aid].policy.act()
+            for aid in env.controlled_agents
+        }
+
+        obs, rewards, dones, infos = env.step(actions)
+        env.render(mode="topdown")
+
+        if dones["__all__"]:
+            break
+
+    env.close()
+
+
+if __name__ == "__main__":
+    main()
--- a/Env/scenario_env.py
+++ b/Env/scenario_env.py
@@ -0,0 +1,204 @@
+import numpy as np
+from metadrive.component.navigation_module.node_network_navigation import NodeNetworkNavigation
+from metadrive.envs.scenario_env import ScenarioEnv
+from metadrive.component.vehicle.vehicle_type import DefaultVehicle, vehicle_class_to_type
+import math
+import logging
+from collections import defaultdict
+from typing import Union, Dict, AnyStr
+from metadrive.engine.logger import get_logger, set_log_level
+from metadrive.type import MetaDriveType
+
+
+class PolicyVehicle(DefaultVehicle):
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.policy = None
+        self.destination = None
+
+    def set_policy(self, policy):
+        self.policy = policy
+
+    def set_destination(self, des):
+        self.destination = des
+
+    def act(self, observation, policy=None):
+        if self.policy is not None:
+            return self.policy.act(observation)
+        else:
+            return self.action_space.sample()
+
+    def before_step(self, action):
+        self.last_position = self.position  # 2D vector
+        self.last_velocity = self.velocity  # 2D vector
+        self.last_speed = self.speed  # Scalar
+        self.last_heading_dir = self.heading
+        if action is not None:
+            self.last_current_action.append(action)
+        self._set_action(action)
+
+    def is_done(self):
+        # arrive or crash
+        pass
+
+
+vehicle_class_to_type[PolicyVehicle] = "default"
+
+
+class MultiAgentScenarioEnv(ScenarioEnv):
+    @classmethod
+    def default_config(cls):
+        config = super().default_config()
+        config.update(dict(
+            data_directory=None,
+            num_controlled_agents=3,
+            horizon=1000,
+        ))
+        return config
+
+    def __init__(self, config, agent2policy):
+        self.policy = agent2policy
+        self.controlled_agents = {}
+        self.controlled_agent_ids = []
+        self.obs_list = []
+        self.round = 0
+        super().__init__(config)
+
+    def reset(self, seed: Union[None, int] = None):
+        self.round = 0
+        if self.logger is None:
+            self.logger = get_logger()
+            log_level = self.config.get("log_level", logging.DEBUG if self.config.get("debug", False) else logging.INFO)
+            set_log_level(log_level)
+
+        self.lazy_init()
+        self._reset_global_seed(seed)
+        if self.engine is None:
+            raise ValueError("Broken MetaDrive instance.")
+
+        # 记录专家数据中每辆车的位置，接着全部清除，只保留位置等信息，用于后续生成
+        _obj_to_clean_this_frame = []
+        self.car_birth_info_list = []
+        for scenario_id, track in self.engine.traffic_manager.current_traffic_data.items():
+            if scenario_id == self.engine.traffic_manager.sdc_scenario_id:
+                continue
+            else:
+                if track["type"] == MetaDriveType.VEHICLE:
+                    _obj_to_clean_this_frame.append(scenario_id)
+                    valid = track['state']['valid']
+                    first_show = np.argmax(valid) if valid.any() else -1
+                    last_show = len(valid) - 1 - np.argmax(valid[::-1]) if valid.any() else -1
+                    # id，出现时间，出生点坐标，出生朝向，目的地
+                    self.car_birth_info_list.append({
+                        'id': track['metadata']['object_id'],
+                        'show_time': first_show,
+                        'begin': (track['state']['position'][first_show, 0], track['state']['position'][first_show, 1]),
+                        'heading': track['state']['heading'][first_show],
+                        'end': (track['state']['position'][last_show, 0], track['state']['position'][last_show, 1])
+                    })
+
+        for scenario_id in _obj_to_clean_this_frame:
+            self.engine.traffic_manager.current_traffic_data.pop(scenario_id)
+
+        self.engine.reset()
+        self.reset_sensors()
+        self.engine.taskMgr.step()
+
+        self.lanes = self.engine.map_manager.current_map.road_network.graph
+
+        if self.top_down_renderer is not None:
+            self.top_down_renderer.clear()
+            self.engine.top_down_renderer = None
+
+        self.dones = {}
+        self.episode_rewards = defaultdict(float)
+        self.episode_lengths = defaultdict(int)
+
+        self.controlled_agents.clear()
+        self.controlled_agent_ids.clear()
+
+        super().reset(seed)  # 初始化场景
+        self._spawn_controlled_agents()
+
+        return self._get_all_obs()
+
+    def _spawn_controlled_agents(self):
+        # ego_vehicle = self.engine.agent_manager.active_agents.get("default_agent")
+        # ego_position = ego_vehicle.position if ego_vehicle else np.array([0, 0])
+        for car in self.car_birth_info_list:
+            if car['show_time'] == self.round:
+                agent_id = f"controlled_{car['id']}"
+
+                vehicle = self.engine.spawn_object(
+                    PolicyVehicle,
+                    vehicle_config={},
+                    position=car['begin'],
+                    heading=car['heading']
+                )
+                vehicle.reset(position=car['begin'], heading=car['heading'])
+
+                vehicle.set_policy(self.policy)
+                vehicle.set_destination(car['end'])
+
+                self.controlled_agents[agent_id] = vehicle
+                self.controlled_agent_ids.append(agent_id)
+
+                # ✅ 关键：注册到引擎的 active_agents，才能参与物理更新
+                self.engine.agent_manager.active_agents[agent_id] = vehicle
+
+    def _get_all_obs(self):
+        # position, velocity, heading, lidar, navigation, TODO: trafficlight -> list
+        self.obs_list = []
+        for agent_id, vehicle in self.controlled_agents.items():
+            state = vehicle.get_state()
+
+            traffic_light = 0
+            for lane in self.lanes.values():
+                if lane.lane.point_on_lane(state['position'][:2]):
+                    if self.engine.light_manager.has_traffic_light(lane.lane.index):
+                        traffic_light = self.engine.light_manager._lane_index_to_obj[lane.lane.index].status
+                        if traffic_light == 'TRAFFIC_LIGHT_GREEN':
+                            traffic_light = 1
+                        elif traffic_light == 'TRAFFIC_LIGHT_YELLOW':
+                            traffic_light = 2
+                        elif traffic_light == 'TRAFFIC_LIGHT_RED':
+                            traffic_light = 3
+                        else:
+                            traffic_light = 0
+                    break
+
+            lidar = self.engine.get_sensor("lidar").perceive(num_lasers=80, distance=30, base_vehicle=vehicle,
+                                                             physics_world=self.engine.physics_world.dynamic_world)
+            side_lidar = self.engine.get_sensor("side_detector").perceive(num_lasers=10, distance=8,
+                                                                          base_vehicle=vehicle,
+                                                                          physics_world=self.engine.physics_world.static_world)
+            lane_line_lidar = self.engine.get_sensor("lane_line_detector").perceive(num_lasers=10, distance=3,
+                                                                                    base_vehicle=vehicle,
+                                                                                    physics_world=self.engine.physics_world.static_world)
+
+            obs = (state['position'][:2] + list(state['velocity']) + [state['heading_theta']]
+                   + lidar[0] + side_lidar[0] + lane_line_lidar[0] + [traffic_light]
+                   + list(vehicle.destination))
+            self.obs_list.append(obs)
+        return self.obs_list
+
+    def step(self, action_dict: Dict[AnyStr, Union[list, np.ndarray]]):
+        self.round += 1
+
+        for agent_id, action in action_dict.items():
+            if agent_id in self.controlled_agents:
+                self.controlled_agents[agent_id].before_step(action)
+
+        self.engine.step()
+
+        for agent_id in action_dict:
+            if agent_id in self.controlled_agents:
+                self.controlled_agents[agent_id].after_step()
+
+        self._spawn_controlled_agents()
+        obs = self._get_all_obs()
+        rewards = {aid: 0.0 for aid in self.controlled_agents}
+        dones = {aid: False for aid in self.controlled_agents}
+        dones["__all__"] = self.episode_step >= self.config["horizon"]
+        infos = {aid: {} for aid in self.controlled_agents}
+        return obs, rewards, dones, infos
--- a/Env/simple_idm_policy.py
+++ b/Env/simple_idm_policy.py
@@ -0,0 +1,18 @@
+import numpy as np
+
+class ConstantVelocityPolicy:
+    def __init__(self, target_speed=50):
+        self.step_num = 0
+
+    def act(self):
+        self.step_num += 1
+        if self.step_num % 30 < 15:
+            throttle = 1.0
+        else:
+            throttle = 1.0
+
+        steering = 0.1
+
+        # return [steering, throttle]
+
+        return [0.0,0.05]
--- a/Env/utils.py
+++ b/Env/utils.py
@@ -0,0 +1,14 @@
+import numpy as np
+import torch
+import random
+
+def set_seed(seed):
+    if seed == -1:
+        seed = np.random.randint(0, 10000)
+    print('Random seed: {}'.format(seed))
+
+    random.seed(seed)
+    np.random.seed(seed)
+    torch.manual_seed(seed)
+    torch.cuda.manual_seed(seed)
+    torch.cuda.manual_seed_all(seed)