ROS 2 Gazebo LLM SFT DPO

概要

大学3年の夏に SWEST27 のインタラクティブセッションで研究発表を実施。テーマは「物理シミュレータによる自己検証ループを用いた高信頼な自然言語-ROS2コマンドデータセットの構築手法」。LLMが生成したコマンドを Gazebo 上で実行し、成功/失敗を客観的に判定する自己検証ループを導入。成功例は教師あり学習（SFT）用、成功/失敗ペアは DPO 用へ変換し、高品質データセットを自動的に構築。

期間 / 形式 / 効果

期間: 2025年7月 - 2025年8月
形式: インタラクティブセッション発表（SWEST27）
効果: 検証済みデータを用いたモデルでタスク達成率を大幅に向上。信頼性強化と開発コスト削減の可能性を示したほか、発表は表彰を受け評価。

SWEST27 インタラクティブセッション — 自己検証ループによる高信頼な自然言語-ROS2コマンドデータセット構築

概要

期間 / 形式 / 効果

リンク

関連資料

ポスタープレビュー

論文プレビュー

概要

期間 / 形式 / 効果

リンク

関連資料

ポスター プレビュー

論文 プレビュー

ポスタープレビュー

論文プレビュー