SWEST27 インタラクティブセッション — 自己検証ループによる高信頼な自然言語-ROS2コマンドデータセット構築
LLMが生成したROS2コマンドをGazebo上で自己検証し、SFT/DPO用データを自動構築。タスク達成率の向上と信頼性強化を実証。
ROS 2 Gazebo LLM SFT DPO
概要
大学3年の夏に SWEST27 のインタラクティブセッションで研究発表を実施。テーマは「物理シミュレータによる自己検証ループを用いた高信頼な自然言語-ROS2コマンドデータセットの構築手法」。LLMが生成したコマンドを Gazebo 上で実行し、成功/失敗を客観的に判定する自己検証ループを導入。成功例は教師あり学習(SFT)用、成功/失敗ペアは DPO 用へ変換し、高品質データセットを自動的に構築。
期間 / 形式 / 効果
- 期間: 2025年7月 - 2025年8月
- 形式: インタラクティブセッション発表(SWEST27)
- 効果: 検証済みデータを用いたモデルでタスク達成率を大幅に向上。信頼性強化と開発コスト削減の可能性を示したほか、発表は表彰を受け評価。