松尾研 LLM 開発コンペ 2025 MVP受賞

LLMの安全性向上を目的にDPOデータの合成と拡張を主導。タグを含む推論過程データ生成やHPC環境での大規模データ生成に取り組み、総合5位・DNA 3位・MVPを獲得。

LLM Compe 2025 thumbnail

LLM DPO Safety Reasoning HPC Weights & Biases Hugging Face

概要

松尾研LLM開発コンペ2025にて、DNAチームのDPO班リーダーとして学習用データの拡張・合成を主導。Do Not Answer(DNA)スコア向上のため、好ましい/好ましくない応答を対で学習させるDPOデータ、およびReasoning model向けの<think>タグ付きデータを設計・生成。

期間 / 体制 / 役割

  • 期間: 2025年7月 - 2025年9月
  • 体制: データ合成(HLE/DNA)・学習・評価の3チーム構成
  • 役割: DNAチームDPO班リーダー(データ設計・生成フロー構築・品質管理)

主な取り組み

  • DPO用データの拡張:好ましくない応答を意図的に生成・収集するプロンプト設計
  • Reasoningデータ生成:<think>タグを含む推論過程の構造化と整合性チェック
  • HPC環境での大規模ジョブ実行と管理(キュー投入・再開戦略)
  • W&B/Hugging Faceを用いた実験管理・モデル/データのバージョニング

成果

  • 総合順位: 全10チーム中5位、DNAスコア3位
  • 大会全体MVPを受賞(開発過程の評価)