松尾研 LLM 開発コンペ 2025 MVP受賞

LLM DPO Safety Reasoning HPC Weights & Biases Hugging Face

概要

松尾研LLM開発コンペ2025にて、DNAチームのDPO班リーダーとして学習用データの拡張・合成を主導。Do Not Answer（DNA）スコア向上のため、好ましい/好ましくない応答を対で学習させるDPOデータ、およびReasoning model向けの<think>タグ付きデータを設計・生成。

期間 / 体制 / 役割

期間: 2025年7月 - 2025年9月
体制: データ合成（HLE/DNA）・学習・評価の3チーム構成
役割: DNAチームDPO班リーダー（データ設計・生成フロー構築・品質管理）

主な取り組み

DPO用データの拡張：好ましくない応答を意図的に生成・収集するプロンプト設計
Reasoningデータ生成：<think>タグを含む推論過程の構造化と整合性チェック
HPC環境での大規模ジョブ実行と管理（キュー投入・再開戦略）
W&B/Hugging Faceを用いた実験管理・モデル/データのバージョニング

成果

総合順位: 全10チーム中5位、DNAスコア3位
大会全体MVPを受賞（開発過程の評価）