松尾研 LLM 開発コンペ 2025 MVP受賞
LLMの安全性向上を目的にDPOデータの合成と拡張を主導。
LLM DPO Safety Reasoning HPC Weights & Biases Hugging Face
概要
松尾研LLM開発コンペ2025にて、DNAチームのDPO班リーダーとして学習用データの拡張・合成を主導。Do Not Answer(DNA)スコア向上のため、好ましい/好ましくない応答を対で学習させるDPOデータ、およびReasoning model向けの<think>タグ付きデータを設計・生成。
期間 / 体制 / 役割
- 期間: 2025年7月 - 2025年9月
- 体制: データ合成(HLE/DNA)・学習・評価の3チーム構成
- 役割: DNAチームDPO班リーダー(データ設計・生成フロー構築・品質管理)
主な取り組み
- DPO用データの拡張:好ましくない応答を意図的に生成・収集するプロンプト設計
- Reasoningデータ生成:
<think>タグを含む推論過程の構造化と整合性チェック - HPC環境での大規模ジョブ実行と管理(キュー投入・再開戦略)
- W&B/Hugging Faceを用いた実験管理・モデル/データのバージョニング
成果
- 総合順位: 全10チーム中5位、DNAスコア3位
- 大会全体MVPを受賞(開発過程の評価)