开源模型 MAI-DS-R1,微软后训练的DeepSeek-R1 推理模型,使用来自 Tulu 3 SFT 数据集的 110k 安全和不合规示例进行训练 MAI-DS-R1,微软后训练的DeepSeek-R1 推理模型,使用来自 Tu...