Posted in

长上下文能力只是吹牛?最强 GPT-4o 正确率仅 55.8%,开源模型不如瞎蒙_AI阅读总结 — 包阅AI

包阅导读总结 1. 长上下文、LLM、推理能力、测试研究、准确率 2. 文本指出号称能支持百万级别上下文长度的 LLM 可能名不副实,两项独立研究表明其长上下文能力存疑,通过不同测试,开源和闭源模型表现不佳,尤其是在复杂的长上下文推理任务中。 3. – 研究背景 – 各大厂商…

Posted in

Science 研究揭 GenAI「双刃剑」:GenAI 让个人创作出彩却令集体创意趋同_AI阅读总结 — 包阅AI

包阅导读总结 1. “` GenAI、集体创意、个人创造力、写作、实验研究 “` 2. Science 上的研究发现 GenAI 能提高个人写作创造力,但会使集体写作同质化。实验表明其可提升故事新颖性和实用性,多数评估者认为用 AI 写作合乎道德但应有限制和披露,研究也存在局…

Posted in

Nature 封面:AI 训练 AI,越训越离谱_AI阅读总结 — 包阅AI

包阅导读总结 1. 关键词:AI 训练、模型崩溃、数据质量、语言模型、互联网内容 2. 总结:《自然》封面研究指出,放任大模型用自动生成数据训练会致其崩溃。模型崩溃因过度训练、特定误差源等,分早晚期。该现象在语言模型中普遍,会使模型遗忘真实数据。互联网充斥 AI 生成内容,影响模型训练,需访问原始数…