包阅导读总结
思维导图:
文章地址:https://www.jiqizhixin.com/articles/2024-07-23-3
文章来源:jiqizhixin.com
作者:机器之心
发布时间:2024/7/23 3:09
语言:中文
总字数:3560字
预计阅读时间:15分钟
评分:86分
标签:多模态大模型,数学推理,知识泛化,GPT-4o,WE-MATH基准
以下为原文内容
本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com
我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。