包阅导读总结
1. 关键词:VLDB2024、蚂蚁集团、数据库、论文、研究成果
2. 总结:VLDB2024 在广州举办,蚂蚁集团 8 篇论文入选,其中 7 篇为现场展示论文,研究涉及数据库等多个领域,文中介绍了部分论文的摘要。
3. 主要内容:
– VLDB2024 会议:
– 于 2024 年 8 月 26 日至 30 日在广州举办,是数据管理与数据库领域顶会。
– 蚂蚁集团成果:
– 8 篇论文入选,7 篇为现场展示论文。
– 研究课题涉及数据库、图计算等领域。
– OceanBase CTO 杨传辉做主题演讲。
– 部分论文摘要:
– 《KGFabric: A Scalable Knowledge Graph Warehouse for Enterprise Data Interconnection》:提出工业规模的知识图谱管理系统 KGFabric。
– 《Enabling Window-Based Monotonic Graph Analytics with Reusable Transitional Results for Pattern-Consistent Queries》:提出支持窗口式单调图分析的 MergeGraph 框架。
– 《Win-Win: On Simultaneous Clustering and Imputing over Incomplete Data》:研究在缺失数据上同时执行聚类和填充任务的策略。
– 《SecretFlow-SCQL: A Secure Collaborative Query pLatform》:建立支持多方数据通用 SQL 查询的 SCQL。
– 《PALF: Replicated Write-ahead Logging for Distributed Databases》:提出基于 Paxos 算法的分布式写前日志系统 PALF。
– 《DLRover-RM: Resource Optimization for Deep Recommendation Models Training in the Cloud》:引入针对 DLRM 的弹性训练框架 DLRover-RM。
– 《OptScaler: A Collaborative Framework for Robust Autoscaling in the Cloud》:提出高鲁棒性的云资源自动扩缩容协同框架 OptScaler。
– 《Demonstration of DB-GPT: Next Generation Data Interaction System Empowered by Large Language Models》:介绍将 LLMs 融入数据交互任务的 DB-GPT。
思维导图:
文章地址:https://mp.weixin.qq.com/s/8hfOQm4FdG5SvXUxfTuu6w
文章来源:mp.weixin.qq.com
作者:蚂蚁技术 AntTech
发布时间:2024/8/29 6:27
语言:中文
总字数:4368字
预计阅读时间:18分钟
评分:81分
标签:数据库,图计算,数据分析,知识图谱,深度学习
以下为原文内容
本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com
2024年8月26日至30日,为期5天的数据管理与数据库领域顶会VLDB2024在广州举办。作为数据库领域的三大顶级国际会议之一,VLDB致力于展示和分享数据库管理系统和数据管理领域的最新研究成果,在全球学术界和工业界享有颇高声誉。
蚂蚁集团有8篇论文被VLDB2024收录,其中7篇为现场展示论文(Oral Paper)。研究课题涉及数据库、图计算、数据分析、知识图谱、深度学习等。
OceanBase CTO, 蚂蚁技术研究院数据库实验室主任杨传辉在VLDB2024现场做主题演讲“OceanBase: 从 OLTP 走向一体化数据库”
以下是论文摘要介绍。
KGFabric: A Scalable Knowledge Graph Warehouse for Enterprise Data Interconnection / KGFabric:支持企业级数据互联的超大规模知识仓储
收录类别:Industry Paper& Oral
涉及领域:知识图谱、海量数据管理、分布式存储和计算
根据蚂蚁集团多样化的应用场景,我们构建了蚂蚁知识图谱平台(AKGP)。该平台构建了众多与商户、公司、账户、产品等相关的领域特定知识图谱。AKGP管理着数万亿结构化知识图谱,服务于搜索、推荐、风控等业务。然而,随着对图模式匹配、图表示学习和跨领域知识重用等各种工作负载需求的增加,基于关系数据库管理系统(DBMS)或图数据库的现有仓库系统无法满足这些需求。
为了解决这些问题,我们提出了KGFabric,这是一种工业规模的知识图谱管理系统,构建于分布式文件系统(DFS)之上。KGFabric提供了一种近实时的知识存储引擎,利用增强语义的可编程图模型(Semantic-enhanced Programmable Graph,SPG),兼容标记属性图(Labeled Property Graph,LPG)模型。数据以持久化方式存储在DFS(如HDFS)中,利用POSIX文件系统API,使其适合在多云环境中低成本部署。KGFabric提供了一种原生的基于图和混合存储格式的系统,可以作为并行图计算系统的共享后端,显著加速多种工作负载的分析。此外,KGFabric包括一个图融合框架,最小化数据重复并保证数据安全。
KGFabric能够管理PB级别的数据,并支持蚂蚁集团内超过1000亿关系的图融合和分析。我们在各种数据集上进行实验以评估KGFabric的性能。与流行的关系DBMS和图数据库相比,语义关系的存储空间减少了90%以上。在实际工作负载中,图融合的性能提升了21倍。在多跳语义图分析中,KGFabric的性能提高了100倍。
Enabling Window-Based Monotonic Graph Analytics with Reusable Transitional Results for Pattern-Consistent Queries / 基于过渡结果重用的窗口式单调图分析框架
收录类别:Reseach Paper & Oral
论文链接:
https://www.vldb.org/pvldb/vol17/p3003-zhang.pdf
很多图数据由不断生成的数据构成,规模庞大且持续增加中,例如支付宝每天会产生数亿笔交易。很多图查询常常针对一个给定的时间窗口展开,而针对临时窗口内的图分析过程非常耗时。幸运的是,我们发现大多数查询具有一致的模式,并且算法具有单调性。因此,可以在生成切片时计算出过渡结果,以便重复使用。
基于此,本文提出了MergeGraph框架,其支持窗口式的单调图分析,并且能够复用过渡结果来处理模式一致的查询。MergeGraph基于两个关键的创新:首先,可以直接利用各个切片内的过渡结果来节省计算;其次,可以直接在各个切片的离散存储上执行图计算以避免高昂的合并图结构的代价。实验结果表明,MergeGraph在性能上有显著提升:在评估的四种典型图应用中,MergeGraph相较于最先进方法的平均加速比达到11.3倍。
Win-Win: On Simultaneous Clustering and Imputing over Incomplete Data / 聚类与填充的共赢
收录类别:Reseach Paper & Oral
聚类算法被广泛应用在各种业务场景,但在处理缺失数据时往往效果不佳。传统的先填充再聚类模式,最多只能达到各阶段的局部最优解,而非全局最优解。针对这一基础且重要的研究问题,本文并没有独立地解决聚类和填充,而是研究了在缺失数据上同时执行两个任务的策略。其直接优势是能够同时改善聚类和填充的性能,促进二者互相提升,突破独立优化任一项的瓶颈,实现共赢结果。
本文的主要技术亮点包括:
(1) 对同时进行聚类和填充的计算问题进行数学形式化表达,并分析其NP-hard性;
(2) 将问题转化为整数线性规划(ILP)的形式来找到精确解;
(3) 基于线性规划(LP)松弛和局部邻居(LN)方法,设计了高效的近似算法,并提供了近似算法的边界证明。
大量实验表明,本文工作在聚类和填充缺失数据方面具有显著优越性。
SecretFlow-SCQL: A Secure Collaborative Query pLatform / 隐语-SCQL:安全联合数据分析平台
收录类别:Industry Paper& Oral
近年来,对联合数据分析的需求不断增长,尤其是在医学研究、金融服务和风险管理领域。事实证明,不同机构提供的补充特征或样本可以带来性能的进一步提升。然而,随着人们对隐私问题的日益关注和相关法规的出台,不同机构之间的数据无法共享,从而导致数据孤岛。我们需要一个基础设施,以便能够对相互不信任的机构的集体数据安全地执行任意查询。
安全多方计算为协作数据分析提供了有效的解决方案,可以在确保数据安全的同时利用数据价值。然而,MPC的性能瓶颈给联合协作数据分析框架设计带来了巨大挑战。在本文中,我们建立了SCQL,用以支持对多方数据通用的SQL查询,同时优化底层MPC协议和设计数据库关系运算以满足规模化的需求,为用户提供一个安全、易用和高效的联合数据分析系统。
PALF: Replicated Write-ahead Logging for Distributed Databases/ PALF: 分布式数据库中基于复制的写前日志系统
收录类别:Industry Paper & Oral
由于分布式数据库在拓展性,高可用和一致性保证等方面的优势,其近年来已经被广泛研究和开发。
写前日志(Write-ahead Logging, WAL)系统是数据库中的关键组件,要为支持事务的分布式数据库设计分布式写前日志系统目前依然存在挑战。
本论文提出了PALF,基于Paxos算法的追加写日志文件系统来解决这些挑战。PALF的基本设计思想是协同设计数据库和分布式日志系统,以支持丰富的数据库功能;同时将日志系统的各项功能抽象为原语,使其能用于构建其他分布式系统。
实验结果表明,PALF性能表现明显优于现有的分布式共识协议系统,并且完全满足分布式数据库的性能要求。目前,PALF代码已经随OceanBase 4.0 数据库开源。
DLRover-RM: Resource Optimization for Deep Recommendation Models Training in the Cloud / DLRover-RM:深度推荐模型云端训练的资源优化
收录类别:Industry Paper& Oral
论文链接:
https://arxiv.org/abs/2304.01468
深度学习推荐模型(DLRM)依赖于大型嵌入表来管理类别稀疏特征。扩展此类嵌入表可以显著提升模型性能,但代价是增加GPU/CPU/内存的使用量。同时,科技公司已经构建了广泛的基于云的服务,以加速大规模训练DLRM模型。
本文对蚂蚁集团的DLRM训练平台进行了深入调查,并揭示了两个关键挑战:由于用户配置不佳导致的资源利用率低下以及由于云环境不稳定而容易遇到异常情况。为了解决这些问题,我们引入了DLRover-RM,这是一种针对DLRM设计的弹性训练框架,旨在提高资源利用率并处理云环境的不稳定性。
DLRover-RM通过考虑DLRM的独特特性和三阶段启发式策略来开发资源性能模型,以自动分配和动态调整DLRM训练任务的资源,从而实现更高的资源利用率。此外,DLRover-RM还开发了多种机制,以确保DLRM训练任务的高效和可靠执行。我们的广泛评估显示,与最先进的资源调度框架相比DLRover-RM已在蚂蚁集团广泛部署,每天处理数千个DLRM训练任务。DLRover-RM是开源的,已经被超过10家公司采用。
OptScaler: A Collaborative Framework for Robust Autoscaling in the Cloud/OptScaler: 高鲁棒性的云资源自动扩缩容协同框架
收录类别:Industry Paper & Oral
涉及领域:云资源调度、弹性扩缩容、模型预测控制(MPC)、时序预测、鲁棒优化
自动扩缩容是云计算中降本增效的关键技术,可根据负载变化动态调整计算资源。尤其对于搜索、推荐、广告等负载模式多样且混合部署在云集群上的在线应用,运维成本高,自动扩缩容可带来较大经济效益。自动扩缩容的主要目标是将云集群资源利用率维持在一个理想水平,以平衡资源成本和服务等级目标(SLO)的满足率。传统的自动扩缩容框架有主动式和被动式两类。主动式方案基于负载预测,受预测误差影响大;被动式方案基于系统反馈,其滞后性会导致SLO的违反较多。为解决这些问题,主被动结合的混合方式越来越流行,但现有方案中主动式和被动式是独立运作的两个模块,可能产生两种无法兼容的扩缩容决策,需要选择一种执行,这会削弱整体决策的有效性。
我们提出了OptScaler框架,通过数学优化的方式整合了主动式和被动式的扩缩容方案。我们的主动式模块挖掘负载长、短周期的时序特征产出高可靠性的负载预测,被动式模块利用Widrow-Hoff算法实时更新优化模型参数,优化模块结合这些信息给出扩缩容决策。我们在优化模块中利用了模型预测控制(MPC)方法,并引入机会约束,进一步提高决策的鲁棒性。数值模拟实验展示了OptScaler中的预测技术及协同框架相对其它方法的优势:相比现有的具有代表性的主动式,被动式,和主被动混合式的扩缩容方案,OptScaler可以减少至少36%的SLO违反率。
Demonstration of DB-GPT: Next Generation Data Interaction System Empowered by Large Language Models / DB-GPT:大模型支持的新一代数据库交互系统
论文链接:
https://arxiv.org/abs/2404.10209
最近在大型语言模型(LLMs)领域的技术突破推动了多个软件领域的转型。与数据交互技术的结合尤为重要,因为高效且直观的数据交互至关重要。在本文中,我们介绍了DB-GPT,这是一种革命性的、可直接投入产品使用的Python库,它将LLMs融入传统的数据交互任务中,以提升用户体验和可访问性。
DB-GPT旨在理解用自然语言描述的数据交互任务,并提供基于上下文的响应,利用LLMs为用户提供服务,适用于从初学者到专家的不同层次用户。其系统设计支持在本地、分布式和云环境中的部署。除了处理基本的数据交互任务,如使用LLMs进行的 Text-to-SQL外,它还可以通过多智能体框架和代理工作流表达语言(AWEL)处理复杂任务。服务导向的多模型管理框架(SMMF)确保了数据隐私和安全,使用户能够在使用私有 LLMs 的情况下安全地使用 DB-GPT。此外,DB-GPT提供了一系列产品准备好的功能,以便用户能够轻松将DB-GPT集成到其产品环境中。DB-GPT的代码已在GitHub(https://github.com/eosphoros-ai/DB-GPT)上发布,目前已有超过 11k 的星标。