在线工具 在线编程 在线白板 在线工具 在线编程 在线白板

DAIL-SQL教你刷Spider榜单-论文详解

请说下,DAIL-SQL教你刷Spider榜单-论文详解
最新回答
奶气缠身

2024-11-24 08:33:07

英文标题:Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation

中文标题:基于LLM的Text2SQL:基准评估

发表时间:2023年8月29日 v1版,2023年11月20日v4版

作者单位:阿里巴巴

论文链接:arxiv.org/abs/2308.1536...

大型语言模型(LLM)在Text2SQL领域展现新趋势,然而,缺乏系统基准导致设计基于LLM的解决方案时面临挑战。本文首先进行深入研究,对比现有提示工程方法,包括问题表示、例子选择和例子组织,并通过实验结果探讨其优劣。

基于发现,提出综合解决方案DAIL-SQL,刷新Spider排行榜-执行准确率(EX)达86.6%,树立新标杆。探索开源LLM潜力,使用有监督微调SFT提升性能,突出开源LLM在Text2SQL方面的潜力及微调的优劣。为了实现高效且经济的解决方案,强调prompt工程的token效率并对比前人研究。

问题表示分为五个类别,实验结果在不同场景下展示。消融实验对prompt中的问题表示去掉外键信息,结果部分增加,部分减少。同样,关于是否解释的消融实验显示,大部分情况下增加解释规则后EX/EM上升,但OpenAI Demostration Prompt例外。

开源模型实验显示,-7B模型在0-shot和few-shot下性能差异,SFT对性能提升明显。LLaMA模型在不同场景下的比较结果也呈现了相似趋势。

上下文学习是关键,例选择分为五类,DAIL selection与Upper Limit类似,但计算的是ground truth的query的相似性。例组织方式有三种,其中Full-Information Organization是特别关注的一种。

DAIL-SQL的步骤包括输入、输出和方法细节,重点在于优化效率和经济性,强调标记效率在提示工程中的重要性。

结论部分指出,SFT相比few-shot方法效果更佳,DAIL-SQL刷新了Spider排行榜,EX达86.6%,排名第一。监督微调展示了开源LLM在Text2SQL领域的潜力,强调了语料库预训练和模型参数的重要性,并指出微调后上下文学习能力的退化。此外,对现有解决方案效率的观察表明DAIL-SQL效率更高,强调标记效率在提示工程中的重要性。