DAIL-SQL教你刷Spider榜单-论文详解

英文标题：Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation

中文标题：基于LLM的Text2SQL：基准评估

发表时间：2023年8月29日 v1版，2023年11月20日v4版

作者单位：阿里巴巴

论文链接：arxiv.org/abs/2308.1536...

大型语言模型（LLM）在Text2SQL领域展现新趋势，然而，缺乏系统基准导致设计基于LLM的解决方案时面临挑战。本文首先进行深入研究，对比现有提示工程方法，包括问题表示、例子选择和例子组织，并通过实验结果探讨其优劣。

基于发现，提出综合解决方案DAIL-SQL，刷新Spider排行榜-执行准确率（EX）达86.6%，树立新标杆。探索开源LLM潜力，使用有监督微调SFT提升性能，突出开源LLM在Text2SQL方面的潜力及微调的优劣。为了实现高效且经济的解决方案，强调prompt工程的token效率并对比前人研究。

问题表示分为五个类别，实验结果在不同场景下展示。消融实验对prompt中的问题表示去掉外键信息，结果部分增加，部分减少。同样，关于是否解释的消融实验显示，大部分情况下增加解释规则后EX/EM上升，但OpenAI Demostration Prompt例外。

开源模型实验显示，-7B模型在0-shot和few-shot下性能差异，SFT对性能提升明显。LLaMA模型在不同场景下的比较结果也呈现了相似趋势。

上下文学习是关键，例选择分为五类，DAIL selection与Upper Limit类似，但计算的是ground truth的query的相似性。例组织方式有三种，其中Full-Information Organization是特别关注的一种。

DAIL-SQL的步骤包括输入、输出和方法细节，重点在于优化效率和经济性，强调标记效率在提示工程中的重要性。

结论部分指出，SFT相比few-shot方法效果更佳，DAIL-SQL刷新了Spider排行榜，EX达86.6%，排名第一。监督微调展示了开源LLM在Text2SQL领域的潜力，强调了语料库预训练和模型参数的重要性，并指出微调后上下文学习能力的退化。此外，对现有解决方案效率的观察表明DAIL-SQL效率更高，强调标记效率在提示工程中的重要性。

您可能感兴趣问答

Collapsible

热门标签

热点问答