您所在的位置:第五信息门户网>科技>说人话,搜代码,Facebook发布神经代码搜索数据集 be

说人话,搜代码,Facebook发布神经代码搜索数据集 be

2019-11-08 18:13:02  

郭溥仪来自中关村

量子位报告

我怎样才能方便地找到我需要的代码?

最好用人类的语言直接搜索,然后给出你所说的一切。

Facebook刚刚发布了一个新的基准和数据集来评估神经代码搜索模型。

例如,滑铁卢大学、脸书和加州大学伯克利分校的研究人员去年发布的ncs模型,以及麻省理工学院、脸书和加州大学伯克利分校发布的unif模型,都可以运行。

在这种模型上,给出一个自然语言查询,例如:

代码搜索模型在整个语料库中搜索相关的代码片段。

因此,facebook的数据集包括以下三个部分:

总共有3个部分:

Github存储库

搜索语料库由github上星数最高的近24,549个android库的代码片段组成,包括python脚本。

搜索语料库

根据上述24,549个库,分析了方法体,总共包括4,716,814个。在给出自然语言查询后,代码搜索模型搜索所需的代码片段。

每个方法体都有相关信息,包括其id、文件路径、起始行、结束行、url等。

评估数据集

它包含287个堆栈溢出的问答对,包括它们的id、问题、答案url和答案。这些问题来自堆栈交换。

ncs和unif模型及其变体的运行结果如下:

神经代码搜索评估数据集

李宏宇、金相贤、萨迪什·钱德拉

https://arxiv.org/abs/1908.09804

github

http://git hub . com/face book research/neural-code-search-evaluation-dataset

Ncs模型

源代码检索:神经代码搜索

saksham sachdev,李宏宇,sifei luan,seohyun kim,koushik sen,satish chandra

https://dl.acm.org/citation.cfm? id = 3211353

Unif模型

当深度学习遇到代码搜索时

jose cambronero,李宏宇,seohyun kim,koushik sen,satish chandra

https://arxiv.org/abs/1905.03813

-完毕-

真诚的招聘

量子比特正在北京中关村招聘编辑/记者。期待有才华和热情的学生加入我们!详情请回复qbitai对话界面中的“招聘”一词。

量子位qbitai

跟踪人工智能技术和产品的新发展

上海时时乐开奖结果 山东11选5 山东十一选五 北京快3开奖结果