女同 telegram 明确了：文本数据中加点代码，历练出的大模子更强、更通用

发布日期：2024-08-23 04:30 点击次数：173

着手：机器之心Pro女同 telegram

机器之心报谈

机器之心剪辑部

代码学问正本这样膺惩。

如今提及大说话模子（LLM），写代码武艺就怕是「正人六艺」必不成少的一项。

在预历练数据围聚包含代码，即使对于并非故意为代码想象的大模子来说，也已是必不成少的事。天然从业者们宽敞合计代码数据在通用 LLM 的性能中起着至关膺惩的作用，但分析代码对非代码任务的精准影响的职责却特别有限。

在最近由 Cohere 等机构提交的一项职责中，计议者系统地计议了代码数据对通用大模子性能的影响。

论文畅达：https://arxiv.org/abs/2408.10914

设问「预历练中使用的代码数据对代码生成除外的各类下流任务有何影响」。作家对范畴鄙俗的天然说话推理任务、寰球学问任务、代码基准和 LLM-as-a-judge 胜率进行了鄙俗的消融和评估，模子的参数大小从 4.7 亿到 2.8 亿个参数不等。

在各类建立中，咱们不错看到存在一致的效果：代码是泛化的要道模块，远远超出了编码任务的范畴，况且代码质料的纠正对整个任务皆有广阔影响。预历练时分投资代码质料和保留代码数据，不错产生积极影响。

这里有几个成分很膺惩，包括确保代码比例正确、通过包含合成代码和代码相邻数据（举例 commits）来进步代码质料，以及在冷却时分等多个历练阶段利用代码。该计议效果标明，代码是泛化的要道构建块，远远超出了编码任务的范畴，代码质料的进步对性能有广阔的影响。

再进一步，作家对鄙俗的基准进行了鄙俗的评估，涵盖寰球学问任务、天然说话推理和代码生成，以及 LLM 行为评判者的胜率。在对 4.7 亿到 28 亿参数模子进行实验后，以下是翔实效果：

1.代码为非代码任务的性能提供了紧要纠正。使用代码预历练模子进行开动化可进步天然说话任务的性能。终点是，与纯文本预历练比拟，添加代码可使天然说话推理武艺相对加多 8.2%，寰球学问加多 4.2%，生成胜率进步 6.6%，代码性能进步 12 倍。

2.代码质料和属性很膺惩。使用标记面容的编程说话、代码相邻数据集（举例 GitHub commits）和合成生成的代码可进步预历练的性能。终点是，与预历练中的基于 Web 的代码数据比拟，在更高质料的合成生成的代码数据集上进行历练可使天然说话推理和代码性能分手进步 9% 和 44%。此外，与不包含代码数据的代码模子开动化比拟，包含合成数据的代码模子握续预历练分手使天然说话推理和代码性能相对进步 1.9% 和 41%。

3.冷却中的代码可进一步改善整个任务。在预历练冷却中包含代码数据，其中高质料数据集被加权，与冷却前的模子比拟，天然说话推感性能加多 3.6%，寰球学问加多 10.1%，代码性能加多 20%。更膺惩的是，包含代码的冷却比基线（无冷却的模子）的胜率向上 52.3%，其中胜率比无代码的冷却向上 4.1%。

按次概览

在按次部分，计议者从预历练数据、评估、历练与模子细节三个部分入部属手进行先容。下图 1 为高等实验框架。

预历练数据

计议者描绘了预历练和冷却（cooldown）数据集的细节。标的是在面前 SOTA 实际的圭臬下，评估代码在预历练中的作用。因此，他们探讨了由以下两个阶段组成的预历练运行，即握续预历练和冷却。

其中握续预历练是指历练一个从预历练模子开动化而来并在固定 token 预算下历练的模子。冷却是指在历练的终末阶段，进步高质料数据集的权重并对相对较少数目的 token 进行学习率的退火。

对于文本数据集，计议者使用 SlimPajama 预历练语料库行为他们的天然说话文本数据源。

对于代码数据集，为了探索不同属性的代码数据的影响，计议者使用了不同类型的代码源，包括如下：

基于 web 的代码数据，这是主要的代码数据源，包括用于历练 StarCoder 的 Stack 数据集。该数据集包含了爬取自 GitHub 的解放授权的代码数据。计议者使用了质料过滤器，并遴选了基于文档数（document count）的前 25 种编程说话。在走完整个过滤要领后，仅代码和 markup 子集的限度为 139B tokens。

Markdown 数据。计议者单独惩处了 mark-up 作风的说话，比如 Markdown、CSS 和 HTML。走完整个过滤要领后，markup 子集的限度为 180B tokens。

自拍偷拍

女同 telegram 明确了：文本数据中加点代码，历练出的大模子更强、更通用