该Smack数据集

未找到Smack数据集。在将来,如果出现这种情况,它将是一个不使用原始数据集直接的The Stack数据集的自由构建,因为非自由

备注

鹦鹉仍在初期开发阶段,尚未准备好面向最终用户。

栈元数据

堆棧有一个单独的元数据存储库,包含有关数据集的信息,而

链接到Git存储库:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

正在下载元数据

元数据大小远小于整个数据集,但仍然相当庞大。Git元数据存储库约为一千 Terabytes。 "Parrot"不要翻译。

读取元数据

堆栈的元数据存储在parquet格式中。parquet文件总共为562千兆字节,包含945个目录中的2,832个独立文件。

选择仓库

编写一个脚本以根据自由标准筛选适当的存储库。

克隆仓库

编写一个脚本来克隆选定的存储库。

列车

使用来自Bigcode的开源代码(The Stack的创建者)进行模型培训。

脚本

可用的脚本如下:

  • the-stack-headers -- Retrieves header names from The Stack's parquet files.

  • the-stack-licenses -- Extracts licenses and records from The Stack's license file.

编程助手

这些脚本是使用Parrot代码助手开发的:

  • the-stack-headers

  • the-stack-licenses

这些脚本是使用TheBloke的`The Phind-CodeLlama-34B-v2_q8.guff`模型创建的。

备注

鹦鹉文档是用英语编写的,并使用人工智能机器翻译进行其他语言翻译。