O conjunto de dados Smack

O conjunto de dados Smack não existe. No futuro, se surgir, será uma compilação livre do conjunto de dados The Stack sem usar o conjunto de dados original diretamente devido a embargos de licença não livre (fora de «open source

Nota

O Parrot está em desenvolvimento inicial, não está pronto para usuários finais.

Os metadados da Pilha

The Stack has a separate metadata repository containing information about the dataset without hosting the dataset itself. This practice is beneficial as it allows researchers to understand dataset contents without being bound by licenses. For instance, how can one agree to a license when they’re unaware of the content’s licenses? By using metadata files, this issue can be mitigated.

Link para o repositório do Git:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Baixando Metadados

Os metadados são significativamente menores que o conjunto de dados completo, mas ainda muito grandes. O repositório de metadados do Git é aproximadamente de um terabyte de tamanho.

Lendo Metadados

Os metadados da pilha são armazenados no formato Parquet. Os arquivos Parquet ocupam 562 gigabytes e consistem em 2.832 arquivos individuais distribuídos em 945 diretórios.

Selecionando repositórios

Escreva um script para filtrar repositórios adequados com base em critérios livres.

Clonagem de Repositórios

Escreva um script para clonar os repositórios selecionados.

Trem

Utilize código livre do Bigcode, criadores de The Stack, para treinamento de modelo.

Scripts

Os seguintes scripts estão disponíveis:

  • os-cabeçalhos-da-pilha – Recupera os nomes dos cabeçalhos a partir dos arquivos parquet da Pilha.

  • the-stack-licenses – Extracts licenses and records from The Stack’s license file.

Assistente de Código

Os seguintes scripts foram desenvolvidos utilizando o código auxiliar do Parrot:

  • the-stack-headers

  • the-stack-licenses

Estes scripts foram criados com o modelo The Phind-CodeLlama-34B-v2_q8.guff de TheBloke.

Nota

A documentação do Parrot é escrita em inglês e usa tradução automática de máquina para outras linguagens.