El conjunto de datos Smack

El conjunto de datos Smack no existe. En el futuro, si surge, será una construcción libre de The Stack Dataset sin utilizar el conjunto de datos original directamente debido a las limitaciones de licencia no libres (no «open source»).

Nota

El Parrot está en desarrollo temprano, no está listo para usuarios finales.

Los metadatos de la pila

El Stack tiene un repositorio de metadatos separado que contiene información sobre el conjunto de datos sin alojar el conjunto de datos mismo. Esta práctica es benefici

Enlace al repositorio de Git:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Descargando metadatos

La metadatos es significativamente menor que el conjunto de datos completo, pero aún es bastante grande. El repositorio de metadatos de Git tiene aproximadamente un terabyte de tamaño.

Reading Metadata

El metadato de la Pila se almacena en formato parquet. Los archivos parquet abarcan 562 gigabytes y comprenden 2.832 archivos individuales en 945 directorios.

Seleccionar repositorios

Escribe un script para filtrar repositorios adecuados según criterios libres.

Clonando repositorios

Escribe un script para clonar los repositorios seleccionados.

Tren

Utiliza código libre de Bigcode (creadores de The Stack) para el entrenamiento del modelo.

Scripts

Los siguientes guiones están disponibles:

  • the-stack-headers – Retrieves header names from The Stack’s parquet files.

  • the-stack-licenses – Extracts licenses and records from The Stack’s license file.

Asistente de código

Los siguientes guiones fueron desarrollados utilizando el asistente de código Parrot:

  • the-stack-headers

  • the-stack-licenses

Estos scripts se crearon con el modelo The Phind-CodeLlama-34B-v2_q8.guff de TheBloke.

Nota

La documentación de Parrot está escrita en inglés y utiliza la traducción automática del motor de inteligencia artificial para otros idiomas.