Набор данных Smack

Набор данных Smack не существует. В будущем, если это случится, он будет свободной сборкой набора данных The Stack без использования исходного набора данных напрямую из-за несвободного (не «open

Примечание

Пароль находится в начальной стадии разработки и не готов для конечных пользователей.

Метаданные стека

Стек имеет отдельный репозиторий метаданных, содержащий информацию о наборе данных без размещения самого набора данных. Это

Ссылка на репозиторий Git:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Загрузка метаданных

Метаданные значительно меньше, чем весь набор данных, но всё ещё достаточно большие. Репозиторий метаданных Git примерно один терабайт в размере.

Чтение метаданных

Метаданные стека хранятся в формате parquet. Файлы parquet занимают 562 гигабайта и состоят из 2 832 отдельных файлов в 945 каталогах.

Выбор репозитория

Напишите скрипт для фильтрации подходящих репозиториев на основе критериев свободного программного обеспечения.

Клонирование репозиторий

Напишите скрипт для клонирования выбранных репозиториев.

Train

Используйте свободный код от Bigcode (создателей The Stack) для обучения модели.

Скрипты

Доступные скрипты:

  • the-stack-headers – Retrieves header names from The Stack’s parquet files.

  • the-stack-licenses – Extracts licenses and records from The Stack’s license file.

Помощник по коду

Следующие сценарии были разработаны с использованием кодового помощника Parrot:

  • the-stack-headers

  • the-stack-licenses

Эти скрипты созданы с использованием модели The Phind-CodeLlama-34B-v2_q8.guff от TheBloke.

Примечание

Документация Parrot написана на английском и использует машинный перевод AI для других языков.