Набор данных Smack

Набор данных Smack не существует. В будущем, если это случится, он будет свободной сборкой набора данных The Stack без использования исходного набора данных напрямую из-за несвободного (не «open

Примечание

Пароль находится в начальной стадии разработки и не готов для конечных пользователей.

Метаданные стека

Стек имеет отдельный репозиторий метаданных, содержащий информацию о наборе данных без размещения самого набора данных. Это

Ссылка на репозиторий Git:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Загрузка метаданных

Метаданные значительно меньше, чем весь набор данных, но всё ещё достаточно большие. Репозиторий метаданных Git примерно один терабайт в размере.

Чтение метаданных

Метаданные стека хранятся в формате parquet. Файлы parquet занимают 562 гигабайта и состоят из 2 832 отдельных файлов в 945 каталогах.

Выбор репозитория

Напишите скрипт для фильтрации подходящих репозиториев на основе критериев свободного программного обеспечения.

Клонирование репозиторий

Напишите скрипт для клонирования выбранных репозиториев.

Train

Используйте свободный код от Bigcode (создателей The Stack) для обучения модели.

Скрипты

Доступные скрипты:

the-stack-headers – Retrieves header names from The Stack’s parquet files.
the-stack-licenses – Extracts licenses and records from The Stack’s license file.

Помощник по коду

Следующие сценарии были разработаны с использованием кодового помощника Parrot:

the-stack-headers
the-stack-licenses

Эти скрипты созданы с использованием модели The Phind-CodeLlama-34B-v2_q8.guff от TheBloke.

Примечание

Документация Parrot написана на английском и использует машинный перевод AI для других языков.