スマックデータセット

スマックデータセットは存在しません。将来、それが生じた場合、オリジナルデータセットを直接使用せずにスタックデータセットの

注釈

パルロットはまだエンドユーザーに準備ができていません。開発途中のため、使用はお勧めしません。

スタック・メタデータ

このStackは、データセット自体をホストしない別個のメタデータリポジトリにデ

リンク到git倉庫：

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

メタデータはデータセット全体よりもかなり少ないが、まだ大規模です。Gitメタデータリポジトリはおよそ1テラバイトのサイズです。

スタックのメタデータはparquet形式で保存されます。parquetファイルは562ギガバイトを占め、945のディレクトリにわたって2,832個の個

スクリプトを記述して、リブール基準に基づいて適切なリポジトリをフィルタリングします。

Write a script to clone the selected repositories.

ビッグコード（ザ・スタックの作者）からリアルなコードを活用してモデルトレーニングを行います。

以下のスクリプトが利用可能です:

the-stack-headers -- Retrieves header names from The Stack's parquet files.
the-stack-licenses -- Extracts licenses and records from The Stack's license file.

次のスクリプトは、Parrotコードアシストを使用して開発されました。

これらのスクリプトは、TheBlokeから`The Phind-CodeLlama-34B-v2_q8.guff`モデルを使用して作成されました。

注釈

パロットのドキュメントは英語で記述されており、他の言語ではAIによる機械翻訳が使われます。