スマックデータセット

スマックデータセットは存在しません。将来、それが生じた場合、オリジナルデータセットを直接使用せずにスタックデータセットの

注釈

パルロットはまだエンドユーザーに準備ができていません。開発途中のため、使用はお勧めしません。

スタック・メタデータ

このStackは、データセット自体をホストしない別個のメタデータリポジトリにデ

リンク到git倉庫:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

データ取得中

メタデータはデータセット全体よりもかなり少ないが、まだ大規模です。Gitメタデータリポジトリはおよそ1テラバイトのサイズです。

読み込み中のメタデータ

スタックのメタデータはparquet形式で保存されます。parquetファイルは562ギガバイトを占め、945のディレクトリにわたって2,832個の個

リポジトリの選択

スクリプトを記述して、リブール基準に基づいて適切なリポジトリをフィルタリングします。

リポジトリのクローン

Write a script to clone the selected repositories.

列車

ビッグコード(ザ・スタックの作者)からリアルなコードを活用してモデルトレーニングを行います。

スクリプト

以下のスクリプトが利用可能です:

  • the-stack-headers -- Retrieves header names from The Stack's parquet files.

  • the-stack-licenses -- Extracts licenses and records from The Stack's license file.

コードアシスト

次のスクリプトは、Parrotコードアシストを使用して開発されました。

  • the-stack-headers

  • the-stack-licenses

これらのスクリプトは、TheBlokeから`The Phind-CodeLlama-34B-v2_q8.guff`モデルを使用して作成されました。

注釈

パロットのドキュメントは英語で記述されており、他の言語ではAIによる機械翻訳が使われます。