Root NationニュースITニュースIBM が Project CodeNet データ セットを作成: 14 万のコード サンプルが AI にプログラミングを教える

IBM が Project CodeNet データ セットを作成: 14 万のコード サンプルが AI にプログラミングを教える

-

単位 IBM の人工知能 (AI) 研究は、プログラミング タスクに役立つ機械学習モデルを開発するために、14 万サンプルのデータセットを提示しました。 という名前のデータセット プロジェクトCodeNetの名前は、コンピューター ビジョンとディープ ラーニングに革命をもたらした有名な画像リポジトリである ImageNet に由来します。

プログラマーは、意識的および潜在意識的思考の多くのメカニズムを使用して、新しい問題を発見し、さまざまな解決策を探ります。 ほとんどの機械学習アルゴリズムでは、同じ問題を解決できるモデルを開発するために、明確に定義されたタスクと大量の注釈付きデータが必要です。

IBM プロジェクト CodeNet
Project CodeNet は、数十のプログラミング言語に散らばる最大 14 万のコード例の巨大なデータセットです。

専門家コミュニティによる AI-for-Code システムの開発と評価のためのデータセットとベンチマークの作成には、多大な努力が払われてきました。 しかし、ソフトウェア開発の創造的で自由な性質を考えると、プログラミング用の完全なデータ セットを作成することは非常に困難です。 Project CodeNet を使用して、IBM の研究者は、さまざまなタスクで機械学習モデルをトレーニングするために使用できる多目的データセットの作成を試みました。 CodeNet の作成者は、これを「コード向け AI のアルゴリズムの進歩を加速するための、非常に大規模で多様な高品質のデータセット」と表現しています。

このデータセットには、14 の異なるプログラミング言語で書かれた 500 億行のコードの 55 万の例が含まれています。 コード サンプルは、AIZU および AtCoder オンライン コーディング プラットフォームに投稿された約 4000 のサブミットされたタスクから取得されました。 コード例には、与えられたタスクに対する正解と不正解の両方が含まれています。

また興味深い:

CodeNet の重要な機能の つは、例に追加される注釈の量です。 データセットに含まれる各コーディング タスクには、テキストによる説明と、CPU 時間とメモリの制限があります。 各コード送信には、言語、送信日、サイズ、実行時間、承認、エラーの種類など、多数の情報が含まれています。 また、IBM の研究者は、プログラミング言語、受容性、エラーの種類など、さまざまなパラメーターにわたってデータ セットのバランスが取れていることを確認するために多大な努力を払いました。

IBM プロジェクト CodeNet

CodeNet は、プログラミング タスクで機械学習モデルをトレーニングするための唯一のデータセットではありません。 しかし、それを際立たせるいくつかの特徴があります。 つ目は、サンプル数や言語の多様性など、データ セットのサイズが非常に大きいことです。 しかし、おそらくもっと重要なのは、コード サンプルに付属するメタデータです。 CodeNet に追加された豊富な注釈により、特定のプログラミング タスクに特化した他のコーディング データセットとは異なり、さまざまなタスクに適しています。

CodeNet を使用するにはいくつかの方法があります。 その一つが言語翻訳です。 データセット内の各コーディング タスクにはさまざまなプログラミング言語の表現が含まれているため、データ サイエンティストはそれを使用して、コードをある言語から別の言語に翻訳する機械学習モデルを構築できます。 これは、古いコードを新しい言語に移植し、新しい世代のプログラマーがアクセスできるようにしたい組織にとって便利です。

また読む:

サインアップ
について通知する
ゲスト

2 コメント
新しいもの
古いもの 最もポピュラーな
埋め込まれたレビュー
すべてのコメントを表示
ビクター
ビクター
2年前

伝統と遺伝は、ニューラルに似たアルゴリズムの最年少世代と問題を提起する ML 手法を使用して、さまざまな考え方と連携し、相互に改善し合う必要があります。

アースド
アースド
2年前

時間が経つにつれて、プログラマーのレベルはさらに低下します (現在と比較して)。 つまり、「たわごと言語」で斜めの曲がったコードを書くことが可能になります。 その後、マシンが最適化され、最終的にはプロのアセンブラー プログラマー (またはそれ以上) の最適化されたコードを取得できるようになります。