機械学習用データキュレーション・プラットフォーム

機械学習の分野ではデータの入手が容易になり、取り扱うデータ量が急速に拡大しています。また、様々な研究が旺盛におこなわれており、新たな機械学習システムの開発速度は増す一方です。そのため、機械学習における最大の課題は、ほぼ無制限の莫大な量のデータを如何に効率よくキュレーションし、機械学習モデルの精度・性能向上に繋げられるかというところになっています。そこに解決策を提供するのがLightlyプラットフォームです。

機械学習がデータに依存するがゆえに元来抱える5つの大きな課題。Lightlyはその先進のプラットフォームと独創的な手法によってその解決策を提供し、機械学習モデルの精度改善と開発コストの削減を支援します。

画像に alt 属性が指定されていません。ファイル名: lightly_image2.png

重要な5つの課題

  • 「データの理解」
  • 「データのキュレーション」
  • 「効率的なデータのパイプラインの構築」
  • 「データの管理」
  • 「データのコラボレーション」

データの理解

機械学習は、その名のとおり、機械に特定の動作をさせるための教育プロセスのことです。その機械は入力データから学習するため、機械学習モデルの質や性能はそのデータに大きく依存します。よって、より良いモデルになるようにトレーニングするには、モデル化したい対象を偏りなく正しく代表したデータに限って使用する必要があります。しかし、意図せず冗長なデータが多く含まれていたり、データの特性が偏っていたりするのを予め完全に排除することは現実的に不可能です。では、用意したデータにそのような問題が無いことをどうすれば確認できるでしょうか? サンプルに偏りはないか、ある特性にぽっかりと抜け落ちたような部分はないか、本当にそのまま使用して問題ないか、どう確認すれば良いでしょうか。何万枚もの画像、何百万フレームにも及ぶ動画を全て目視で確認するなど現実的には不可能です。Lightlyの可視化ツールがこの課題を解決し、データの理解を助けます。

データのキュレーション

機械学習モデルの完成度を高めるには、モデルの性能向上に寄与するデータを過不足なく用意する必要があります。データ量は多ければ良いというものではなく、特性に偏りがなく、多様性があり、できればまだ不確実でそれを学習することでモデル精度が改善され易いデータであることが望ましいのです。しかし、どうすればそのようなデータを選択できるでしょうか? それを手作業でやり遂げることは極めて困難ですし、ランダム選択では課題の解決にはなりません。Lightlyの能動学習ベースの独自アルゴリズムがこの課題を解決し、データキュレーションを劇的に効率化します。

効率的なデータパイプラインの構築

機械学習に関連する業界は劇的に拡大・進化を続け、高度に専門化したプレーヤーがより多く関係するようになってきたため、その間のデータパイプラインは複雑化する一方です。そのため新たな障害が発生し、その混雑したパイプラインでデータを管理することが大きな課題となっています。Lightlyの機能によってキュレーションされたデータを使えば、ラベリングに要するデータ量と工数を大幅に削減することができます。またLightly APIを使用することにより各企業の既存システムにLightlyの機能をインテグレートできるので、データパイプライン全体を大幅に効率化することができます。

データの管理

莫大な時間とコストをかけて収集した大量のデータを管理し、効率的に活用することはビッグデータを扱う企業にとって極めて明白で重要な課題です。ある特定の目的に沿って収集したデータでも、場合によってはその一部分を別目的のデータとマージして再利用可能なことがあります。一方、時系列的や空間的、或いは対象物毎にデータをサブセットに分割して管理し、個別にモデルの学習に使用するなどデータの再利用法は様々です。Lightlyの可視化ツールを使用すれば、手動で簡単にデータのクラスタを選択し、データサブセットを作成して個別に名付けて管理することができます。それによりデータ管理の工数を大幅に削減可能です。

データのコラボレーション

既にデータは商品として扱われるほど、貴重なものになっています。様々なプロジェクトやターゲットに向けて、組織内の多くのプレーヤーがその貴重なデータにアクセスすることになります。データを中心にした共有プラットフォームを持つことは、プレーヤーが共通の場所でプロジェクトに取り組めるようになるので、そのエンジニアリングチームの業務の調整と最適化にとってそれは必要不可欠なものとなるのです。またそのようなコラボレーションにより、データ取り扱いプロセスの標準化を組織内で進めることもできます。Lightlyプラットフォームを使用すると組織内でのデータを中心に据えたコラボレーションが可能になります。