「箱の中」を考える:RayとDatabricksで解くビンパッキング問題
序章 ビンパッキング問題は、業界を問わず企業組織に広範な影響を及ぼす古典的な最適化の課題です。この問題の核心は、有限の数のコンテナや「ビン」に一連のオブジェクトを最も効率的に詰め込む方法を見つけることで、目標は無駄なスペースを最小限に抑えることです。 この課題は、実世界のアプリケーションで広く見られます。例えば、出荷や物流の最適化、データセンターやクラウドコンピューティング環境でのリソースの効率的な割り当てなどです。組織はしばしば大量のアイテムやコンテナを扱うため、最適なパッキングソリューションを見つけることで、大幅なコスト削減と運用効率の向上を実現できます。 10Bドル規模の先進的な産業機器メーカーにとって、ビンパッキングは供給チェーンの重要な一部です。この会社では、購入した部品を詰めてもらうために、コンテナをベンダーに送ることが一般的です。これらの部品は、重機や車両の製造プロセスで使用されます。供給チェーンの複雑さが増し、生産目標が変動する中で、パッケージングエンジニアリングチームは、組み立てラインに適切な数
製造業における洞察:低レイテンシーのセンサーデータでのストリーミング積分の計算
データエンジニアは、複雑でノイズの多いデータから洞察を引き出すために、数学と統計学に頼っています。 最も重要な領域は微積分です。微積分では、積分(最も一般的には曲線下の面積を計算するこ と)が得られます。 これは、レートを表す多くのデータを統合して有用な測定値を生成できるため、エンジニアにとって便利です。 例えば ポイント・イン・タイムのセンサーの測定値は、一度統合されると、 時間加重平均 を生成することができます。 車両速度の積分は、 移動距離 の計算に使用できます。 データ転送量 は、ネットワーク転送速度を統合したものです。 もちろん、ほとんどの生徒はある時点で積分の計算方法を学びますし、計算自体もバッチで静的なデータでは簡単です。 しかし、機器のパフォーマンスしきい値に基づくアラートの設定や、ロジスティクスのユースケースにおける異常の検出など、ビジネス価値を実現するために低レイテンシーで増分的な積分計算を必要とする一般的なエンジニアリングパターンがあります。 ポイント・イン・タイム測定: 計算に使用される積分
MapInPandasとDelta Live Tablesで一般的でないファイル形式を大規模に処理する
翻訳:Junichi Maruyama. - Original Blog Link 様々なファイル形式 最新のデータエンジニアリングの世界では、 Databricks Lakehouse Platform は信頼性の高いストリーミングおよびバッチ data pipelines の構築プロセスを簡素化します。しかし、曖昧なファイル形式や一般的でないファイル形式を扱うことは、Lakehouseへのデータ取り込みにおいて依然として課題となっています。データを提供する上流のチームは、データの保存と送信方法を決定するため、組織によって標準が異なります。例えば、データエンジニアは、スキーマの解釈が自由なCSVや、ファイル名に拡張子がないファイル、独自のフォーマットでカスタムリーダーが必要なファイルなどを扱わなければならないことがあります。このデータをParquetで取得できないかとリクエストするだけで問題が解決することもあれば、パフォーマンスの高いパイプラインを構築するために、よりクリエイティブなアプローチが必要になることも