Web3を提供しています。 Web2 のデータ。スケール |台帳

プラトン再発行

フォロワー： 0

大規模なユーザーベースに信頼性が高く、一貫性があり、遅延が少ないデータを提供することは、どのバックエンドチームにとっても非常に困難な課題です。 Ledger では、独自のブロックチェーンコアデータサービスをホストするという戦略的な選択をしました。サードパーティに依存しないことで、当社はクライアントのデータを自社で管理し、基盤となるプロセスが当社のセキュリティガイドラインとパフォーマンス指向のサービスレベル目標 (SLO) に確実に準拠していることを確認できます。

しかし、この戦略には独自の課題も伴います。

私たちの最初の課題は、これらのコアなデータ提供サービスをクールで光沢のある noSQL ツールから移行することです。この記事では、なぜこの難しい決断を下したのか、直面した複雑さ、そして得られたメリットについて詳しく説明します。

この記事の目的は、ブロックチェーンデータの新しいベースラインストレージレイヤーとして PostgreSQL を選択するに至った技術的側面を示すことです。

ブロックチェーンデータの詳細

ブロックチェーンデータにはいくつかの重要な特徴があります。

第一に、それは常に成長し続けており、そこから何も削除されることはありません。ただし実際には、ブロックチェーンの大部分は不変ですが、ブロックチェーンの最も新しい部分は、解決する必要がある競合により変更される可能性があります。実際、チェーンはピアツーピアネットワークであるため、いくつかの正当なブロックが一時的に共存する可能性があります。通常、古いものが削除され、いわゆる再編成が行われます。 簡単に言うと、データは不変のコールドテールとほとんど変化しないヘッド状態に分割されます。

私たちが解決しようとしている問題は、ブロックチェーンはビザンチンフォールトトレラントなデータを保持するのには優れているものの、多くの軸でデータをスライスしたりダイスしたりするのにはあまり効果的ではないということです。つまり、アカウントに影響を与えた操作のリストを取得することは非常に困難です。トランザクションのリストをまだ持っていない場合、ビットコインのようなブロックチェーン上のアカウント残高を取得することさえ困難です。

これらの課題を克服するために、Ledger Explorer Services はブロックチェーン全体のインデックスを作成します。これは、完全に Scala で書かれた大規模で重要なパフォーマンス重視のサービスであり、猫効果高性能ランタイム。テール p10 レイテンシーを 95 ミリ秒未満に維持しながら、ビットコインでは 100 rps を超えています。募集も行っております 😊。

歴史の少し

私が入社するずっと前の話の始まりでは、Ledger データサービス層は組み込みの Neo4j データベースによって処理されていました。各サービングボックスは独自のデータにインデックスを付けてローカルで提供していたため、多くの問題が発生しました。

インスタンス間のデータの一貫性は保証されておらず、neo4j のディスクと RAM の使用量を考慮すると、インデックスを作成する必要がある状態のサイズが非常に大きく、スケーラブルではありませんでした。この問題は会社が成長するにつれて悪化するばかりで、新しいインスタンスを生成することがますます困難になってきました。

カサンドラ 次に、この新しいセットアップの主な推進要因として選択されました。これは、CAP 定理の AP 側にある、クラスター化された水平方向にスケーラブルなデータベースです。これにより、データ共有に関連する問題が解決され、インデックス作成、ブロックチェーン対応コンポーネントとヘッドレス API サーバーの間の明確な分離が可能になります。

しかし、実際に読み取るつもりがないのであれば、歴史的状態全体を利用できるようにすることに何の意味があるのでしょうか?

私たちのユースケースに関しては、ユーザーのアカウントの状態をそこから集約できるため、生の履歴データが必要になることはほとんどありません。これにより、Cassandra 分散データベースをベースとした既存のデータストレージソリューションに挑戦することになりました。

ブロックチェーンごとに保存する必要があるデータの量は、テラバイトの範囲ではありますが、「ビッグデータ」と呼べるものではありません。さらに、ほとんどのクエリに答えるために使用される if の部分 (別名ホットパス) はさらに小さくなります。現在では、16 TB を超える NVMe SSD ストレージを備えた汎用ハードウェアサーバーを簡単に見つけることができます。垂直スケーリングは非常に強力なツールであり、リレーショナルデータベースも同様です。

最後に、現在の cassandra セットアップで私たちが抱えていた主な問題は、無駄なストレージモデルでも、適切に適合していないデータユースケースでもなく、開発者へのフレンドリーさの欠如でした。 cassandra での新しいデータベースの機能の開発には、不必要に時間がかかることがわかっています。私たちは、データを提供する必要がある新しい軸をそれぞれ実装することに努めました。

データモデリングスキルと SQL の熟練度に関する当社チームの専門知識を考慮すると、 PostgreSQL 完璧な候補者でした。このソリューションは実戦でテストされており、堅牢で拡張が容易であるため、理想的な選択肢となります。

NoSQL ではなく SQL を選択した理由:

読み取り/書き込みバランス: ブロックチェーンデータのユースケースは、書き込みではなく読み取りに大きく偏っています (Polygon のようなブロックチェーンであっても、ブロックチェーンは非常に合理的な速度でごくわずかなデータを書き込みます)。 Cassandra は、非常に大量の書き込みを吸収する能力を備えています。読み取りパスは実際には より長いです 書き込みパスよりも。
インデックス作成のサポート: インデックスは、クエリや新しいビジネスケースや機会に答えるための DBMS の重要なコンポーネントです。 Cassandra のインデックス作成のサポートは限定的です。インデックスは、クエリが実行されるパーティションを制限する方法がクエリですでに指定されている場合にのみ有効です。私たちはここで費用を支払います 任意に分散 データベース。 PostgreSQL のインデックスのサポートは効率的で拡張可能で、エッジにあります。
集約のサポート: 集計についても同様です。 Cassandra はマルチパーティションの集約を許可せず、クエリ言語で GROUP BY 句を許容しないため、サポートが不足しています。 PostgreSQL は、範囲や jsonb BLOB などの特殊なデータ型でも、広範な集計サポートを提案しています。
データモデリング: Cassandra は、データモデリングを可能にする方法が非常に制限されています。応答したいほぼすべてのリクエストに対してテーブルを作成する必要があり、データを大きな行に非正規化する必要があります ( ワイドコラムストア C* の側面と、ライターが非常に安価であるという事実)。 PostgreSQL を使用すると、ブロックチェーンのリレーショナルな側面 (呼び出し、トランザクション、ブロック) と予備のディスク領域を活用でき、データの再利用が促進されます。
アドホッククエリと監査: SQL の完全な標準を使用して任意のクエリを実行できるということは、潜在的なバグの根本原因を探索して検索したり、将来のユースケースに備えた探索的なデータを取得したりできることを意味します。データベースを単なるストレージではなく、インタラクティブでスマートなツールとして実際に使用できます。 Presto、Spark などの大規模でコストのかかる分析コンピューティングクラスターを使用せずに Cassandra 上でこれを実行します (また、ベアメタルサーバー上で実行しているため、EMR などの簡単に生成される分散データ分析ツールにアクセスできません)。
ストレージの使用状況: Cassandra は、ストレージが非常に安価で、クラスターは新しいマシンで簡単に拡張できると想定しています。つまり、 インデックスと集計の両方に対するすべての制限は、ストレージで支払う必要があります。。グローバルに効率的なインデックスと結合のサポートがないため、クエリを実行する軸ごとにテーブル全体のコピーを非正規化して保存する必要があります。 PostgreSQL により、テラバイト規模のストレージが節約されます。
一貫性: Cassandra は分散型の AP 指向のデータベースであるため (通信はノード間のゴシップで行われます)、一貫性は書き込みに関しては最終的にのみ発生します。読み取りと書き込みの両方について各ステートメントの一貫性ポリシーを調整できますが、このデータベースの目標は強い一貫性を持つことではありませんでした。 PostgreSQL には重要なミッションに使用されてきたという強い歴史があり、復元力が非常に優れています。集中化されているということは、書き込みパスにネットワークが関与していないことも意味します。
トランザクションとMVCC:
- トランザクション: Cassandra がサポート軽量トランザクションのみ DML クエリについて。一部のバッチ処理を適用できます (DOC) ただし、多くの注意点があります。つまり、ひどいパフォーマンスを発生させないためには、行が同じサーバー (= パーティション) 内に存在する必要があるということです。
- MVCC: Cassandra は行タイムスタンプをサポートしていますが、完全な MVCC は保証されていません。コンパクションによって古いデータが消去される可能性がありますが、それを消去すべきではないことを C* に伝える方法はありません (PG のトランザクションなど)。
- PostgreSQL は、ユーザーに一貫した読み取りパスを保証する強力な MVCC モデルをサポートしています。
ツーリング: PostgreSQL には、データベースを簡単に操作するために広く使用されているツールが他にもたくさんあります。さらに、次のようなツールフライウェイこれにより、データベーススキーマの強力なバージョン管理が維持されます。すでにコードベースと正常に統合されています。 Cassandra には、このレベルの成熟度に匹敵するものはありません。
水平方向のスケーラビリティ: これが Cassandra の重要なセールスポイントです。データが拡大するにつれてマシンを追加するだけです。シャーディングとパーティショニングは手動で行う必要があるため、PostgreSQL に相当するものはありません。

スケールをどのように計画するか

これまで見てきたように、Postgres セットアップを使用する唯一の欠点は、読み取りとストレージの両方でのスケーリングです。この制限を克服するにはどうすればよいでしょうか?

私たちが持つ最初の効果的なツールは、サポートするすべてのプロトコルまたはブロックチェーンを独自のデータベースに分離することです。これにより、ボリュームとトラフィックを考慮して適切に拡張できるようになります。ビジネスドメインごとにセグメント化することで、スケーリングの最初のレイヤーが保証されます。

この概念をさらに進めることで、コールドな履歴データを時間的なパーティションにセグメント化することもできます。 Postgres の最新バージョンでは、パーティション分割テーブルの使いやすさが大幅に向上しており、マシンのクラスタ間でデータをシームレスに移動できるようになります。たとえば、計算能力の低い安価なマシンを使用して履歴データの大部分をホストしながら、集約されたテーブルとユーザーの最新の操作をホストするために、ユーザーに提供する RAM を積み重ねた巨大な巨大マシンを維持することができます。

履歴ストレージにはパーティション間の外部キーがない (最終的にはすべてがブロックにアタッチされる) ため、このアプローチはこのユースケースでは非常にうまく機能します。メインサーバーの観点から見ると、パーティショニングと postgres_fdw 拡張機能を使用して履歴データに透過的にアクセスすることもできます。

これらすべてを適切に導入するために、TimescaleDB 拡張機能も検討しました。この拡張機能はベースライン postgres に多くの機能を追加し、そのほとんどが私たちのユースケースに完璧に適合します。

列のような時間に基づいてテーブルを自動的に分割します (この例では、ブロックチェーンの高さを基準にして調整しています)。
データ型を認識し、古いチャンクを列ベースで自動的に圧縮します。これにより、非常に類似したデータに対して最先端のアルゴリズムを使用することにより、ほぼ完璧な圧縮率が保証されます。
効率的なタイムバケットベースの集計により、過去の残高や市場データのグラフを簡単に計算できます。

私たちはストレージに関する実験を始めたばかりで、これにより多くのユースケースが開かれます。少量のデータを使用した概念実証 (イーサリアムメインネット上の約 10 ブロック、つまり約 2 日分のデータ) ディスク容量が 40% も削減されたことがわかりました.

これまで見てきたように、適切な戦略を使用すれば、データ量は問題になりません。 しかし、ユーザーベースの規模に応じてどのように拡張するのでしょうか?

ここでは、ブロックチェーンデータ全体にインデックスを付けるという優れた利点がすでにあります。したがって、必要なストレージはユーザーの数のように増加するのではなく、ブロックチェーンの合計サイズのように増加します。ストレージと読み取りの最適化は、解決策において完全に直交しています。

この設定は、処理する必要がある読み取り量に比例して書き込みの必要性が非常に低いことと相まって、クラス分けリーダー/フォロワーレプリカパターンにとって夢のような設定です。パフォーマンスとスループットをさらに向上させるために、API サーバーと同じマシンに postgres リードレプリカを配置し、UNIX ドメインソケットを利用してネットワークの往復をスキップすることもできます。

以下は、読み取りをスケールするために使用できるデータレプリケーション戦略の例です。明るい灰色のボックスは単一サーバーを表します。ここでは、ストレージとユーザー間の転送時間を最小限に抑えるために、API ポッドが最もホットなデータのレプリカと直接同じ場所に配置されていることがわかります。前に説明したアーカイブインスタンスは、スキーマが複雑になりすぎないように表されていません。

結論

Cassandra の長期ユーザーとして、Cassandra がさまざまなアプリケーションに適した設計の優れたデータベースであることを強調したいと思います。残念ながら、Ledger でそれを使用するという選択は、決して実現しなかったデータのユースケースに基づいて行われました。

私たちのチームの生産性は影響を受けましたが、解決しなければならない課題を見据えて、サンクコストの誤謬に陥らないように、全力で取り組むことを選択しました。

多くの場合、データはビッグデータではありません。ほとんどの場合、データ分散の管理は難しい作業ではありませんが、本格的な分散データベースのトレードオフについては、慎重に検討する必要があります。重要な考慮事項は、他のものを構築するために貴重な時間を解放するための開発者エクスペリエンスです。これは、多額の投資が必要な実際のユースケースです。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
未来を鋳造する w エイドリエン・アシュリー。こちらからアクセスしてください。
PREIPO® を使用して PRE-IPO 企業の株式を売買します。こちらからアクセスしてください。
情報源： https://www.ledger.com/blog/serving-web3-at-web2-scale

タイムスタンプ： 2023 年 5 月 4 日

タイムスタンプ： 2023 年 5 月 16 日

プラトン再発行

自己主権のアイデンティティでインターネットを再配線する

ETH ステーキングが簡単かつ安全に: Kiln が Ledger Live に参加

資産をスタイルで保護：NanoXおよびSPlusの色がここにあります

元帳とCoinbaseが力を合わせる：Coinbase Walletは、究極のセキュリティのための元帳サポートを追加します

Ledger AppsCatalogですべての暗号サービスへの安全なゲートウェイになる

Cronos、Fantom、Moonbeam、Songbird が Ledger Live に登場

「LedgerConnect」ブラウザ拡張機能が間もなく登場：ベータ版にサインアップしてください！

ブラックフライデー 2022: 元帳を購入すると、30 ドルのビットコインを獲得できます

ビットコインをどこで使うのですか？

ブーバのミュージックビデオとNFTのセキュリティについて | 元帳

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー