درک معماری On-Premise Data Lakehouse


در چشم‌انداز بانکداری مبتنی بر داده‌های امروزی، توانایی مدیریت کارآمد و تجزیه و تحلیل حجم وسیعی از داده‌ها برای حفظ مزیت رقابتی بسیار مهم است. این خانه دریاچه داده یک مفهوم انقلابی را ارائه می دهد که نحوه رویکرد ما به مدیریت داده در بخش مالی را تغییر می دهد. این معماری نوآورانه ترکیبی از بهترین ویژگی های انبارهای داده و دریاچه های داده. این پلت فرم یکپارچه برای ذخیره، پردازش و تجزیه و تحلیل داده های ساختاریافته و بدون ساختار فراهم می کند و آن را به یک دارایی ارزشمند برای بانک هایی تبدیل می کند که به دنبال استفاده از داده های خود برای تصمیم گیری استراتژیک هستند.

سفر به خانه‌های دریاچه‌ای از نظر طبیعت تکاملی بوده است. انبارهای داده سنتی مدت‌هاست که ستون فقرات تجزیه و تحلیل بانکی بوده و ذخیره‌سازی ساختار یافته داده و عملکرد سریع پرس و جو را ارائه می‌دهند. با این حال، با انفجار اخیر داده‌های بدون ساختار از منابعی از جمله رسانه‌های اجتماعی، تعامل با مشتری و دستگاه‌های IoT، دریاچه‌های داده به عنوان یک راه‌حل معاصر برای ذخیره‌سازی مقادیر زیادی از داده‌های خام ظاهر شدند.

Lakehouse داده گام بعدی در این تکامل را نشان می دهد و شکاف بین انبارهای داده و دریاچه های داده را پر می کند. برای بانک‌هایی مانند Akbank، این بدان معناست که ما اکنون می‌توانیم از مزایای هر دو دنیا بهره ببریم – ساختار و عملکرد انبارهای داده، و انعطاف‌پذیری و مقیاس‌پذیری دریاچه‌های داده.

معماری ترکیبی

دریاچه داده در هسته خود، نقاط قوت دریاچه های داده و انبارهای داده را ادغام می کند. این رویکرد ترکیبی به بانک‌ها اجازه می‌دهد تا مقادیر انبوهی از داده‌های خام را ذخیره کنند و در عین حال توانایی انجام پرس‌وجوهای پیچیده و سریع معمولی انبارهای داده را حفظ کنند.

بستر داده یکپارچه

یکی از مهم ترین مزایای یک خانه داده، توانایی آن در ترکیب داده های ساختاریافته و بدون ساختار در یک پلت فرم واحد است. برای بانک‌ها، این بدان معناست که ما می‌توانیم داده‌های تراکنش سنتی را در کنار داده‌های ساختار نیافته از تعامل با مشتری تجزیه و تحلیل کنیم و دید جامع‌تری از کسب‌وکار و مشتریان خود ارائه کنیم.

ویژگی ها و مزایای کلیدی

Lakehouse های داده چندین مزیت کلیدی را ارائه می دهند که به ویژه در بخش بانکداری ارزشمند هستند.

مقیاس پذیری

همانطور که حجم داده‌های ما افزایش می‌یابد، معماری Lakehouse به راحتی می‌تواند برای سازگاری با این رشد مقیاس شود. این در بانکداری بسیار مهم است، جایی که ما دائماً در حال جمع آوری مقادیر زیادی از داده های تراکنش و مشتری هستیم. Lakehouse به ما این امکان را می دهد که قابلیت های ذخیره سازی و پردازش خود را بدون ایجاد اختلال در عملیات موجود خود گسترش دهیم.

انعطاف پذیری

ما می‌توانیم انواع داده‌ها را از سوابق تراکنش گرفته تا ایمیل‌های مشتری ذخیره و تجزیه و تحلیل کنیم. این انعطاف‌پذیری در محیط بانکی امروزی بسیار ارزشمند است، جایی که داده‌های بدون ساختار از رسانه‌های اجتماعی، تعاملات خدمات مشتری و سایر منابع می‌توانند بینش‌های غنی را در صورت ترکیب با داده‌های ساخت‌یافته سنتی ارائه دهند.

تجزیه و تحلیل زمان واقعی

این برای تشخیص تقلب، ارزیابی ریسک و تجربیات شخصی مشتری بسیار مهم است. در بانکداری، توانایی تجزیه و تحلیل داده ها در زمان واقعی می تواند به معنای تفاوت بین توقف یک تراکنش تقلبی و از دست دادن میلیون ها باشد. همچنین به ما این امکان را می دهد که خدمات شخصی سازی شده ارائه دهیم و در چند ثانیه در مورد تاییدیه وام یا توصیه های سرمایه گذاری تصمیم گیری کنیم.

مقرون به صرفه بودن

با ادغام زیرساخت های داده خود، می توانیم هزینه های کلی را کاهش دهیم. به جای حفظ سیستم‌های جداگانه برای انبار داده‌ها و تجزیه و تحلیل داده‌های بزرگ، یک خانه داده به ما اجازه می‌دهد این توابع را ترکیب کنیم. این نه تنها هزینه‌های سخت‌افزاری و نرم‌افزاری را کاهش می‌دهد، بلکه زیرساخت فناوری اطلاعات ما را نیز ساده می‌کند و منجر به کاهش هزینه‌های نگهداری و عملیاتی می‌شود.

حاکمیت داده

توانایی پیشرفته برای پیاده سازی قوی حاکمیت داده شیوه ها، در صنعت بسیار تحت نظارت ما بسیار مهم است. ماهیت یکپارچه دیتا لیک‌هوس، اعمال کیفیت داده‌ها، امنیت و معیارهای حفظ حریم خصوصی را در همه داده‌های ما آسان‌تر می‌کند. این امر به ویژه در بانکداری مهم است، جایی که ما باید از مقررات سختگیرانه ای پیروی کنیم GDPR، PSD2و مقررات مختلف بانکداری ملی.

معماری Lakehouse داده On-Premise

Lakehouse داده داخلی یک معماری Lakehouse داده است که به جای ابر، در مراکز داده خود سازمان پیاده سازی شده است. برای بسیاری از بانک‌ها، از جمله Akbank، انتخاب یک راه‌حل داخلی اغلب ناشی از الزامات نظارتی، نگرانی‌های مربوط به حاکمیت داده‌ها و نیاز به کنترل کامل بر زیرساخت داده ما است.

اجزای اصلی

یک Lakehouse داده در محل معمولاً از چهار جزء اصلی تشکیل شده است:

  • لایه ذخیره سازی داده ها
  • لایه پردازش داده
  • مدیریت فراداده
  • امنیت و حاکمیت

هر یک از این مؤلفه ها نقش مهمی در ایجاد یک سیستم مدیریت داده قوی، کارآمد و ایمن دارند.

لایه ذخیره سازی داده ها

لایه ذخیره سازی پایه و اساس یک خانه داده در محل است. ما از ترکیبی از سیستم فایل توزیع شده Hadoop (HDFS) و راه حل های ذخیره سازی اشیا برای مدیریت مخازن عظیم داده ما. برای داده های ساختاریافته، مانند اطلاعات حساب مشتری و سوابق تراکنش، از اهرم استفاده می کنیم کوه یخ آپاچی. این قالب جدول باز عملکرد عالی را برای پرس و جو و به روز رسانی مجموعه داده های بزرگ ارائه می دهد. برای داده‌های پویاتر خود، مانند گزارش‌های تراکنش بلادرنگ، از آن استفاده می‌کنیم آپاچی هودی، که امکان بالا بردن و پردازش افزایشی را فراهم می کند.

لایه پردازش داده

لایه پردازش داده جایی است که جادو اتفاق می افتد. ما ترکیبی از پردازش دسته ای و بلادرنگ را برای رسیدگی به نیازهای داده های متنوع خود به کار می گیریم.

برای فرآیندهای ETL، از Informatica PowerCenter استفاده می کنیم که به ما امکان می دهد داده ها را از منابع مختلف در سراسر بانک یکپارچه کنیم. ما همچنین شروع به ترکیب کرده ایم dbt (ابزار ساخت داده) برای تبدیل داده ها در انبار داده ما.

آپاچی اسپارک نقش مهمی در پردازش کلان داده ما ایفا می کند و به ما امکان می دهد تجزیه و تحلیل های پیچیده ای را روی مجموعه داده های بزرگ انجام دهیم. برای پردازش بی‌درنگ، به‌ویژه برای کشف تقلب و بینش‌های بی‌درنگ مشتری، از ما استفاده می‌کنیم آپاچی فلینک.

پرس و جو و تجزیه و تحلیل

برای اینکه دانشمندان و تحلیلگران داده ما بتوانند بینش هایی را از خانه دریاچه داده ما به دست آورند، ما پیاده سازی کرده ایم ترینو برای پرس و جو تعاملی این اجازه می دهد تا درخواست های سریع SQL را در کل دریاچه داده ما، صرف نظر از جایی که داده ها ذخیره می شود، انجام دهیم.

مدیریت فراداده

مدیریت موثر ابرداده برای حفظ نظم در خانه داده ما بسیار مهم است. استفاده می کنیم متاستور آپاچی Hive در ارتباط با Apache Iceberg برای فهرست و فهرست بندی داده های ما. ما نیز اجرا کرده ایم آموندسن، موتور ابرداده منبع باز LinkedIn، برای کمک به تیم داده ما در کشف و درک داده های موجود در خانه دریاچه ما.

امنیت و حکومت

در بخش بانکی، امنیت و حاکمیت در اولویت قرار دارند. استفاده می کنیم آپاچی رنجر برای کنترل دسترسی و حفظ حریم خصوصی داده ها، اطمینان از اینکه داده های حساس مشتری فقط برای پرسنل مجاز قابل دسترسی است. برای اصل و نسب داده ها و ممیزی، ما اجرا کرده ایم آپاچی اطلس، که به ما کمک می کند جریان داده ها را از طریق سیستم های خود ردیابی کنیم و با الزامات قانونی مطابقت کنیم.

الزامات زیرساخت

اجرای یک خانه داده در محل مستلزم سرمایه گذاری زیرساختی قابل توجهی است. در Akbank، ما مجبور شده‌ایم سخت‌افزار خود را ارتقا دهیم تا بتوانیم نیازهای افزایش ذخیره‌سازی و پردازش را برطرف کنیم. این شامل سرورهای با کارایی بالا، تجهیزات شبکه قوی و راه حل های ذخیره سازی مقیاس پذیر بود.

ادغام با سیستم های موجود

یکی از چالش های کلیدی ما یکپارچه سازی دیتا لیک هاوس با سیستم های موجود ما بود. ما یک استراتژی مهاجرت مرحله‌ای را توسعه دادیم و به تدریج داده‌ها و فرآیندها را از سیستم‌های قدیمی خود به معماری جدید منتقل کردیم. این رویکرد به ما این امکان را داد که در حین انتقال به سیستم جدید، تداوم کسب و کار را حفظ کنیم.

عملکرد و مقیاس پذیری

حصول اطمینان از عملکرد بالا با رشد داده های ما، تمرکز اصلی بوده است. ما استراتژی های پارتیشن بندی داده ها را پیاده سازی کرده ایم و موتورهای پرس و جو خود را بهینه سازی کرده ایم تا زمان پاسخگویی سریع به پرس و جو را حتی با افزایش حجم داده هایمان حفظ کنیم.

در سفر خود برای پیاده سازی یک خانه داده در محل، با چندین چالش مواجه شده ایم:

  • مسائل یکپارچه سازی داده ها، به ویژه با سیستم های قدیمی
  • حفظ عملکرد با افزایش حجم داده ها
  • تضمین کیفیت داده ها در منابع مختلف داده
  • آموزش تیم ما در مورد فن آوری ها و فرآیندهای جدید

بهترین شیوه ها

در اینجا برخی از بهترین شیوه هایی که اتخاذ کرده ایم آورده شده است:

  • از ابتدا حاکمیت داده قوی را اجرا کنید
  • روی ابزارها و فرآیندهای کیفیت داده سرمایه گذاری کنید
  • آموزش جامعی برای تیم خود ارائه دهید
  • قبل از اجرای کامل، با یک پروژه آزمایشی شروع کنید
  • به طور منظم معماری خود را بررسی و بهینه سازی کنید

با نگاهی به آینده، شاهد چندین روند هیجان انگیز در فضای دریاچه داده هستیم:

  • افزایش پذیرش هوش مصنوعی و یادگیری ماشین برای مدیریت داده و تجزیه و تحلیل
  • ادغام بیشتر از محاسبات لبه با خانه های دریاچه داده
  • اتوماسیون پیشرفته در حاکمیت داده و مدیریت کیفیت
  • ادامه تکامل فن‌آوری‌های منبع باز که از معماری‌های lakehouse داده پشتیبانی می‌کنند

Lakehouse داده‌های داخلی نشان‌دهنده یک جهش به جلو در مدیریت داده‌ها برای بخش بانکداری است. در Akbank به ما این امکان را داده است که زیرساخت داده خود را یکپارچه کنیم، توانایی های تحلیلی خود را افزایش دهیم و بالاترین استانداردهای امنیت و حاکمیت داده را حفظ کنیم.

همانطور که ما به حرکت در چشم انداز دائماً در حال تغییر فناوری بانکداری ادامه می دهیم، خانه دریاچه داده بدون شک نقش مهمی در توانایی ما برای استفاده از داده ها برای مزیت استراتژیک ایفا خواهد کرد. برای بانک هایی که به دنبال رقابت در عرصه دیجیتال هستند سن، توجه جدی به معماری lakehouse داده – چه در محل و چه در فضای ابری – دیگر اختیاری نیست، ضروری است.



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *