هادوپ يك پروژه مبتني بر برنامهنویسی متن باز است كه توسط سازمان نرمافزاری آپاچي ايجاد شده است. ايده اوليه هادوپ اولين بار در شركت گوگل رقم خورد اما خیلیها باور به پیادهسازی اين سيستم نداشتند و در چند سال اول اين ايده تنها به صورت نظریه مطرح بود. هادوپ امكان ذخیرهسازی اطلاعات را در چندين سرور ( پي سي) با هزینهای پايين فراهم میآورد.
كلودرا شركتي است كه به صورت فعال در اين زمينه فعال هست و بسته نرمافزاری بینظیر هادوپ را ايجاد كرده و آن را انتشار داده و پشتيباني میکند.
تكنولوژي هاادوپ از دو بخش کلی زیر تشکیل می شود :
1- HDFS یا سیستم فایل توزیع شده هدوپ(Hadoop Distribition File System)
2- همچنين تكنيك باکیفیت پردازي اطلاعات به نام مپ ريديوس (MapReduce)
هدوپ از 4 قسمت زیر تشکیلشده است :
1- hadoop cammon : امکاناتی برای پشتیبانی از ماژولهای دیگر هدوپ
2- hadoop YARN : چهارچوبی برای مدیریت clustering
3- Hadoop MapReduce : سیستمی برای پردازش موازی از دادههای بزرگ
4- HDFS : سیستم توزیعشده فایل ها که دسترسی به دادههای نرمافزار را با توان بالا فراهم میکند
ساختار كلي اطلاعاتي در هادوپ بدین گونه هست كه اطلاعات توسط سيستم هادوپ شكسته شده و به چندين سرور فرستاده میشود. سرورها بسته به نوع اطلاعات كه ممكن است پردازشي يا ذخیرهای باشد اطلاعات را پردازش يا ذخیرهسازی میکنند. در هنگام در خواست اطلاعات مجدد سيستم اطلاعات را از سرورهای مختلف گرفته ، مونتاژ كرده و در خروجي نمايش میدهد.
خوبي اين سيستم تهيه نسخه پشتيبان از اطلاعات به صورت خودكار است. هر تكه از اطلاعات در چندين قسمت ( سرور ) ذخيره میشود و در صورت آسيب ديدن يكي از سرورها ، سرور ديگر قادر است مسؤوليت را برعهدهگرفته و اطلاعات مورد نظر را جايگزين كند