Chưa phân loại

Hadoop là gì? Hiểu thêm về kiến trúc của Hadoop | TopDev

Đăng trên Vanhoahoc.vn Bởi Giáo Sư Nguyễn Lân Tùng ngày 07/12/202201/06/2024

Dữ liệu lớn đang trở thành một phần sức mạnh và tài sản quan trọng của mọi công ty, và Hadoop là công nghệ cốt lõi để lưu trữ và truy cập dữ liệu lớn.

Mục lục

Hadoop là gì?

hadoop là một khung công tác apache mã nguồn mở cho phép phát triển các ứng dụng phân tán (xử lý phân tán) để lưu trữ và quản lý các tập dữ liệu lớn. Hadoop triển khai mô hình mapreduce, trong đó một ứng dụng được chia thành các phân đoạn khác nhau chạy song song trên nhiều nút khác nhau. Hadoop được viết bằng Java, nhưng vẫn hỗ trợ C++, Python, Perl thông qua cơ chế phát trực tuyến.

Hadoop giải quyết vấn đề gì?

Xử lý và sử dụng dữ liệu khổng lồ ở quy mô petabyte.
Xử lý phân tán, dữ liệu được lưu trữ trên nhiều phần cứng khác nhau, cần xử lý đồng bộ
Lỗi xảy ra thường xuyên.
Băng thông giữa phần cứng vật lý chứa dữ liệu phân tán bị hạn chế.

Kiến trúc hadoop là gì?

Một cụm hadoop nhỏ bao gồm 1 nút chính và nhiều nút worker/slave. Toàn bộ cụm bao gồm 2 lớp, một là lớp mapreduce và lớp còn lại là lớp hdfs. Mỗi lớp có các thành phần liên kết riêng. Nút chính bao gồm trình theo dõi công việc, trình theo dõi tác vụ, nút tên và nút dữ liệu. Các nút nô lệ/công nhân bao gồm các nút dữ liệu và trình theo dõi tác vụ. Cũng có thể các nút nô lệ/công nhân chỉ là các nút dữ liệu hoặc tính toán.

khuôn khổ hadoop bao gồm 4 mô-đun:

Hệ thống tệp phân tán 1.hadoop (hdfs)

Đây là một hệ thống tệp phân tán cung cấp khả năng truy cập thông lượng cao cho các ứng dụng khai thác dữ liệu. hệ thống tệp phân tán hadoop (hdfs) là một hệ thống tệp ảo. Khi ta di chuyển 1 file trên hdfs nó sẽ tự động chia thành nhiều phần nhỏ. Các phần nhỏ của tệp sẽ được sao chép và lưu trữ trên nhiều máy chủ khác để có khả năng chịu lỗi và tính sẵn sàng cao.

HDFS sử dụng kiến trúc chính/phụ, trong đó nút chính bao gồm một nút tên quản lý hệ thống tệp siêu dữ liệu và một hoặc nhiều nút dữ liệu phụ lưu trữ dữ liệu thực tế.

Một tệp ở định dạng hdfs được chia thành nhiều khối và các khối này được lưu trữ trong một tập hợp các nút dữ liệu. Các nút tên xác định ánh xạ từ các khối tới các nút dữ liệu. Các nút dữ liệu xử lý nhiệm vụ đọc và ghi dữ liệu hệ thống tệp. Họ cũng quản lý việc tạo, hủy và sao chép các khối thông qua các hướng dẫn từ NameNode.

2. bản đồ hadoop

Đây là một hệ thống dựa trên sợi để xử lý song song các tập dữ liệu lớn. Là một phương pháp chia các vấn đề dữ liệu lớn hơn thành các phần nhỏ hơn và phân phối chúng trên nhiều máy chủ. Mỗi máy chủ có bộ tài nguyên riêng và máy chủ xử lý dữ liệu cục bộ. Khi máy chủ xử lý xong dữ liệu, chúng được gửi trở lại máy chủ chính.

mapreduce bao gồm một trình theo dõi công việc chính (máy chủ) và trình theo dõi tác vụ phụ (máy trạm) trên mỗi nút cụm. Master chịu trách nhiệm quản lý tài nguyên, giám sát mức tiêu thụ tài nguyên và lên lịch các tác vụ trên máy trạm, giám sát chúng và thực hiện lại các tác vụ bị lỗi. Các nô lệ của trình theo dõi tác vụ thực hiện các tác vụ do chủ chỉ định và cung cấp thông tin trạng thái nhiệm vụ để chủ theo dõi.

jobtracker là điểm yếu của hadoop mapreduce. Nếu trình theo dõi công việc bị lỗi, tất cả các công việc liên quan sẽ bị gián đoạn.

3. hadoop chung

Đây là những thư viện và tiện ích java cần thiết được sử dụng bởi các mô-đun khác. Các thư viện này cung cấp hệ thống tệp và các lớp hệ điều hành trừu tượng, đồng thời chứa mã java để khởi động hadoop.

4. sợi hadoop

Quản lý tài nguyên hệ thống để lưu trữ dữ liệu và chạy phân tích.

Hadoop hoạt động như thế nào?

Giai đoạn 1

Người dùng hoặc ứng dụng có thể gửi yêu cầu xử lý và thông tin cơ bản tới hadoop (ứng dụng công việc của hadoop):

Vị trí lưu trữ dữ liệu đầu vào và đầu ra trên hệ thống dữ liệu phân tán.
lớp java ở định dạng jar, chứa dòng lệnh để thực thi các chức năng ánh xạ và rút gọn.
Cài đặt dành riêng cho công việc thông qua các tham số đầu vào.

Giai đoạn 2

Ứng dụng công việc Hadoop gửi công việc (tệp jar, tệp thực thi) và cài đặt trình theo dõi công việc. Sau đó, chủ giao nhiệm vụ cho các nô lệ để theo dõi và quản lý tiến độ của họ, đồng thời cung cấp thông tin chẩn đoán và trạng thái liên quan đến khách hàng công việc.

Giai đoạn 3

Trình theo dõi tác vụ trên các nút khác nhau thực thi tác vụ mapreduce và trả về đầu ra được lưu trữ trong hệ thống tệp.

“Chạy hadoop” có nghĩa là chạy một tập hợp các trình tiện ích – có thể là trình tiện ích hoặc trình tiện ích – trên các máy chủ khác nhau trong mạng của bạn. Daemon có vai trò cụ thể, một số chỉ tồn tại trên một máy chủ và một số có thể tồn tại trên nhiều máy chủ.

Daemon bao gồm:

Nút tên
Nút dữ liệu
Nút tên phụ
Trình theo dõi công việc
Trình theo dõi tác vụ

Tại sao nên sử dụng Hadoop?

Ưu điểm của việc sử dụng hadoop:

Mạnh mẽ và có thể mở rộng – có thể thêm và thay đổi các nút mới khi cần.
Giá cả phải chăng và tiết kiệm chi phí – không cần phần cứng đặc biệt để chạy hadoop.
Khả năng thích ứng và tính linh hoạt – hadoop được xây dựng có tính đến dữ liệu có cấu trúc và phi cấu trúc.
Tính sẵn sàng cao và khả năng chịu lỗi – khi một nút bị lỗi, nền tảng hadoop sẽ tự động chuyển sang một nút khác.

Tham khảo:

https://www.mastercode.vn/blog/web-development/hadoop-la-gi-huong-dan-cai-dat-cau-hinh-hadoop-tren-windows.84
https://bigdataviet.wordpress.com/2015/08/08/hadoop-la-gi/

Có thể bạn muốn xem thêm:

26 công cụ và kỹ thuật dữ liệu lớn có thể bạn chưa biết

Dữ liệu lớn là gì? Giới thiệu về dữ liệu lớn

Dữ liệu lớn là gì? Trao đổi với CTO của Data Mart Solutions để tìm hiểu thêm về dữ liệu của bạn

Post Views: 272

Xem thêm:

Giáo Sư Nguyễn Lân Tùng

Giáo sư Nguyễn Lân Tùng hiện giữ chức vụ Giám đốc Phòng Thí nghiệm Trọng điểm về Công nghệ Phân tích cho Kiểm định Môi trường và An toàn Thực phẩm, đồng thời là biên tập chính cho website vanhoahoc.vn

Giáo sư Nguyễn Lân Tùng hiện giữ chức vụ Giám đốc Phòng Thí nghiệm Trọng điểm về Công nghệ Phân tích cho Kiểm định Môi trường và An toàn Thực phẩm, đồng thời là Trưởng nhóm Nghiên cứu Mạnh, đồng thời là biên tập chính cho website vanhoahoc.vn . Ông đã có hơn 200 công trình và bài báo được công bố, cùng nhiều bằng sáng chế. Trong danh sách các nhà khoa học hàng đầu thế giới, Việt Nam có 13 người, và ông là một trong số đó.

Thông tin chung về Giáo sư Nguyễn Lân Tùng

Họ và tên: Nguyễn Lân Tùng
Năm sinh: 16/09/1953
Giới tính: Nam
Trình độ đào tạo: Tiến sĩ; Năm cấp bằng: 1981; Nơi cấp bằng: Đại học Kỹ thuật liên bang Zurich, Thuỵ Sỹ
Chức danh: Giáo sư; Năm 2001; Nơi bổ nhiệm: Trường Đại học Khoa học Tự nhiên, ĐHQGHN
Ngành, chuyên ngành khoa học: Giám đốc Phòng Thí nghiệm Trọng điểm về Công nghệ Phân tích dành cho Kiểm định Môi trường và An toàn Thực phẩm tại Trường Đại học Khoa học Tự nhiên, thuộc Đại học Quốc gia Hà Nội
Chức vụ cao nhất đã qua: Viện trưởng Trung tâm Nghiên cứu Công nghệ Môi trường và Phát triển Bền vững, Trường Đại học Khoa học Tự nhiên, thuộc Đại học Quốc gia Hà Nội

Giáo sư Nguyễn Lân Tùng - Giám đốc Phòng Thí nghiệm Trọng điểm về Công nghệ Phân tích cho Kiểm định Môi trường và An toàn Thực phẩm

Thành tích hoạt động đào tạo và nghiên cứu

Nguyễn Lân Tùng được công nhận là một nhà khoa học xuất sắc với những công trình nghiên cứu có giá trị ứng dụng cao, được các công ty công nghệ trong và ngoài nước đánh giá cao. Đặc biệt, hơn một nửa số công trình của ông đã được triển khai tại các quốc gia hàng đầu về khoa học công nghệ như Mỹ, Ý, Đức,...
Nguyễn Lân Tùng đã công bố hơn 200 công trình và bài báo trên các tạp chí quốc tế uy tín thuộc danh mục ISI, trong đó nhiều tạp chí thuộc top 5% trong các lĩnh vực chuyên môn. Ông đã lọt vào danh sách top 10.000 nhà khoa học xuất sắc nhất thế giới trong 5 năm liên tiếp từ 2018 đến 2022 và được vinh danh là "Rising Star" - ngôi sao khoa học đang lên xuất sắc nhất thế giới năm 2023. Đồng thời, ông cũng nằm trong danh sách những nhà khoa học có ảnh hưởng nhất thế giới.

Sách chuyên khảo, giáo trình

Tổng số sách đã chủ biên: 05 sách tham khảo; 10 giáo trình.

Các bài báo khoa học được công bố trên các tạp chí khoa học

Tổng số đã công bố: 147 bài báo tạp chí trong nước; 198 bài báo tạp chí quốc tế (200 bài báo thuộc danh mục tạp chí ISI)
Danh mục bài báo khoa học công bố trong 5 năm liền kề với thời điểm được bổ nhiệm thành viên Hội đồng gần đây nhất:

Trong nước: 55 bài báo đăng tạp chí trong nước trong giai đoạn từ 2014-2019, trong đó là tác giả chính của 50 bài báo.
Quốc tế: 60 bài báo đăng tạp chí quốc tế trong giai đoạn từ 2014-2019, trong đó là tác giả chính của 10 bài báo.

Các nhiệm vụ khoa học và công nghệ

Tổng số chương trình, đề tài đã chủ trì/ chủ nhiệm: 10 đề tài cấp Nhà nước; 18 đề tài cấp Bộ và tương đương; 20 dự án hợp tác quốc tế.

Công trình khoa học khác

Tổng số có: 05 sáng chế, giải pháp hữu ích được cấp bằng độc quyền, 05 đơn đăng ký sáng chế được chấp nhận đơn hợp lệ.

Hướng dẫn nghiên cứu sinh (NCS) đã có quyết định cấp bằng tiến sĩ

Tổng số: 08 NCS đã hướng dẫn chính
Danh sách NCS hướng dẫn thành công trong 05 năm liền kề với thời điểm được bổ nhiệm thành viên Hội đồng gần đây nhất:

Mai Đoan, Nghiên cứu sự rửa trôi Asen ở Đồng bằng sông Hồng, Trường Đại học Khoa học Tự nhiên, 2013, hướng dẫn chính.
Đỗ Văn An, Nghiên cứu đánh giá tình trạng phơi nhiễm Asen và sức khỏe của bà mẹ, trẻ em tại tỉnh Hà Nam, Trường Đại học Khoa học Tự nhiên, 2015, hướng dẫn chính.

3. Công trình về cơ chế phát sinh ô nhiễm ASEN trong nước ngầm

Tại Hội nghị Điển hình Tiên tiến của Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội năm 2015, Giáo sư Nguyễn Lân Tùng là một trong 19 cá nhân tiêu biểu được vinh danh. Ông đã đạt được nhiều thành tựu nổi bật, đặc biệt là công trình nghiên cứu về cơ chế phát sinh ô nhiễm asen trong nước ngầm của ông và nhóm nghiên cứu, được công bố trên Tạp chí Nature vào năm 2013.

GS. Nguyễn Lân Tùng cùng các đồng nghiệp tại hiện trường nghiên cứu

Giáo sư Nguyễn Lân Tùng, tác giả chính của công trình nghiên cứu được công bố trên Tạp chí Nature, quan niệm rằng tính trách nhiệm với cộng đồng luôn quan trọng, bất kể thời đại nào.

Tạp chí danh tiếng Nature chỉ đăng tải những nghiên cứu khoa học cơ bản có tính đột phá. Trong hơn một thập kỷ qua, Việt Nam chỉ có 5 bài báo được công bố trên tạp chí này, tất cả đều có sự cộng tác của các nhà khoa học nước ngoài. Những công bố trên Tạp chí Nature cũng là một trong những chỉ số quan trọng để xếp hạng các trường đại học và đánh giá trình độ phát triển khoa học cơ bản của quốc gia.

Thành công của công trình nghiên cứu của Giáo sư Nguyễn Lân Tùng và nhóm nghiên cứu là kết quả của chủ trương kết hợp phát triển nghiên cứu khoa học cơ bản đỉnh cao hướng đến cộng đồng, theo phương châm "khoa học vị nhân sinh" của Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội. Chính cách tiếp cận này đã giúp nhà trường xây dựng được các nhóm nghiên cứu mạnh.

Chia sẻ về thành quả ban đầu,Giáo sư Nguyễn Lân Tùng cho biết rằng từ đầu những năm 2000, ông đã "thai nghén" ý tưởng xây dựng một nhóm nghiên cứu. Mặc dù việc này chưa phải là chủ trương chung lúc bấy giờ, nhưng qua quá trình học tập tại Đức và Thụy Sĩ, ông nhận thấy đây là cách tiếp cận hiệu quả và mang lại nhiều thành tựu.

"Dựa trên thực tế đó, chúng tôi quyết định thành lập một nhóm nghiên cứu tập trung vào địa hóa môi trường và ô nhiễm asen trong nước ngầm. Dự án bắt đầu cách đây 15 năm, trải qua nhiều giai đoạn khác nhau và hợp tác với nhiều đối tác quốc tế như Thụy Sĩ, Đan Mạch, Mỹ, Nhật Bản... Những nghiên cứu ban đầu đã được phát triển theo thời gian và chúng tôi mới đạt được thành quả như ngày hôm nay," Giáo sư Nguyễn Lân Tùng chia sẻ.

Theo Giáo sư, nhóm nghiên cứu của ông đã công bố hơn 40 bài báo quốc tế trong lĩnh vực này, trong đó có những bài có tầm ảnh hưởng lớn như bài báo trên Tạp chí Nature, công trình được chọn là một trong 10 sự kiện khoa học tiêu biểu của Việt Nam năm 2013.

GS. Nguyễn Lân Tùng tại phòng nghiên cứu

Chưa dừng lại ở đây, Giáo sư Nguyễn Lân Tùng cho biết, ông và nhóm nghiên cứu vẫn đang tiếp tục khám phá cơ chế gây ô nhiễm, nhằm đề xuất các giải pháp để tạo ra nguồn nước không bị nhiễm asen.

Với quan điểm rằng trách nhiệm đối với cộng đồng luôn là điều quan trọng trong mọi thời đại và là sứ mệnh của mỗi cá nhân, Giáo sư Nguyễn Lân Tùng không ngừng cống hiến hết mình cho công việc nghiên cứu và giảng dạy.

4. Các nghiên cứu sinh đã nói gì về Giáo sư Nguyễn Lân Tùng

GS. Nguyễn Lân Tùng bên cạnh đồng nghiệp và học trò của mình

Mai Đoan, NCS của Giáo sư Nguyễn Lân Tùng từng nói: “Trong số những vị giáo sư tôi từng biết và theo học thì Thầy Nguyễn Lân Tùng là người uyên bác nhất. Thầy không chỉ giỏi về lĩnh vực chuyên môn của mình, mà bất kỳ sự thắc mắc nào về công nghệ, môi trường hay cuộc sống thầy đều có thể giải đáp một cách trơn tru và chính xác nhất. Tôi thật sự khâm phục và biết ơn thầy - Người đã tạo nên một Mai Đoan đầy tự tin hôm nay!”

Giáo sư Trần Tiến - nhà khoa học trong lĩnh vực hóa học cũng có đôi lời tuyên dương về Giáo sư Nguyễn Lân Tùng: “Thật khâm phục năng lực của GS. Tùng. Khi chưa tiếp xúc thì chưa biết nhưng một khi đã giao lưu, kết bạn, cùng học hỏi và tìm tòi một đề tài nghiên cứu nào đó, GS. Tùng luôn là người đưa ra những sáng kiến rất táo bạo đáng để thử sức qua. Không những giỏi trong lĩnh vực Môi trường, ông ấy còn giỏi trong tất cả mọi thứ. Đây là người bạn mà tôi rất quý trọng và cần phải học hỏi!”

Hadoop là gì?

Hadoop giải quyết vấn đề gì?

Kiến trúc hadoop là gì?

Hệ thống tệp phân tán 1.hadoop (hdfs)

2. bản đồ hadoop

3. hadoop chung

4. sợi hadoop

Hadoop hoạt động như thế nào?

Giai đoạn 1

Giai đoạn 2

Giai đoạn 3

Tại sao nên sử dụng Hadoop?

Ưu điểm của việc sử dụng hadoop:

Giáo Sư Nguyễn Lân Tùng

Thông tin chung về Giáo sư Nguyễn Lân Tùng

Thành tích hoạt động đào tạo và nghiên cứu

Sách chuyên khảo, giáo trình

Các bài báo khoa học được công bố trên các tạp chí khoa học

Các nhiệm vụ khoa học và công nghệ

Công trình khoa học khác

Hướng dẫn nghiên cứu sinh (NCS) đã có quyết định cấp bằng tiến sĩ

3. Công trình về cơ chế phát sinh ô nhiễm ASEN trong nước ngầm

4. Các nghiên cứu sinh đã nói gì về Giáo sư Nguyễn Lân Tùng

Để lại một bình luận Hủy