Tổng quan về hệ sinh thái của người mới bắt đầu Hadoop

Giới thiệu về Dữ liệu lớn

Dữ liệu lớn đề cập đến toàn bộ tài liệu được tạo trải qua những nền tảng khác nhau trên toàn quốc tế ..Danh mục dữ liệu lớn :

  1. Cấu trúc
  2. Không cấu trúc

    Bạn đang đọc: Tổng quan về hệ sinh thái của người mới bắt đầu Hadoop

  3. Bán cấu trúc

Ví dụ về Dữ liệu lớn:

1 ) Sàn thanh toán giao dịch Thành Phố New York tạo ra khoảng chừng 1TB dữ liệu thanh toán giao dịch mới mỗi ngày .

2) Phương tiện truyền thông xã hội: Thống kê cho thấy hơn 500 terabyte dữ liệu được đưa vào cơ sở dữ liệu của trang web truyền thông xã hội Facebook mỗi ngày.

Dữ liệu hầu hết được tạo theo :

  • Tải lên hình ảnh và video
  • Trao đổi tin nhắn
  • Bình luận

3) Máy bay phản lực / Cổng du lịch:

Một động cơ phản lực ingle tạo ra hơn 10 terabyte ( TB ) dữ liệu trong 30 phút bay mỗi ngày. Việc tạo ra dữ liệu lên tới nhiều petabyte ( PB ).

Hadoop là gì?

Hadoop là một khung công tác làm việc nguồn mở được quản trị bởi Quỹ ứng dụng Apache. Nguồn mở ý niệm rằng nó có sẵn không lấy phí và mã nguồn của nó hoàn toàn có thể được đổi khác theo nhu yếu của người dùng. Apache Hadoop được phong cách thiết kế để tàng trữ và giải quyết và xử lý tài liệu lớn một cách hiệu suất cao. Hadoop được sử dụng để tàng trữ tài liệu, giải quyết và xử lý, nghiên cứu và phân tích, truy vấn, quản trị, quản lý và vận hành và bảo mật thông tin .Các tổ chức triển khai lớn với lượng tài liệu khổng lồ sử dụng Hadoop, được giải quyết và xử lý với sự trợ giúp của một nhóm lớn phần cứng sản phẩm & hàng hóa. Cụm đề cập đến một nhóm những mạng lưới hệ thống được liên kết qua mạng LAN và nhiều nút trên cụm này giúp thực thi những việc làm Hadoop. Hadoop đã trở nên thông dụng trên toàn quốc tế trong việc quản trị tài liệu lớn và hiện tại, nó có gần 90 % thị trường .

Các tính năng của Hadoop

  • Chi phí hiệu quả : Hệ thống Hadoop rất hiệu quả về chi phí vì nó không yêu cầu bất kỳ phần cứng chuyên dụng nào và do đó đòi hỏi đầu tư thấp. Sử dụng phần cứng đơn giản được gọi là phần cứng hàng hóa là đủ cho hệ thống.

  • Hỗ trợ cụm nút lớn : Một cấu trúc Hadoop có thể được tạo thành từ hàng ngàn nút tạo thành một cụm lớn. Cụm lớn giúp mở rộng hệ thống lưu trữ và cung cấp nhiều sức mạnh tính toán hơn.

  • Xử lý song song dữ liệu : Hệ thống Hadoop hỗ trợ xử lý dữ liệu song song trên tất cả các nút trong cụm và do đó nó giảm thời gian lưu trữ & xử lý.

  • Phân phối dữ liệu (Xử lý phân tán) : Hadoop phân phối hiệu quả dữ liệu trên tất cả các nút trong một cụm. Hơn nữa, nó sao chép dữ liệu trên toàn bộ cụm để lấy dữ liệu các nút khác, nếu một nút cụ thể đang bận hoặc không hoạt động.

  • Quản lý dự phòng tự động (Dung sai lỗi) : Một tính năng quan trọng của Hadoop là nó tự động giải quyết vấn đề trong trường hợp một nút trong cụm bị lỗi. Khung công tác thay thế hệ thống bị lỗi bằng một hệ thống khác cùng với việc định cấu hình các cài đặt và dữ liệu được sao chép trên máy mới.

  • Hỗ trợ các cụm không đồng nhất : Một cụm không đồng nhất là một cụm chiếm các nút hoặc máy từ một nhà cung cấp khác, hệ điều hành khác và chạy trên các phiên bản khác nhau. Chẳng hạn, nếu cụm Hadoop có ba hệ thống, một máy Lenovo chạy trên RHEL Linux, thứ hai là máy Intel chạy trên Ubuntu Linux và thứ ba là máy AMD chạy trên Fedora Linux, tất cả các hệ thống khác nhau này đều có khả năng đồng thời chạy trên một cụm duy nhất.

  • Khả năng mở rộng : Một hệ thống Hadoop có khả năng thêm hoặc loại bỏ nút / nút và các thành phần phần cứng khỏi một cụm, mà không ảnh hưởng đến hoạt động của cụm. Điều này đề cập đến khả năng mở rộng, là một trong những tính năng quan trọng của hệ thống Hadoop.

Tổng quan về hệ sinh thái Hadoop

Hệ sinh thái Hadoop gồm có :

  1. HDFS (Hệ thống tệp phân tán Hadoop)

  2. Apache MapReduce

  3. Lợn Apache

  4. Apache HBase

  5. Tổ ong Apache

  6. Sqoop của Apache

  7. Flume Apache

  8. Người quản lý vườn thú Apache

  9. Kafka Apache

  10. Oozie 

HDFS (Hệ thống tệp phân tán Hadoop) : HDFS có công việc quan trọng nhất để thực hiện trong khung Hadoop. Nó phân phối dữ liệu và lưu trữ nó trên mỗi nút có trong một cụm, đồng thời. Quá trình này làm giảm tổng thời gian lưu trữ dữ liệu vào đĩa.

MapReduce (Đọc / ghi dữ liệu lớn vào / từ Hadoop bằng MR) : Hadoop MapReduce là một phần quan trọng khác của hệ thống xử lý khối lượng dữ liệu khổng lồ được lưu trữ trong một cụm. Nó cho phép xử lý song song tất cả dữ liệu được lưu trữ bởi HDFS. Hơn nữa, nó giải quyết vấn đề chi phí xử lý cao thông qua khả năng mở rộng lớn trong một cụm.

Apache Pig  ( Pig là một loại ETL cho hệ sinh thái Hadoop) : Đây là ngôn ngữ kịch bản cấp cao để viết các chương trình phân tích dữ liệu cho các tập dữ liệu khổng lồ trong cụm Hadoop. Pig cho phép các nhà phát triển tạo các thói quen thực hiện truy vấn để phân tích các tập dữ liệu lớn. Ngôn ngữ kịch bản được gọi là Pig Latin, một phần quan trọng của Pig và phần chính thứ hai là trình biên dịch.

Nguồn Apache HBase (OLTP / NoQuery) : Đây là cơ sở dữ liệu hướng theo cột hỗ trợ hoạt động của HDFS trên cơ sở thời gian thực. Nó được kích hoạt để xử lý các bảng cơ sở dữ liệu lớn, tức là một tệp chứa hàng triệu hàng và cột. Một sử dụng quan trọng của HBase là sử dụng hiệu quả các nút chính để quản lý các máy chủ khu vực.

Apache Hive (Hive là một công cụ SQL trên Hadoop) : Với một giao diện giống như SQL, Hive cho phép vượt qua bình phương dữ liệu từ HDFS. Phiên bản Hive của ngôn ngữ SQL được gọi là HiveQL.

Apache Sqoop (Nhập / xuất dữ liệu từ RDBMS [nguồn SQL] vào Hadoop) : Đây là một ứng dụng giúp nhập và xuất dữ liệu từ Hadoop sang các hệ thống quản lý cơ sở dữ liệu quan hệ khác. Nó có thể chuyển phần lớn dữ liệu của bạn. Sqoop dựa trên kiến ​​trúc trình kết nối hỗ trợ các plugin để thiết lập kết nối với các hệ thống bên ngoài mới.

Apache Flume (Nhập dữ liệu từ Không cấu trúc (Các trang web truyền thông xã hội) / Cấu trúc vào Hadoop)  : Đây là một ứng dụng cho phép lưu trữ dữ liệu truyền phát vào cụm Hadoop, chẳng hạn như dữ liệu được ghi vào tệp nhật ký là một ví dụ tốt về truyền dữ liệu.

Apache Zookeeper (công cụ phối hợp được sử dụng trong môi trường cụm) : Vai trò của nó là quản lý sự phối hợp giữa các ứng dụng được đề cập ở trên để hoạt động hiệu quả của chúng trong hệ sinh thái Hadoop.

Chức năng của Hadoop – Daemon HDFS

Hệ thống Hadoop hoạt động giải trí theo nguyên tắc kiến ​ ​ trúc chủ-nô .

Tên nút : Đây là nút chủ và là đơn trong thực thể. Nó chịu trách nhiệm lưu trữ siêu dữ liệu HDFS theo dõi tất cả các tệp được lưu trữ trong HDFS. Thông tin được lưu trữ trên siêu dữ liệu giống như tên tệp, cho phép tệp có, người dùng được ủy quyền của tệp và vị trí lưu trữ tệp. Thông tin này được lưu trữ trên RAM, thường được gọi là siêu dữ liệu hệ thống tệp.

Nút dữ liệu : Đây là nút nô lệ và có mặt trong nhiều số. Các nút dữ liệu có trách nhiệm lưu trữ và truy xuất dữ liệu theo hướng dẫn của nút tên. Các nút dữ liệu liên tục báo cáo cho nút tên với trạng thái hiện tại của chúng và tất cả các tệp được lưu trữ với chúng. Các nút dữ liệu giữ nhiều bản sao của mỗi tệp được lưu trữ trong đó.

Nút tên phụ: Nút tên phụ có mặt để hỗ trợ nút tên chính trong việc lưu trữ siêu dữ liệu. Về sự thất bại của nút tên do siêu dữ liệu bị hỏng hoặc bất kỳ lý do nào khác, các nút tên phụ ngăn chặn sự cố của cụm hoàn chỉnh. Nút tên phụ hướng dẫn nút tên tạo và gửi các tệp fax và editlog, trên đó tệp fax được nén được tạo bởi nút tên phụ. Tập tin nén này sau đó được chuyển trở lại nút tên và nó được đổi tên. Quá trình này lặp lại mỗi giờ hoặc khi kích thước của tệp editlog vượt quá 64MB.

Source: https://vvc.vn
Category custom BY HOANGLM with new data process: Bảo Tồn

BẠN CÓ THỂ QUAN TÂM

Alternate Text Gọi ngay