[Đồ án tốt nghiệp] Xây dựng Data Lakehouse cho hệ thống Search Engine
Số trang: 76
Loại file: pdf
Dung lượng: 6.28 MB
Lượt xem: 892
Lượt tải: 0
Thông tin tài liệu
MỤC LỤC
CHƯƠNG 1: MỞ ĐẦU ......................................................................................................................... 1
1.1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI ............................................................................................... 1
1.2. MỤC TIÊU CỦA ĐỀ TÀI .......................................................................................................... 1
1.3. CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU ......................................................... 2
1.4. KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC ............................................................................................ 2
1.5. BỐ CỤC CỦA BÀI BÁO CÁO .................................................................................................. 2
CHƯƠNG 2: TỔNG QUAN VỀ SEARCH ENGINE ........................................................................ 4
2.1. KHÁI NIỆM VỀ SEARCH ENGINE ......................................................................................... 4
2.2. CẤU TRÚC VÀ ĐẶC TÍNH CỦA SEARCH ENGINE ............................................................ 4
2.3. LỢI ÍCH CỦA SEARCH ENGINE............................................................................................. 5
2.4. DATA LAKEHOUSE CHO HỆ THỐNG SEARCH ENGINE .................................................. 6
CHƯƠNG 3: TỔNG QUAN VỀ DATA LAKEHOUSE .................................................................... 7
3.1. KHÁI NIỆM VỀ DATA LAKEHOUSE ..................................................................................... 7
3.2. CÔNG NGHỆ ĐƯỢC SỬ DỤNG TRONG DATA LAKEHOUSE ........................................... 7
3.3. CÁC ĐẶC ĐIỂM CỦA DATA LAKEHOUSE .......................................................................... 7
3.4. LỢI ÍCH CỦA DATA LAKEHOUSE ........................................................................................ 8
CHƯƠNG 4: KHẢO SÁT HIỆN TRẠNG ........................................................................................ 10
4.1. DATA LAKEHOUSE – KIẾN TRÚC DỮ LIỆU HIỆN ĐẠI .................................................. 10
4.2. NỀN TẢNG DATABRICKS LAKEHOUSE ........................................................................... 10
4.3. VAI TRÒ CỦA SEARCH ENGINE TRONG THỜI ĐẠI HIỆN NAY.................................... 11
4.4. CÁC SEARCH ENGINE PHỔ BIẾN HIỆN NAY ................................................................... 12
4.5. HỆ THỐNG SEARCH ENGINE CỦA GOOGLE ................................................................... 13
CHƯƠNG 5: TỔNG QUAN VỀ APACHE HADOOP, APACHE SUPERSET ........................... 17
5.1. TỔNG QUAN VỀ APACHE HADOOP ................................................................................... 17
5.1.1. Khái niệm Apache Hadoop ................................................................................................ 17
5.1.2. Cấu trúc Apache Hadoop .................................................................................................. 18
5.1.3. Ưu điểm của Apache Hadoop ............................................................................................ 20
5.2. TỔNG QUAN VỀ SUPERSET ................................................................................................. 20
5.2.1. Khái niệm về Superset........................................................................................................ 20
5.2.2. Các tính năng của Superset ............................................................................................... 21
5.2.3. Lợi ích của Superset .......................................................................................................... 21
5.2.4. Nhược điểm của Superset .................................................................................................. 21
CHƯƠNG 6: XÂY DỰNG DATA LAKE TRÊN NỀN TẢNG HADOOP .................................... 22
6.1. NHU CẦU SỬ DỤNG HADOOP CHO HỆ THỐNG DATA LAKE ...................................... 22
6.2. KIẾN TRÚC TỔNG QUAN CỦA HỆ THỐNG DATA LAKE TRÊN HADOOP .................. 22
CHƯƠNG 7: XÂY DỰNG DATA LAKEHOUSE CHO HỆ THỐNG SEARCH ENGINE ........ 24
7.1. XÂY DỰNG HỆ THỐNG ........................................................................................................ 24
7.1.1. Kiến trúc tổng quan của Data Lakehouse cho hệ thống Search Engine ............................ 24
7.1.2. Tạo máy ảo Ubuntu trên AWS Cloud ................................................................................. 25
7.1.3. Cài đặt các công cụ hỗ trợ truy cập .................................................................................. 29
7.1.4. Cài đặt Apache Hadoop ..................................................................................................... 34
7.1.5. Cài đặt Apache Superset .................................................................................................... 42
7.1.6. Cài đặt MYSQL .................................................................................................................. 44
7.2. KẾT NỐI MYSQL VỚI SUPERSET ........................................................................................ 46
7.3. KẾT QUẢ THỰC HIỆN ........................................................................................................... 46
7.3.1. Hình thành HDFS nơi để load dữ liệu lên để tạo thành Data Lake .................................. 46
7.3.2. Tạo các lớp MetaData cho dữ liệu Data Lakes ................................................................. 48
7.3.3. Thiết kế sử dụng công cụ truy vấn cung cấp thực thi SQL, thực thi công cụ hỗ trợ BI
(Business Intelligence) .................................................................................................... 50
7.3.4. Áp dụng Machine Learing trên dữ liệu với thuật toán Recommendation .......................... 55
7.4. SO SÁNH VỚI NHỮNG DẠNG DATA WAREHOUSE TRUYỀN THỐNG ........................ 57
7.4.1. Ưu điểm.............................................................................................................................. 57
7.4.2. Hạn chế .............................................................................................................................. 57
CHƯƠNG 8: KẾT LUẬN .................................................................................................................. 58
8.1. KẾT QUẢ ĐẠT ĐƯỢC ............................................................................................................ 58
8.2. HẠN CHẾ ................................................................................................................................. 58
8.3. HƯỚNG PHÁT TRIỂN ............................................................................................................ 58
TÀI LIỆU THAM KHẢO .................................................................................................................. 59
Gợi ý tài liệu cho bạn
Gợi ý tài liệu cho bạn
-
29 0 0
-
87 0 0
-
207 0 0
-
Dự án - Thí điểm thiết lập bộ chỉ số đánh giá rủi ro thiên tai cho 1 lưu vực sông
540 0 0 -
Luận văn thạc sĩ_ Nghiên cứu tính năng động cơ DA465QE sử dụng BIOGAS-LPG
482 0 0 -
548 0 0