[Đồ án tốt nghiệp] Xây dựng Data Lakehouse cho hệ thống Search Engine

Số trang: 76      Loại file: pdf      Dung lượng: 6.28 MB      Lượt xem: 513      Lượt tải: 0

Thành viên thường xem thêm

Thông tin tài liệu

MỤC LỤC
CHƯƠNG 1: MỞ ĐẦU  ......................................................................................................................... 1
1.1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI  ............................................................................................... 1
1.2. MỤC TIÊU CỦA ĐỀ TÀI .......................................................................................................... 1
1.3. CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU ......................................................... 2
1.4. KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC ............................................................................................ 2
1.5. BỐ CỤC CỦA BÀI BÁO CÁO  .................................................................................................. 2
CHƯƠNG 2: TỔNG QUAN VỀ SEARCH ENGINE  ........................................................................ 4
2.1. KHÁI NIỆM VỀ SEARCH ENGINE  ......................................................................................... 4
2.2. CẤU TRÚC VÀ ĐẶC TÍNH CỦA SEARCH ENGINE  ............................................................ 4
2.3. LỢI ÍCH CỦA SEARCH ENGINE............................................................................................. 5
2.4. DATA LAKEHOUSE CHO HỆ THỐNG SEARCH ENGINE  .................................................. 6
CHƯƠNG 3: TỔNG QUAN VỀ DATA LAKEHOUSE  .................................................................... 7
3.1. KHÁI NIỆM VỀ DATA LAKEHOUSE  ..................................................................................... 7
3.2. CÔNG NGHỆ ĐƯỢC SỬ DỤNG TRONG DATA LAKEHOUSE  ........................................... 7
3.3. CÁC ĐẶC ĐIỂM CỦA DATA LAKEHOUSE  .......................................................................... 7
3.4. LỢI ÍCH CỦA DATA LAKEHOUSE  ........................................................................................ 8
CHƯƠNG 4: KHẢO SÁT HIỆN TRẠNG  ........................................................................................ 10
4.1. DATA LAKEHOUSE – KIẾN TRÚC DỮ LIỆU HIỆN ĐẠI  .................................................. 10
4.2. NỀN TẢNG DATABRICKS LAKEHOUSE  ........................................................................... 10
4.3. VAI TRÒ CỦA SEARCH ENGINE TRONG THỜI ĐẠI HIỆN NAY.................................... 11
4.4. CÁC SEARCH ENGINE PHỔ BIẾN HIỆN NAY  ................................................................... 12
4.5. HỆ THỐNG SEARCH ENGINE CỦA GOOGLE  ................................................................... 13
CHƯƠNG 5: TỔNG QUAN VỀ APACHE HADOOP, APACHE SUPERSET  ........................... 17
5.1. TỔNG QUAN VỀ APACHE HADOOP  ................................................................................... 17
5.1.1. Khái niệm Apache Hadoop  ................................................................................................ 17
5.1.2. Cấu trúc Apache Hadoop .................................................................................................. 18
5.1.3. Ưu điểm của Apache Hadoop  ............................................................................................ 20
5.2. TỔNG QUAN VỀ SUPERSET  ................................................................................................. 20
5.2.1. Khái niệm về Superset........................................................................................................ 20
5.2.2. Các tính năng của Superset  ............................................................................................... 21
5.2.3. Lợi ích của Superset .......................................................................................................... 21
5.2.4. Nhược điểm của Superset  .................................................................................................. 21
CHƯƠNG 6: XÂY DỰNG DATA LAKE TRÊN NỀN TẢNG HADOOP .................................... 22
6.1. NHU CẦU SỬ DỤNG HADOOP CHO HỆ THỐNG DATA LAKE  ...................................... 22
6.2. KIẾN TRÚC TỔNG QUAN CỦA HỆ THỐNG DATA LAKE TRÊN HADOOP  .................. 22
CHƯƠNG 7: XÂY DỰNG DATA LAKEHOUSE CHO HỆ THỐNG SEARCH ENGINE  ........ 24
7.1. XÂY DỰNG HỆ THỐNG  ........................................................................................................ 24 
7.1.1. Kiến trúc tổng quan của Data Lakehouse cho hệ thống Search Engine  ............................ 24
7.1.2. Tạo máy ảo Ubuntu trên AWS Cloud  ................................................................................. 25
7.1.3. Cài đặt các công cụ hỗ trợ truy cập .................................................................................. 29
7.1.4. Cài đặt Apache Hadoop  ..................................................................................................... 34
7.1.5. Cài đặt Apache Superset  .................................................................................................... 42
7.1.6. Cài đặt MYSQL  .................................................................................................................. 44
7.2. KẾT NỐI MYSQL VỚI SUPERSET  ........................................................................................ 46
7.3. KẾT QUẢ THỰC HIỆN  ........................................................................................................... 46
7.3.1. Hình thành HDFS nơi để load dữ liệu lên để tạo thành Data Lake  .................................. 46
7.3.2. Tạo các lớp MetaData cho dữ liệu Data Lakes  ................................................................. 48
7.3.3.  Thiết  kế  sử  dụng  công  cụ  truy  vấn  cung cấp  thực  thi  SQL,  thực  thi  công  cụ  hỗ  trợ  BI 
(Business Intelligence)  .................................................................................................... 50
7.3.4. Áp dụng Machine Learing trên dữ liệu với thuật toán Recommendation  .......................... 55
7.4. SO SÁNH VỚI NHỮNG DẠNG DATA WAREHOUSE TRUYỀN THỐNG  ........................ 57
7.4.1. Ưu điểm.............................................................................................................................. 57
7.4.2. Hạn chế  .............................................................................................................................. 57
CHƯƠNG 8: KẾT LUẬN .................................................................................................................. 58
8.1. KẾT QUẢ ĐẠT ĐƯỢC  ............................................................................................................ 58
8.2. HẠN CHẾ  ................................................................................................................................. 58
8.3. HƯỚNG PHÁT TRIỂN  ............................................................................................................ 58
TÀI LIỆU THAM KHẢO  .................................................................................................................. 59
Xem thêm


Giao dịch viên QHKH Cá nhân-RM Hỗ trợ tín dụng Thực tập sinh Agribank - NH Nông nghiệp & PTNT BIDV - NH Đầu tư phát triển VN Vietinbank - NH Công thương VN Vietcombank (VCB) - NH Ngoại thương VN LienVietPost Bank (LVPB) - NH Bưu Điện Liên Việt MB Bank - NH Quân Đội Techcombank - NH Kỹ Thương Tổng cục Thống kê
Nhắn cho chúng tôi