Cộng đồng chia sẻ tri thức Lib24.vn

4.3. Kho dữ liệu và kho dữ liệu chuyên đề

Gửi bởi: Đỗ Thị Ngọc Dung 19 tháng 2 2020 lúc 14:16:24


Mục lục
* * * * *

Các hệ thống điều hành thường xuyên yêu cầu chặt chẽ về hiệu suất, về kích thước giao tác, về tính hoạt động theo kế hoạch, tính ứng dụng cao. Ngược lại các hệ thống trợ giú p quyết định có những yêu cầu đa dạng về hiệu suất, khô ng biết trước về cô ng việc sẽ làm, kích thước giao tác lơn, được sử dụng tuỳ theo cảm tính của người quản lý . Những khác biệt này gây nên khô ng ít khó khăn cho việc tích hợp các xử lý điều hành với việc trợ giú p quyết định trong một hệ thống đơn mà vẫn phải đáp ứng các yêu cầu về kế hoạch, quản lý tài nguyên, và điều chỉnh được hiệu suất của hệ thống. Do vậy, người quản trị hệ thống điều hành thường miễn cưỡng chấp nhận các hoạt động trợ giú p quyết định trong hệ thống của họ.

Phần này đề cập một quan tâm của các hệ trợ giú p ra quyết định. Đó là việc truy cập dữ liệu từ nhiều nguồn khác nhau, từ nhiều hệ thống điều hành khác nhau. Những dữ liệu dù ng để ra quyết định được lưu trữ theo cách thức riêng trong kho dữ liệu

Hình 4.1. Kiến trúc tổng quan của kho dữ liệu

4.3.1. Kho dữ liệu

Thuật ngữ kho dữ liệu được dù ng từ cuối những năm 80 của thế kỷ XX. Kho dữ liệu được dù ng cho cô ng tác ra quyết định trong quản lý , là tập hợp các dữ liệu thay đổi theo thời gian, không cho phép cập nhật, được tích hợp hướng chủ đề. Khái niệm khô ng thể cập nhật được giải thích kĩ hơn là một khi được bổ sung, dữ liệu sẽ khô ng thay đổi, dù rằng nó có thể bị xoá. Lí do đề xuất khái niệm mới như kho dữ liệu là:

1.  Người ta cần sử dụng nguồn dữ liệu đơn, sạch, bền vững để trợ giú p việc ra quyết định

2.  Hệ thống trợ giú p ra quyết định khô ng chịu tác động của các hệ thống điều hành.

Đ/N. Kho dữ liệu (dataware house). Kho dữ liệu là nơi chứa các dữ liệu có yếu tố thời gian, khô ng bị thay đổi, hướng chủ đề, dù ng để trợ giú p việc ra quyết định.

Đ/N. Kho dữ liệu xí nghiệp (Enterprise datawarehouse). Kho dữ liệu xí nghiệp là kho dữ liệu tích hợp, tập trung, là nguồn dữ liệu được điều khiển dù ng cho việc ra quyết định của người sử dụng.

Mục đích của kho dữ liệu là ra quyết định, nên được tăng cường các chức năgn hỏi dữ liệu và kích thước của kho dữ liệu thường có xu hướng lớn.

Đ/N. Tính hạn chế phạm vi. Tính hạn chế phạm vi khi xét nhiều yếu tố cho phép xét một yếu tố mà khô ng quan tâm đến các yếu tố khác, tức là giả thiết các yếu tố khác là khô ng thay đổi.

Người ta thấy rằng có một số vấn đề dẫn đến việc khảo sát và dù ng khả năng hạn chế phạm vi trong hệ trợ giú p ra quyết định

-  Các sai só t về thiết kế CSDL;

-  Sự khô ng hiệu quả của các phép toán quan hệ;

-  Khả năng khô ng đủ mạnh của các hệ quản trị CSDL theo mô hình quan hệ;

-  Các lỗi về thiết kế kiến trú c làm hạn chế khả năng của hệ thống.

4.3.2. Kho dữ liệu chuyên đề.

Các kho dữ liệu nhằm cung cấp nguồn đơn chất của các dữ liệu dù ng cho các hoạt động trợ giú p ra quyết đinh. Tuy nhiên, khi các kho dữ liệu trở nên thô ng dụng, người ta thấy người sử dụng thường thực hiện các thao tác phân tích dữ liệu và ra báo cáo trên một phần nhỏ của kho dữ liệu. Hơn nữa người sử dụng hay lặp lại cù ng một thao tác trên các phần nhỏ của kho dữ liệu. Việc thực hiện nhiều lần một thao tác trên toàn bộ kho dữ liệu là khô ng hiệu quả, cho nên người ta cần đến loại kho dữ liệu chuyên dụng, được người sử dụng xây dựng theo yêu cầu xử lý riêng. Có như vậy thì việc truy cập các dữ liệu đồng bộ với kho dữ liệu mới nhanh.

Đ/N. Kho dữ liệu chuyên đề (data mart). Kho dữ liệu chuyên đề có vai trò như kho dữ liệu, nhưng các dữ liệu trong đó cho phép cập nhật và dù ng cho trợ giú p quyết định với mục đích đặc biệt hơn.

Kho dữ liệu chuyên đề là kho dữ liệu hạn chế, gồm các dữ liệu được tuyển chọn và tổng hợp từ kho dữ liệu của xí nghiệp.

Để tạo ra được một kho dữ liệu chuyên đề, người ta thường theo ba cách tiếp cận sau:

Trích dữ liệu từ kho dữ liệu. Các dữ liệu được trích từ kho dữ liệu để đạt được hiện suất phục vụ cao và có tính hạn chế phạm vi. Thô ng thường các dữ liệu trích ra này được tải vào CSDL có lược đồ vật lý gần giống với phần ứng dụng của kho dữ liệu. Do tính đặc biệt hơn của kho dữ liệu chuyên đề so với kho dữ liệu, lược đồ vật lý của dữ liệu có thể đơn giản hơn.

2.   Tạo ra kho dữ liệu chuyên đề riêng biệt. Tiếp cận này xuất phát từ tính đơn thể của kho dữ liệu, khô ng trích dữ liệu từ kho dữ liệu và khô ng truy cập kho dữ liệu do một vài nguyên nhân.

3.  Coi kho dữ liệu chuyên đề là nền tảng của kho dữ liệu. Một vài phát triển hệ thống trợ giú p ra quyết định đã xây dựng các kho dữ liệu chuyên đề trước tiên, mỗi khi cần thiết. Kho dữ liệu sẽ được tao ra bằng cách tập hợp các kho dữ liệu chuyên đề.

Đ/N. Tính chia hạt. Tính chia hạt trong cơ ở dữ liệu đề cập khả năng lưu trữ được phần tử nhỏ nhất cảu dữ liệu gộp trong CSDL.

Liên quan đến việc thiết kế kho dữ liệu chuyên đề, người ta nhận thấy một yếu tố quan trọng đối với bất kì CSDL trợ giú p ra quyết định nào là tính chia nhỏ thành hạt của CSDL. Sớm hay muô n thì các kho dữ liệu dù ng để ra quyết định đều yêu cầu truy cập dữ liệu chi tiết nhất, nên yêu cầu chi thành hạt đối với kho dữ liệu khô ng gây ra vấn đề lớn như đối với kho dữ liệu chuyên đề. Nếu kho dữ liệu chuyên đề được xây dựng bằng cách trích các dữ liệu từ kho dữ liệu mà khô ng biết các ứng dụng có nhu cầu thường xuyên về các dữ liệu ở mức hạt hay khô ng, thì việc trích dữ liệu và cập nhật các dữ liệu ở mức hạt sẽ tốn kém nhiều.

4.3.3. Các lược đồ về chiều.

Các hệ thống trợ giú p ra quyết định thường cần đến kết quả phân tích về lịch sử của các giao dịch tác nghiệp. Thô ng tin này được lưu trong các tệp và được truy cập tuần tự. Do nhu cầu, đến một lú c nào đó người ta cần trực tiếp truy cập các thô ng tin này chỉ theo một số gó c cạnh cần quan tâm. Chẳng hạn đối với thô ng tin về sản lượng rượu vang, người ta cần biết về sản lượng, về người sản xuất,về tuổi của rượu… Để trợ giú p nhu cầu truy cập này, người ta dù ng CSDL có nhiều bảng tra cứu. Cơ sỏ dữ liệu như vậy có tệp dữ liệu trung tâm chứa cá dữ liệu về các hoạt động tác và nhiều bảng tra cứu về sản lượng, người sản xuất, tuổi của rượu. Các bảng này tựa như bảng chỉ số vì chú ng có con trỏ trỏ đến các bản ghi trong tệp dữ liệu, nhưng khác với bảng chỉ số ở chỗ người dù ng co thể tác động đến các bảng tra cứu theo cách tường minh và bảng tra cứu có thể mang các thô ng tin phụ, chẳng hạn như địa chỉ của nhà sản xuất.

Các tổ chức nhiều bảng tra cứu có ưu điểm hơn so với việc dù ng một tệp tra cứu, cả về khô ng gian nhớ lẫn thời gian vào/ra. Khi dù ng tiếp cận này trong cơ sỏ dữ liệu quan hệ, tệp dữ liệu và các tệp tra cứu trở thành các bảng, tức là ảnh của các tệp; các con trỏ trong tệp tra cứu trở thành khoá chính của bảng tra cưu; những tên trong tệp dữ liệu trở thành cá khoá ngoài trong bảnh ảnh của tệp dữ liệu. Trường hợp điển hình là các khoá chính và khoá ngoài đều được chỉ số hoá. Theo phương thức này, ảnh của tệp dữ liệu được gọi là bảng sự kiện và các ảnh của tệp tra cứu được gọi là các bảng về chiều. Thiết kế tổng thể phù hợp được gọi là lược đồ hình sao, hay lược đồ về chiều, vì trong thiết kế thực thể quan hệ người ta nới rộng các bảng sự kiện, để nối với cá bảng về chiều.

Ví dụ CSDL RUOU(TenRuou, NhaSX, NamSX, SoLuong) trong đó thuộc tính NamSX được mô tả bằng khoảng từ năm t1 đến năm t2. Theo thuật ngữ lược đồ hình sao thì bảng RUOU được gọi là bảng sự kiện cò n bảng SanXuat(Nam, NamBD, NamKT) được gọi là bảng về chiều.

Đ/N. Lược đồ hình sao. Lược đồ hình sao là thiết kế CSDL đơn giản, trong đó các dữ liệu về chiều được tách khỏi các dữ liệu về sự kiện. Mô hình về chiều là tên gọi khác của lược đồ hình sao.

Câu hỏi trên CSDL theo lược đồ hình sao cần đến các bảng về chiều để phát hiện tất cả những tổ hợp khoá ngoài cần thiết, rồi dù ng tổ hợp này để truy cập bảng sự kiện. Giả sử việc truy cập các bảng về chiều và truy cập bảng sự kiện được thể hiện gọn trong một câu hỏi đơn, thì cách tốt nhất để thực hiện câu hỏi này thước theo kết nối hình sao.

Kết nối hình sao là chiến thuật đặc biệt để thực hiện phép kết nối được thực hiện theo hai bước.

1.   Tiến hành phép tích đề các đối với các bảng về chiều. Lưu ý rằng khi tối ưu hoá câu hỏi, người ta thường tránh sử dụng phép tích đề các. Trong trường hợp này, các bảng kích thước nhỏ tham giá trước vào phép tích đề các.

2.  Dù ng kết quả của tích đề các để quản lý bảng sự kiện theo kĩ thuật chỉ số hoá. Kĩ thuật chỉ số hoá cho phép chiến thuật này hiệu quả hơn.

Một biến dạng của lược đồ hình sao là lược đồ hoa tuyết, thực hiện việc chuẩn hoá các bảng chiều.

Đ/N. Lược đồ hoa tuyết. Lược đồ hoa tuyết là biến dạng của lược đồ hình sao, trong đó các bảng được chuẩn hoá.


Được cập nhật: 17 tháng 4 lúc 16:16:36 | Lượt xem: 665