Etl la gi
Đường dẫn dữ liệu (ETL (Extract – Transform – Load) hay ELT (Extract – Load – Transform)) thực hiện nhiệm vụ tổng hợp, sắp xếp và di chuyển dữ liệu đến hệ thống mục tiêu nhằm tiến hành lưu trữ và phân tích. ETL và ELT đều rất cần thiết trong khoa học dữ liệu, bởi các nguồn thông tin — cho dù chúng sử dụng cơ sở dữ liệu SQL có cấu trúc hay cơ sở dữ liệu NoSQL không cấu trúc — thì đều hiếm khi ở các định dạng tương tự hoặc tương thích với nhau. Do đó, các nguồn dữ liệu cần được làm sạch, làm giàu và chuyển đổi trước khi tích hợp thành một tổng thể có thể phân tích. Bất kể đó là ETL hay ELT, quá trình chuyển đổi/tích hợp dữ liệu bao gồm ba bước sau:
Tuy cùng thực hiện ba bước kể trên, nhưng trình tự của đường dẫn dữ liệu ETL và ELT là khác nhau. Vì vậy, câu hỏi đặt ra là: Nên chuyển đổi dữ liệu trước hay sau khi tải nó vào kho dữ liệu? Để trả lời, bạn cần tìm hiểu ETL và ELT một cách riêng biệt. Quy trình ETLKho dữ liệu Xử lý Phân tích Trực tuyến (OLAP data warehouse) — cho dù dựa trên đám mây hay được tiến hành tại chỗ — đều cần làm việc với cấu trúc dữ liệu SQL quan hệ. Do đó, bất kỳ dữ liệu nào bạn tải vào kho dữ liệu OLAP đều phải được chuyển đổi thành định dạng quan hệ. Một phần của quá trình chuyển đổi này có thể yêu cầu ánh xạ dữ liệu (data mapping) để kết hợp nhiều nguồn dữ liệu dựa trên tương quan về mặt thông tin (Nhờ vậy, nền tảng kinh doanh thông minh – business intelligence platform – có thể phân tích thông tin như một đơn vị tích hợp duy nhất). Đó là lý do tại sao các kho dữ liệu yêu cầu ETL — vì các thao tác chuyển đổi phải được thực hiện trước khi truyền tải. Dưới đây là một số chi tiết để hiểu về ETL:
Ưu điểm của ETL
Quy trình ELTELT là viết tắt của “Extract, Load và Transform.” Trong quá trình này, dữ liệu được tận dụng thông qua kho dữ liệu để thực hiện các chuyển đổi cơ bản. Điều đó có nghĩa là không cần khu vực lưu trữ thay đổi dữ liệu (data staging). ELT sử dụng các giải pháp lưu trữ dữ liệu dựa trên đám mây cho tất cả các loại dữ liệu khác nhau – bao gồm các loại dữ liệu có cấu trúc, phi cấu trúc, bán cấu trúc và thậm chí là dữ liệu thô. Quy trình ELT cũng hoạt động song song với các hồ dữ liệu (data lake). “Hồ dữ liệu” là loại lưu trữ dữ liệu đặc biệt — không giống như kho dữ liệu OLAP — chấp nhận bất kỳ loại dữ liệu có cấu trúc hoặc phi cấu trúc nào. Các hồ dữ liệu không yêu cầu bạn phải chuyển đổi dữ liệu của mình trước khi tải lên nó. Bạn có thể tải ngay lập tức bất kỳ loại dữ liệu thô nào vào hồ dữ liệu, bất kể định dạng hay tình trạng thiếu thông tin đó. Việc chuyển đổi dữ liệu vẫn cần thiết trước khi phân tích dữ liệu với nền tảng kinh doanh thông minh. Tuy nhiên, việc làm sạch, làm giàu và chuyển đổi dữ liệu xảy ra sau khi tải dữ liệu vào hồ dữ liệu. Dưới đây là một số chi tiết để hiểu về ELT và hồ dữ liệu:
Ưu điểm của ELT Ưu điểm chính của ELT so với ETL liên quan đến tính linh hoạt và dễ dàng lưu trữ dữ liệu mới, không có cấu trúc. Với ELT, bạn có thể lưu bất kỳ loại thông tin nào — ngay cả khi bạn không có thời gian hoặc khả năng để chuyển đổi và cấu trúc thông tin đó trước. Hơn nữa, bạn không phải phát triển các quy trình ETL phức tạp trước khi nhập dữ liệu và tiết kiệm thời gian cho các nhà phát triển và nhà phân tích BI khi xử lý thông tin mới. |