Hỏi đáp về IT
Mã xác nhận Thay đổi một
Ngô Quang Hải quanghaisoft@yahoo.com Bigdata engineering

Giải thích về lưu trữ dữ liệu: Data Lake so với Warehouse so với Database

Duyệt qua: 227

"Bài này cho ta biết khi nào dùng database, khi nào dùng datalakeNếu ta áp dụng không đúng mục tiêu chức năng sẽ gây mất thêm thời gian"Ngô Quang Hải (Bigdata engineering at MWG)

 

Lưu trữ dữ liệu là một vấn đề lớn. Gần đây, các công ty dữ liệu đang đưa tin rất nhiều, đặc biệt là khi các công ty cố gắng tối đa hóa giá trị từ tiềm năng của dữ liệu lớn. Đối với người thường, việc lưu trữ dữ liệu thường được xử lý trong cơ sở dữ liệu truyền thống. Nhưng đối với dữ liệu lớn, các công ty sử dụng kho dữ liệu và hồ dữ liệu.

Các hồ dữ liệu thường được so sánh với kho dữ liệu — nhưng chúng không nên như vậy. Các hồ dữ liệu và kho dữ liệu rất khác nhau, từ cấu trúc và cách xử lý cho đến ai sử dụng chúng và tại sao. Trong bài viết này, chúng tôi sẽ:

  • Xác định cơ sở dữ liệu, kho và hồ
  • Tóm tắt sự khác biệt lớn
  • Thận trọng khi sử dụng các hồ dữ liệu
  • Khám phá tương lai của lưu trữ dữ liệu
  • Và hơn thế nữa
Xác định cơ sở dữ liệu, kho và hồ

Hãy bắt đầu với các khái niệm, và chúng ta sẽ sử dụng phép loại suy từ chuyên gia để rút ra sự khác biệt.

Cơ sở dữ liệu là gì?

Cơ sở dữ liệu là một vị trí lưu trữ chứa dữ liệu có cấu trúc . Chúng ta thường nghĩ về một cơ sở dữ liệu trên máy tính — chứa dữ liệu, dễ dàng truy cập theo một số cách. Có thể cho rằng, bạn có thể coi điện thoại thông minh của mình là một cơ sở dữ liệu của riêng nó, nhờ vào tất cả dữ liệu nó lưu trữ về bạn.

Đối với tất cả các tổ chức, các trường hợp sử dụng cho cơ sở dữ liệu bao gồm:

  • Tạo báo cáo cho dữ liệu tài chính và dữ liệu khác
  • Phân tích các tập dữ liệu tương đối nhỏ
  • Tự động hóa quy trình kinh doanh
  • Kiểm toán mục nhập dữ liệu

Cơ sở dữ liệu phổ biến là:

  • Oracle
  • PostgreSQL
  • MongoDB
  • Redis
  • Elasticsearch
  • Apache Cassandra

Tìm hiểu thêm về sự khác biệt chính trong cơ sở dữ liệu: SQL và NoSQL. )

Kho dữ liệu là gì?

Bước tiếp theo từ cơ sở dữ liệu là kho dữ liệu. Kho dữ liệu là nơi lưu trữ lớn dữ liệu mà bạn tích lũy từ nhiều nguồn khác nhau. Trong nhiều thập kỷ, nền tảng cho trí thông minh kinh doanh và khám phá / lưu trữ dữ liệu nằm trên kho dữ liệu. Cấu trúc tĩnh, cụ thể của chúng quyết định bạn có thể thực hiện phân tích dữ liệu nào.

Kho dữ liệu phổ biến với các doanh nghiệp quy mô vừa và lớn như một cách chia sẻ dữ liệu và nội dung trên cơ sở dữ liệu nhóm hoặc phòng ban. Kho dữ liệu giúp tổ chức trở nên hiệu quả hơn. Các tổ chức sử dụng kho dữ liệu thường làm như vậy để hướng dẫn các quyết định quản lý — tất cả những quyết định “dựa trên dữ liệu” mà bạn luôn nghe đến.

Các công ty phổ biến cung cấp kho dữ liệu bao gồm:

  • Bông tuyết
  • Yellowbrick
  • Teradata
Hồ dữ liệu là gì?

Hồ dữ liệu là một kho lưu trữ lớn chứa một lượng lớn dữ liệu thô ở định dạng ban đầu cho đến khi bạn cần. Các hồ dữ liệu khai thác hạn chế lớn nhất của kho dữ liệu: khả năng linh hoạt hơn.

Như chúng ta sẽ thấy bên dưới, các trường hợp sử dụng cho hồ dữ liệu thường được giới hạn trong nghiên cứu và thử nghiệm khoa học dữ liệu — vì vậy người dùng chính của hồ dữ liệu là các nhà khoa học và kỹ sư dữ liệu. Ví dụ: đối với một công ty thực sự xây dựng kho dữ liệu, data lake là nơi chứa và lưu trữ tạm thời tất cả dữ liệu cho đến khi kho dữ liệu hoạt động. Các tổ chức vừa và nhỏ có thể có ít hoặc không có lý do gì để sử dụng hồ dữ liệu.

Các công ty hồ dữ liệu phổ biến là:

  • Hadoop
  • Azure
  • Amazon S3
Minh họa sự khác biệt

Lee Easton, chủ tịch của nhà cung cấp dữ liệu như một dịch vụ AeroVision.io , đề xuất một công cụ tương tự để hiểu sự khác biệt. Trong đó, dữ liệu của bạn là công cụ bạn có thể sử dụng.

Hãy tưởng tượng một kho dụng cụ ở sân sau của bạn. Bạn lưu trữ một số công cụ — dữ liệu — trong hộp công cụ hoặc trên các kệ được sắp xếp (khá). Bộ lưu trữ công cụ có tổ chức, có thể truy cập cụ thể này là cơ sở dữ liệu của bạn . Kho công cụ, nơi lưu trữ tất cả những thứ này, là kho dữ liệu của bạn . Bạn có thể có rất nhiều (và rất nhiều!) Hộp dụng cụ trong cửa hàng. Một số hộp công cụ có thể là của bạn, nhưng bạn có thể lưu trữ hộp công cụ của bạn bè hoặc hàng xóm, miễn là kho của bạn đủ lớn. Mặc dù bạn đang cất giữ các công cụ của họ, những người hàng xóm của bạn vẫn giữ chúng được ngăn nắp trong hộp công cụ của riêng họ.

Nhưng điều gì sẽ xảy ra nếu bạn bè của bạn không sử dụng hộp công cụ để lưu trữ tất cả các công cụ của họ? Họ vừa đổ chúng vào đó, không có tổ chức, không rõ ràng, thậm chí một số công cụ dùng để làm gì — đây là hồ dữ liệu của bạn .

Trong hồ dữ liệu, dữ liệu là dữ liệu thô và không có tổ chức, có thể là không có cấu trúc. Bất kỳ dữ liệu thô nào từ hồ dữ liệu chưa được sắp xếp thành các giá (cơ sở dữ liệu) hoặc một hệ thống có tổ chức (kho dữ liệu) thậm chí hầu như không phải là một công cụ — ở dạng thô, dữ liệu đó không hữu ích.

So sánh lưu trữ dữ liệu

Bây giờ chúng ta đã có các khái niệm, hãy xem xét sự khác biệt giữa cơ sở dữ liệu, kho và hồ dữ liệu trong sáu lĩnh vực chính.

 

Dữ liệu

Cơ sở dữ liệu và kho dữ liệu chỉ có thể lưu trữ dữ liệu đã được cấu trúc. Mặt khác, một hồ dữ liệu không tôn trọng dữ liệu như một kho dữ liệu và một cơ sở dữ liệu. Nó lưu trữ tất cả các loại dữ liệu: có cấu trúc, bán cấu trúc hoặc không có cấu trúc.

Cả ba vị trí lưu trữ dữ liệu đều có thể xử lý dữ liệu nóng và lạnh , nhưng dữ liệu lạnh thường phù hợp nhất trong các hồ dữ liệu, nơi độ trễ không phải là vấn đề. (Thông tin thêm về độ trễ bên dưới.)

Chế biến

Trước khi dữ liệu có thể được tải vào kho dữ liệu, nó phải có hình dạng và cấu trúc nào đó — nói cách khác, là một mô hình. Quá trình cung cấp cho dữ liệu một số hình dạng và cấu trúc được gọi là lược đồ trên ghi . Cơ sở dữ liệu cũng sử dụng cách tiếp cận lược đồ trên ghi.

Mặt khác, một hồ dữ liệu chấp nhận dữ liệu ở dạng thô của nó. Khi bạn cần sử dụng dữ liệu, bạn phải cung cấp cho nó hình dạng và cấu trúc. Đây được gọi là schema-on-read, một cách xử lý dữ liệu rất khác.

Giá cả

Một trong những tính năng hấp dẫn nhất của công nghệ dữ liệu lớn là chi phí lưu trữ dữ liệu. Lưu trữ dữ liệu bằng công nghệ dữ liệu lớn tương đối rẻ hơn lưu trữ dữ liệu trong kho dữ liệu. Điều này là do công nghệ dữ liệu thường là mã nguồn mở nên việc cấp phép và hỗ trợ cộng đồng là miễn phí. Công nghệ dữ liệu được thiết kế để cài đặt trên phần cứng hàng hóa giá rẻ.

Lưu trữ một kho dữ liệu có thể tốn kém, đặc biệt nếu khối lượng dữ liệu lớn. Mặt khác, một hồ dữ liệu được thiết kế để lưu trữ với chi phí thấp. Cơ sở dữ liệu có chi phí lưu trữ linh hoạt có thể cao hoặc thấp tùy theo nhu cầu.

Nhanh nhẹn

Kho dữ liệu là một ngân hàng dữ liệu có cấu trúc cao, với cấu hình cố định và tính linh hoạt nhỏ. Thay đổi cấu trúc không quá khó, ít nhất là về mặt kỹ thuật, nhưng làm như vậy sẽ tốn thời gian khi bạn tính đến tất cả các quy trình kinh doanh đã gắn liền với nhà kho.

Tương tự như vậy, cơ sở dữ liệu kém linh hoạt hơn để cấu hình vì bản chất có cấu trúc của chúng.

Ngược lại, một hồ dữ liệu thiếu cấu trúc. Sự linh hoạt này giúp các nhà phát triển dữ liệu và nhà khoa học dữ liệu dễ dàng cấu hình và định cấu hình lại các mô hình dữ liệu, truy vấn và ứng dụng. (Điều đó giải thích lý do tại sao các chuyên gia dữ liệu chủ yếu - chứ không phải nhân viên - đang làm việc trong các hồ dữ liệu: để nghiên cứu và thử nghiệm. Việc thiếu cấu trúc khiến những người không phải là chuyên gia tránh xa.)

Bảo vệ

Các công nghệ kho dữ liệu, không giống như các công nghệ dữ liệu lớn, đã xuất hiện và được sử dụng trong nhiều thập kỷ. Kho dữ liệu đã trưởng thành và an toàn hơn nhiều so với các hồ dữ liệu.

Công nghệ dữ liệu lớn, kết hợp các hồ dữ liệu, là tương đối mới. Do đó, khả năng bảo mật dữ liệu trong hồ dữ liệu là chưa trưởng thành. Đáng ngạc nhiên là cơ sở dữ liệu thường kém an toàn hơn kho. Đó có thể là do cách cơ sở dữ liệu phát triển cho các tập dữ liệu nhỏ — không phải các trường hợp sử dụng dữ liệu lớn mà chúng ta thấy ngày nay. May mắn thay, bảo mật dữ liệu đang phát triển nhanh chóng.

Người dùng

Kho dữ liệu, hồ dữ liệu và cơ sở dữ liệu phù hợp với những người dùng khác nhau:

  • Cơ sở dữ liệu rất linh hoạt và do đó phù hợp với bất kỳ người dùng nào.
  • Kho dữ liệu được sử dụng hầu hết trong ngành kinh doanh bởi các chuyên gia kinh doanh.
  • Các hồ dữ liệu hầu hết được sử dụng trong các lĩnh vực khoa học bởi các nhà khoa học dữ liệu.
Thận trọng với các hồ dữ liệu

Các công ty đang áp dụng các hồ dữ liệu, đôi khi thay vì các kho dữ liệu. Nhưng các hồ dữ liệu không tránh khỏi những hạn chế và thiếu sót. Công nghệ mới thường đi kèm với những thách thức - một số có thể dự đoán được, một số khác thì không. Các hồ dữ liệu cũng không khác. Không phải là các hồ dữ liệu dễ bị lỗi. Thay vào đó, các công ty mạo hiểm vào các hồ dữ liệu nên làm như vậy một cách thận trọng.

Các hồ dữ liệu sẽ không giải quyết được tất cả các vấn đề về dữ liệu của bạn. Trên thực tế, họ có thể đổ thêm dầu vào lửa, tạo ra nhiều vấn đề hơn những gì họ muốn giải quyết. Đó là bởi vì các hồ dữ liệu có xu hướng bỏ qua các phương pháp hay nhất về dữ liệu.

  • Các hồ dữ liệu cho phép bạn lưu trữ bất cứ thứ gì mà không cần đặt câu hỏi liệu bạn có cần tất cả dữ liệu hay không. Cách tiếp cận này bị lỗi vì nó khiến người dùng data lake khó nhận được giá trị từ dữ liệu.
  • Các hồ dữ liệu không ưu tiên dữ liệu nào đi vào chuỗi cung ứng và dữ liệu đó có lợi như thế nào. Việc thiếu ưu tiên dữ liệu này làm tăng chi phí của các hồ dữ liệu (so với kho dữ liệu và cơ sở dữ liệu) và làm xáo trộn bất kỳ sự rõ ràng nào về dữ liệu nào được yêu cầu. Điều này làm chậm, có thể tạm dừng toàn bộ quá trình phân tích của bạn. Tránh vấn đề này bằng cách tóm tắt và xử lý dữ liệu trước khi lưu trữ nó trong các hồ dữ liệu.
  • Độ trễ dữ liệu cao hơn trong các hồ dữ liệu. Các hồ dữ liệu thường được sử dụng để báo cáo và phân tích; bất kỳ độ trễ nào trong việc thu thập dữ liệu sẽ ảnh hưởng đến phân tích của bạn. Độ trễ trong dữ liệu làm chậm phản hồi tương tác và nói cách khác là tốc độ đồng hồ của tổ chức bạn. Lý do của bạn cho dữ liệu đó và tốc độ truy cập nó, sẽ xác định xem dữ liệu có được lưu trữ tốt hơn trong kho dữ liệu hoặc cơ sở dữ liệu hay không.
  • Các hồ dữ liệu không có quy tắc giám sát những gì chúng có thể thực hiện, làm tăng rủi ro tổ chức của bạn. Thực tế là bạn có thể lưu trữ tất cả dữ liệu của mình, bất kể nguồn gốc của dữ liệu, khiến bạn phải đối mặt với một loạt các rủi ro pháp lý. Nhân số này với tất cả người dùng của data lake trong tổ chức của bạn. Việc thiếu ưu tiên dữ liệu làm tăng thêm rủi ro tuân thủ của bạn.
  • Dữ liệu hồ nuôi dưỡng dữ liệu quá mức. Quá nhiều dữ liệu không được ưu tiên sẽ tạo ra sự phức tạp, đồng nghĩa với việc tăng thêm chi phí và sự nhầm lẫn cho công ty của bạn — và có thể ít giá trị. Các tổ chức không nên tự mình cố gắng tạo ra các hồ dữ liệu; thay vào đó, các hồ dữ liệu chỉ nên được sử dụng trong một chiến lược dữ liệu bao gồm phù hợp với các giải pháp có thể hành động.

Dữ liệu chỉ có giá trị nếu nó có thể được sử dụng để giúp đưa ra quyết định kịp thời. Người dùng hoặc một công ty có kế hoạch phân tích dữ liệu được lưu trữ trong hồ dữ liệu sẽ dành nhiều thời gian để tìm kiếm và chuẩn bị cho phân tích — điều ngược lại hoàn toàn với hiệu quả dữ liệu cho các hoạt động theo hướng dữ liệu.

Thay vào đó, bạn nên luôn xem dữ liệu từ góc độ chuỗi cung ứng: đầu, giữa và cuối. Không quan trọng dữ liệu, bạn nên luôn lập kế hoạch chiến lược cho cách bạn sẽ:

  • Tìm dữ liệu
  • Đưa dữ liệu vào kho lưu trữ dữ liệu của tổ chức
  • Khám phá và chuyển đổi dữ liệu

Cách tiếp cận như vậy cho phép tối ưu hóa giá trị được trích xuất từ ​​dữ liệu.

Tương lai là với kho dữ liệu

Nếu các kho dữ liệu bị bỏ quên cho các hồ dữ liệu, chúng có thể sẽ quay trở lại . Đó là vì hai lý do chính, theo Mark Cusack, CTO của Yellowbrick:

  • Các công ty kho dữ liệu đang cải thiện trải nghiệm đám mây của người tiêu dùng, giúp việc thử, mua và mở rộng kho của bạn trở nên dễ dàng nhất với ít hoặc không có chi phí quản lý.
  • Kho dữ liệu sẽ trở nên quan trọng trong học máy và AI. Đó là bởi vì tiềm năng của ML dựa vào dữ liệu cập nhật từng phút, do đó dữ liệu được lưu trữ tốt nhất trong kho chứ không phải hồ.

Khi phát triển các mô hình học máy, bạn sẽ dành khoảng 80% thời gian chỉ để chuẩn bị dữ liệu. Các kho có khả năng chuyển đổi tích hợp, giúp việc chuẩn bị dữ liệu này được thực hiện dễ dàng và nhanh chóng, đặc biệt là ở quy mô dữ liệu lớn. Và các kho này có thể sử dụng lại các tính năng và chức năng trong các dự án phân tích, có nghĩa là bạn có thể phủ một giản đồ lên các tính năng khác nhau. Điều này làm giảm sự trùng lặp và tăng chất lượng dữ liệu của bạn.

Khi các công ty áp dụng máy học và khoa học dữ liệu, kho dữ liệu sẽ trở thành công cụ có giá trị nhất trong kho công cụ dữ liệu của bạn.

BMC cho các giải pháp dữ liệu

Control-M từng đoạt giải thưởng của BMC là một tiêu chuẩn công nghiệp cho việc điều phối và tự động hóa doanh nghiệp. Và giải pháp SaaS hoàn toàn mới của chúng tôi BMC Helix Control-M cung cấp cho bạn cùng một tổ chức, quyền kiểm soát và điều phối — trên đám mây.

 

Link gốc : https://www.bmc.com/blogs/data-lake-vs-data-warehouse-vs-database-whats-the-difference/

bigdata 2021/1/18 9:40

Để lại dấu chân

Bước trên một chân

Bình luận

copyright © bigdata 2010-2020
Processed in 0 seconds, 0 queries