Hỏi đáp về IT
Mã xác nhận Thay đổi một
Ngô Quang Hải quanghaisoft@yahoo.com Bigdata engineering - Backend-IT - MWG

BIG DATA là gì? Giới thiệu, Các loại, Đặc điểm & Ví dụ

Duyệt qua: 89

Để hiểu về 'Dữ liệu lớn', trước tiên bạn cần biết

Dữ liệu là gì?

Các đại lượng, ký tự hoặc ký hiệu mà máy tính thực hiện các hoạt động, có thể được lưu trữ và truyền dưới dạng tín hiệu điện và được ghi lại trên phương tiện ghi từ tính, quang học hoặc cơ học.

Dữ liệu lớn là gì?

Dữ liệu lớn cũng là dữ liệu  nhưng với kích thước khổng lồ . Dữ liệu lớn là một thuật ngữ được sử dụng để mô tả một tập hợp dữ liệu có khối lượng khổng lồ và đang phát triển theo cấp số nhân theo thời gian. Tóm lại, những dữ liệu như vậy quá lớn và phức tạp nên không có công cụ quản lý dữ liệu truyền thống nào có thể lưu trữ hoặc xử lý nó một cách hiệu quả.

Trong hướng dẫn này, bạn sẽ học, 

Dữ liệu lớn là gì

Ví dụ về dữ liệu lớn

Sau đây là một số ví dụ về Dữ liệu lớn-

 

Các  thị trường chứng khoán New York  tạo ra khoảng  một terabyte  dữ liệu thương mại mới mỗi ngày.

 Giới thiệu về BIG DATA: Các loại, Đặc điểm & Lợi ích

Truyền thông xã hội

Thống kê cho thấy rằng  500+ terabyte  dữ liệu mới được đưa vào cơ sở dữ liệu của trang mạng xã hội  Facebook mỗi ngày. Dữ liệu này chủ yếu được tạo về tải lên ảnh và video, trao đổi tin nhắn, bình luận, v.v.

 Giới thiệu về BIG DATA: Các loại, Đặc điểm & Lợi ích

Một động cơ phản lực duy nhất   có thể tạo ra hơn  10 terabyte  dữ liệu trong   thời gian bay 30 phút . Với hàng nghìn chuyến bay mỗi ngày, việc tạo ra dữ liệu lên đến nhiều  Petabyte.

 Giới thiệu về BIG DATA: Các loại, Đặc điểm & Lợi ích

Các loại dữ liệu lớn

BigData 'có thể được tìm thấy ở ba dạng:

  1. Có cấu trúc
  2. Không có cấu trúc
  3. Bán cấu trúc

Có cấu trúc

Bất kỳ dữ liệu nào có thể được lưu trữ, truy cập và xử lý ở dạng định dạng cố định được gọi là dữ liệu 'có cấu trúc'. Theo thời gian, tài năng trong khoa học máy tính đã đạt được thành công lớn hơn trong việc phát triển các kỹ thuật làm việc với loại dữ liệu như vậy (nơi mà định dạng được biết trước) và cũng thu được giá trị từ nó. Tuy nhiên, hiện nay, chúng ta đang thấy trước các vấn đề khi kích thước dữ liệu như vậy phát triển đến mức khổng lồ, các kích thước điển hình đang ở mức khủng khiếp của nhiều zettabyte.

Bạn có biết? 10 21  byte  tương đương với  1 zettabyte  hoặc  một tỷ terabyte  tạo thành  một zettabyte .

Nhìn vào những con số này, người ta có thể dễ dàng hiểu tại sao cái tên Dữ liệu lớn được đặt ra và hình dung những thách thức liên quan đến việc lưu trữ và xử lý nó.

Bạn có biết?  Dữ liệu được lưu trữ trong hệ quản trị cơ sở dữ liệu quan hệ là một ví dụ về  dữ liệu 'có cấu trúc' .

Ví dụ về dữ liệu có cấu trúc

Bảng 'Nhân viên' trong cơ sở dữ liệu là một ví dụ về Dữ liệu có cấu trúc

Mã hiệu công nhân  Tên nhân viên  Giới tính  Phòng ban  Salary_In_lacs
2365  Rajesh Kulkarni  Nam giới  Tài chính 650000
3398  Pratibha Joshi  Giống cái  quản trị viên  650000
7465  Shushil Roy  Nam giới  quản trị viên  500000
7500  Shubhojit Das  Nam giới  Tài chính  500000
7699  Priya Sane  Giống cái  Tài chính  550000

Không có cấu trúc

Bất kỳ dữ liệu nào có dạng không xác định hoặc cấu trúc được phân loại là dữ liệu phi cấu trúc. Ngoài kích thước khổng lồ, dữ liệu không có cấu trúc còn đặt ra nhiều thách thức về quy trình xử lý để thu được giá trị từ nó. Một ví dụ điển hình của dữ liệu phi cấu trúc là một nguồn dữ liệu không đồng nhất chứa sự kết hợp của các tệp văn bản đơn giản, hình ảnh, video, v.v. Ngày nay, các tổ chức ngày nay có sẵn rất nhiều dữ liệu nhưng thật không may, họ không biết cách lấy giá trị từ đó dữ liệu này ở dạng thô hoặc định dạng không có cấu trúc.

Ví dụ về dữ liệu không có cấu trúc

Kết quả được trả về bởi 'Google Tìm kiếm'

 Giới thiệu về BIG DATA: Các loại, Đặc điểm & Lợi ích

 Bán cấu trúc

Dữ liệu bán cấu trúc có thể chứa cả hai dạng dữ liệu. Chúng ta có thể xem dữ liệu bán cấu trúc như một cấu trúc trong biểu mẫu nhưng nó thực sự không được định nghĩa bằng định nghĩa bảng trong DBMS quan hệ. Ví dụ về dữ liệu bán cấu trúc là dữ liệu được biểu diễn trong tệp XML.

Ví dụ về dữ liệu bán cấu trúc

Dữ liệu cá nhân được lưu trữ trong tệp XML-

<rec> <name> Prashant Rao </name> <sex> Nam </sex> <age> 35 </age> </rec>
<rec> <name> Seema R. </name> <sex> Nữ </sex> <age> 41 </age> </rec>
<rec> <name> Satish Mane </name> <sex> Nam </sex> <age> 29 </age> </rec>
<rec> <name> Subrato Roy </name> <sex> Nam </sex> <age> 26 </age> </rec>
<rec> <name> Jeremiah J. </name> <sex> Nam </sex> <age> 35 </age> </rec>

Tăng trưởng dữ liệu qua các năm

Giới thiệu về BIG DATA

 Xin lưu ý rằng dữ liệu ứng dụng web, không có cấu trúc, bao gồm tệp nhật ký, tệp lịch sử giao dịch, v.v. Hệ thống OLTP được xây dựng để hoạt động với dữ liệu có cấu trúc trong đó dữ liệu được lưu trữ trong các quan hệ (bảng).

Đặc điểm của Dữ liệu lớn

(i) Khối lượng -  Bản thân tên gọi Big Data có liên quan đến một kích thước khổng lồ. Kích thước của dữ liệu đóng một vai trò rất quan trọng trong việc xác định giá trị của dữ liệu. Ngoài ra, liệu một dữ liệu cụ thể có thực sự được coi là Dữ liệu lớn hay không, phụ thuộc vào khối lượng dữ liệu. Do đó,  'Khối lượng'  là một đặc điểm cần được xem xét khi xử lý Dữ liệu lớn.

(ii) Tính đa dạng -  Khía cạnh tiếp theo của Dữ liệu lớn là sự đa dạng của nó .

Đa dạng đề cập đến các nguồn không đồng nhất và bản chất của dữ liệu, cả có cấu trúc và không có cấu trúc. Trong những ngày trước đó, bảng tính và cơ sở dữ liệu là nguồn dữ liệu duy nhất được hầu hết các ứng dụng xem xét. Ngày nay, dữ liệu dưới dạng email, ảnh, video, thiết bị giám sát, PDF, âm thanh, v.v. cũng đang được xem xét trong các ứng dụng phân tích. Sự đa dạng của dữ liệu phi cấu trúc này đặt ra một số vấn đề nhất định cho việc lưu trữ, khai thác và phân tích dữ liệu.

(iii) Vận tốc -  Thuật ngữ  'vận tốc'  đề cập đến tốc độ tạo ra dữ liệu. Tốc độ dữ liệu được tạo và xử lý để đáp ứng nhu cầu, xác định tiềm năng thực sự trong dữ liệu.

Big Data Velocity đề cập đến tốc độ mà dữ liệu đi vào từ các nguồn như quy trình kinh doanh, nhật ký ứng dụng, mạng và các trang web truyền thông xã hội, cảm biến, thiết bị di động , v.v. Luồng dữ liệu là lớn và liên tục.

(iv) Tính thay đổi -  Điều này đề cập đến sự không nhất quán mà dữ liệu có thể được hiển thị đôi khi, do đó cản trở quá trình có thể xử lý và quản lý dữ liệu một cách hiệu quả.

Lợi ích của việc xử lý dữ liệu lớn

Khả năng xử lý Dữ liệu lớn mang lại nhiều lợi ích, chẳng hạn như-

    • Các doanh nghiệp có thể sử dụng thông tin bên ngoài trong khi đưa ra quyết định

Quyền truy cập vào dữ liệu xã hội từ các công cụ tìm kiếm và các trang web như facebook, twitter đang cho phép các tổ chức điều chỉnh chiến lược kinh doanh của họ.

    • Cải thiện dịch vụ khách hàng

Các hệ thống phản hồi khách hàng truyền thống đang được thay thế bằng các hệ thống mới được thiết kế với công nghệ Dữ liệu lớn. Trong các hệ thống mới này, Dữ liệu lớn và công nghệ xử lý ngôn ngữ tự nhiên đang được sử dụng để đọc và đánh giá phản ứng của người tiêu dùng.

    • Nhận biết sớm rủi ro đối với sản phẩm / dịch vụ, nếu có
    • Hiệu quả hoạt động tốt hơn

Công nghệ Dữ liệu lớn có thể được sử dụng để tạo khu vực tổ chức hoặc khu vực hạ cánh cho dữ liệu mới trước khi xác định dữ liệu nào nên được chuyển đến kho dữ liệu. Ngoài ra, việc tích hợp công nghệ Dữ liệu lớn và kho dữ liệu như vậy giúp tổ chức giảm tải dữ liệu được truy cập không thường xuyên.

Tóm lược

  • Dữ liệu lớn được định nghĩa là dữ liệu có kích thước khổng lồ. Bigdata là một thuật ngữ được sử dụng để mô tả một tập hợp dữ liệu có kích thước khổng lồ và đang phát triển theo cấp số nhân theo thời gian.
  • Ví dụ về tạo Dữ liệu lớn bao gồm sàn giao dịch chứng khoán, các trang mạng xã hội, động cơ phản lực, v.v.
  • Dữ liệu lớn có thể là 1) Có cấu trúc, 2) Không có cấu trúc, 3) Bán cấu trúc
  • Khối lượng, Sự đa dạng, Vận tốc và Sự thay đổi là một số đặc điểm của Bigdata
  • Dịch vụ khách hàng được cải thiện, hiệu quả hoạt động tốt hơn, Ra quyết định tốt hơn là một vài lợi thế của Bigdata
bigdata 2020/11/11 21:12

Để lại dấu chân

Bước trên một chân

Bình luận

copyright © bigdata 2010-2020
Processed in 0 seconds, 0 queries