Hỏi đáp về IT
Mã xác nhận Thay đổi một
Ngô Quang Hải quanghaisoft@yahoo.com Bigdata engineering

Bigdata:Nó là gì và tại sao nó lại quan trọng

Duyệt qua: 136

Dữ liệu lớn là một thuật ngữ mô tả khối lượng lớn dữ liệu - cả có cấu trúc và không có cấu trúc - tràn ngập doanh nghiệp hàng ngày. Nhưng số lượng dữ liệu không quan trọng. Đó là những gì các tổ chức làm với dữ liệu quan trọng. Dữ liệu lớn có thể được phân tích để tìm hiểu thông tin chi tiết dẫn đến các quyết định tốt hơn và các động thái kinh doanh chiến lược.

Lịch sử của Dữ liệu lớn

Thuật ngữ “dữ liệu lớn” đề cập đến dữ liệu quá lớn, nhanh hoặc phức tạp đến mức khó hoặc không thể xử lý bằng các phương pháp truyền thống. Hành động truy cập và lưu trữ một lượng lớn thông tin để phân tích đã có từ lâu. Nhưng khái niệm dữ liệu lớn đã đạt được động lực vào đầu những năm 2000 khi nhà phân tích ngành Doug Laney nêu rõ định nghĩa phổ biến hiện nay của dữ liệu lớn là ba chữ V:

Khối lượng : Các tổ chức thu thập dữ liệu từ nhiều nguồn khác nhau, bao gồm các giao dịch kinh doanh, thiết bị thông minh (IoT), thiết bị công nghiệp, video, phương tiện truyền thông xã hội và hơn thế nữa. Trước đây, việc lưu trữ nó sẽ là một vấn đề - nhưng lưu trữ rẻ hơn trên các nền tảng như data lake và Hadoop đã giảm bớt gánh nặng.

Tốc độ : Với sự phát triển của Internet of Things, dữ liệu truyền đến các doanh nghiệp với tốc độ chưa từng có và phải được xử lý kịp thời. Thẻ RFID, cảm biến và đồng hồ thông minh đang thúc đẩy nhu cầu xử lý các luồng dữ liệu này trong thời gian gần thực.

Đa dạng :  Dữ liệu có ở tất cả các loại định dạng - từ dữ liệu số, có cấu trúc trong cơ sở dữ liệu truyền thống đến tài liệu văn bản phi cấu trúc, email, video, âm thanh, dữ liệu mã chứng khoán và các giao dịch tài chính.

Tại SAS, chúng tôi xem xét hai khía cạnh bổ sung khi nói đến dữ liệu lớn:

Sự thay đổi:

Ngoài tốc độ ngày càng tăng và các loại dữ liệu, các luồng dữ liệu là không thể đoán trước - thay đổi thường xuyên và thay đổi rất nhiều. Đó là một thách thức, nhưng các doanh nghiệp cần biết khi nào thứ gì đó đang thịnh hành trên mạng xã hội và cách quản lý tải dữ liệu cao điểm hàng ngày, theo mùa và do sự kiện kích hoạt.

 

Tính xác thực:

Tính xác thực đề cập đến chất lượng của dữ liệu. Vì dữ liệu đến từ rất nhiều nguồn khác nhau nên rất khó để liên kết, đối sánh, làm sạch và chuyển đổi dữ liệu giữa các hệ thống. Doanh nghiệp cần kết nối và tương quan các mối quan hệ, hệ thống phân cấp và nhiều liên kết dữ liệu. Nếu không, dữ liệu của họ có thể nhanh chóng vượt khỏi tầm kiểm soát.

 

Tại sao dữ liệu lớn lại quan trọng?

Tầm quan trọng của dữ liệu lớn không xoay quanh việc bạn có bao nhiêu dữ liệu mà là bạn làm gì với nó. Bạn có thể lấy dữ liệu từ bất kỳ nguồn nào và phân tích nó để tìm ra câu trả lời cho phép 1) giảm chi phí, 2) giảm thời gian, 3) phát triển sản phẩm mới và cung cấp tối ưu hóa và 4) ra quyết định thông minh. Khi bạn kết hợp dữ liệu lớn với phân tích được hỗ trợ cao , bạn có thể hoàn thành các nhiệm vụ liên quan đến kinh doanh như:

  • Xác định nguyên nhân gốc rễ của các lỗi, các vấn đề và khiếm khuyết trong thời gian gần thực.
  • Tạo phiếu giảm giá tại điểm bán hàng dựa trên thói quen mua hàng của khách hàng.
  • Tính toán lại toàn bộ danh mục rủi ro trong vài phút.
  • Phát hiện hành vi gian lận trước khi nó ảnh hưởng đến tổ chức của bạn.
 Học sâu khao khát dữ liệu lớn vì dữ liệu lớn là cần thiết để cô lập các mẫu ẩn và tìm câu trả lời mà không cần chỉnh sửa dữ liệu. Với học sâu, bạn càng có nhiều dữ liệu chất lượng tốt, thì kết quả càng tốt

 

Cách hoạt động của Dữ liệu lớn

Trước khi các doanh nghiệp có thể đưa dữ liệu lớn vào hoạt động cho họ, họ nên xem xét cách dữ liệu đó lưu chuyển giữa vô số vị trí, nguồn, hệ thống, chủ sở hữu và người dùng. Có năm bước quan trọng để phụ trách “kết cấu dữ liệu” lớn này bao gồm dữ liệu có cấu trúc, truyền thống cùng với dữ liệu không có cấu trúc và bán cấu trúc:

  • Đặt chiến lược dữ liệu lớn.
  • Xác định các nguồn dữ liệu lớn.
  • Truy cập, quản lý và lưu trữ dữ liệu.
  • Phân tích dữ liệu.
  • Đưa ra quyết định dựa trên dữ liệu.
 

1) Đặt chiến lược dữ liệu lớn

Ở cấp độ cao, chiến lược dữ liệu lớn là một kế hoạch được thiết kế để giúp bạn giám sát và cải thiện cách bạn thu thập, lưu trữ, quản lý, chia sẻ và sử dụng dữ liệu trong và ngoài tổ chức của mình. Chiến lược dữ liệu lớn tạo tiền đề cho sự thành công trong kinh doanh giữa lượng dữ liệu dồi dào. Khi phát triển một chiến lược, điều quan trọng là phải xem xét các mục tiêu và sáng kiến ​​hiện tại - và trong tương lai - kinh doanh và công nghệ. Điều này đòi hỏi việc coi dữ liệu lớn giống như bất kỳ tài sản kinh doanh có giá trị nào khác thay vì chỉ là sản phẩm phụ của các ứng dụng.

 

Nhấp vào họa thông tin để tìm hiểu thêm về dữ liệu lớn.

2) Biết các nguồn của dữ liệu lớn

  • Dữ liệu truyền trực tuyến đến từ Internet of Things (IoT) và các thiết bị được kết nối khác truyền vào hệ thống CNTT từ thiết bị đeo được, ô tô thông minh, thiết bị y tế, thiết bị công nghiệp, v.v. Bạn có thể phân tích dữ liệu lớn này khi nó đến, quyết định dữ liệu nào nên giữ hoặc không giữ và dữ liệu nào cần phân tích thêm. 
  • Dữ liệu mạng xã hội bắt nguồn từ các tương tác trên Facebook, YouTube, Instagram, v.v. Điều này bao gồm một lượng lớn dữ liệu lớn dưới dạng hình ảnh, video, giọng nói, văn bản và âm thanh - hữu ích cho các chức năng tiếp thị, bán hàng và hỗ trợ. Dữ liệu này thường ở dạng phi cấu trúc hoặc bán cấu trúc, vì vậy nó đặt ra một thách thức riêng cho việc tiêu thụ và phân tích. 
  • Dữ liệu có sẵn công khai đến từ một lượng lớn các nguồn dữ liệu mở như data.gov của chính phủ Hoa Kỳ, CIA World Factbook hoặc Cổng Dữ liệu Mở của Liên minh Châu Âu. 
  • Dữ liệu lớn khác có thể đến từ các hồ dữ liệu, nguồn dữ liệu đám mây, nhà cung cấp và khách hàng.
 

3) Truy cập, quản lý và lưu trữ dữ liệu lớn

Các hệ thống máy tính hiện đại cung cấp tốc độ, sức mạnh và tính linh hoạt cần thiết để nhanh chóng truy cập số lượng lớn và các loại dữ liệu lớn. Cùng với khả năng truy cập đáng tin cậy, các công ty cũng cần có các phương pháp tích hợp dữ liệu, đảm bảo chất lượng dữ liệu, cung cấp khả năng quản lý và lưu trữ dữ liệu cũng như chuẩn bị dữ liệu cho phân tích. Một số dữ liệu có thể được lưu trữ tại chỗ trong kho dữ liệu truyền thống - nhưng cũng có các tùy chọn linh hoạt, chi phí thấp để lưu trữ và xử lý dữ liệu lớn thông qua các giải pháp đám mây, hồ dữ liệu và Hadoop.

4) Phân tích dữ liệu lớn

Với các công nghệ hiệu suất cao như điện toán lưới hoặc phân tích trong bộ nhớ , các tổ chức có thể chọn sử dụng tất cả dữ liệu lớn của họ để phân tích. Một cách tiếp cận khác là xác định trước dữ liệu nào có liên quan trước khi phân tích. Dù bằng cách nào, phân tích dữ liệu lớn là cách các công ty thu được giá trị và thông tin chi tiết từ dữ liệu. Dữ liệu lớn ngày càng cung cấp nguồn cấp dữ liệu cho các nỗ lực phân tích tiên tiến hiện nay như trí tuệ nhân tạo.

 

5) Đưa ra quyết định thông minh, dựa trên dữ liệu

Dữ liệu đáng tin cậy, được quản lý tốt dẫn đến phân tích đáng tin cậy và các quyết định đáng tin cậy. Để duy trì tính cạnh tranh, các doanh nghiệp cần nắm bắt toàn bộ giá trị của dữ liệu lớn và hoạt động theo hướng dữ liệu - đưa ra quyết định dựa trên bằng chứng được trình bày bởi dữ liệu lớn hơn là bản năng. Lợi ích của việc hướng dữ liệu là rất rõ ràng. Các tổ chức dựa trên dữ liệu hoạt động tốt hơn, hoạt động dễ dự đoán hơn và có lợi hơn.

bigdata 2020/11/11 21:10

Để lại dấu chân

Bước trên một chân

Bình luận

copyright © bigdata 2010-2020
Processed in 0 seconds, 0 queries