Hỏi đáp về IT
Mã xác nhận Thay đổi một
HNQ Bigdata engineering
Hướng dẫn lập trình -Spark RDD 2021/2/3
Hướng dẫn lập trình RDD  Tổng quat Ở cấp độ cao, mọi ứng dụng Spark bao gồm một chương trình điều khiển chạy mainchức năng của người dùng và thực hiện các hoạt động song song khác nhau trên một cụm. T...
posted by bigdata at 8:50 Duyệt qua(992) Bình luận(0)
Apache Spark 3.0 tăng hiệu suất khối lượng công việc SQL của bạn như thế nào 2021/1/18
Trong hầu hết các lĩnh vực hoạt động với dữ liệu phức tạp, Spark đã nhanh chóng trở thành khung máy tính phân tán trên thực tế cho các nhóm trong vòng đời dữ liệu và phân tích. Một trong những ...
posted by bigdata at 11:04 Duyệt qua(265) Bình luận(0)
Giải thích về lưu trữ dữ liệu: Data Lake so với Warehouse so với Database 2021/1/18
  "Bài này cho ta biết khi nào dùng database, khi nào dùng datalakeNếu ta áp dụng không đúng mục tiêu chức năng sẽ gây mất thêm thời gian"Ngô Quang Hải (Bigdata engineering at MWG)   Lưu tr...
posted by bigdata at 9:40 Duyệt qua(483) Bình luận(0)
Quản lý các phân vùng Spark với Coalesce và Repartition 2020/11/23
  https://medium.com/@mrpowers/managing-spark-partitions-with-coalesce-and-repartition-4050c57ad5c4 Spark chia dữ liệu thành các phân vùng và thực hiện các phép tính trên các phân vùng song song. Bạn nê...
posted by bigdata at 11:14 Duyệt qua(358) Bình luận(0)
groupByKey so với ReduceByKey trong Apache Spark 2020/11/23
groupByKey vs reduceByKey in Apache Spark Cái nào tốt hơn groupByKey hay ReduceByKey? https://www.edureka.co/community/11996/groupbykey-vs-reducebykey-in-apache-spark   Khi áp dụng  groupByKey ()  trên tập dữ liệu của các cặp (K,...
posted by bigdata at 11:03 Duyệt qua(297) Bình luận(0)
Tổng số 36 mục, 5 mục / trang 1 2 3 4 5 6 7 8 Trang tiếp theo» 
copyright © bigdata 2010-2020
Processed in 0 seconds, 0 queries