Cho những người mới. Có rất nhiều định nghĩa khác nhau về dữ liệu lớn (Big Data), theo thời gian đặc tính của Big Data cũng được bổ sung nhiều chữ V hơn, từ định nghĩa truyền thống Big Data = 3V (Volume, Variety, Velocity), đến SAS định nghĩa Big Data = 5V (3V + Variability, Veracity), rồi khi dữ liệu bắt đầu trở thành “mỏ vàng”, thành nguồn doanh thu mới của mỗi doanh nghiệp thì Big Data = 6V (5V + Value). Trong rất nhiều các định nghĩa khác nhau thì có vẻ định nghĩa của Google bao phủ tất cả các ý “Big data refers to data that would typically be too expensive to store, manage, and analyze using traditional (relational and/or monolithic) database systems. Usually, such systems are cost-inefficient because of their inflexibility for storing unstructured data (such as images, text, and video), accommodating “high-velocity” (real-time) data, or scaling to support very large (petabyte-scale) data volumes”, còn hiểu một cách đơn giản thì Big Data là khái niệm đề cập đến việc thu thập, lưu trữ, xử lý “dữ liệu lớn” mà các hệ thống truyền thống không thể xử lý được. Vậy dữ liệu thế nào gọi là “lớn”? “Dữ liệu lớn” có 6 đặc tính với 6 chữ V ở trên: Volume, Variety, Velocity, Variability, Veracity, và Value.

Đặc tính của Big Data: 6Vs:

📷

ü Volume: khối lượng dữ liệu được tạo ra, lưu trữ và xử lý. Bao nhiêu thì là lớn? Ít nhất nó nên được tính bằng hàng tram Terabyte, còn thông thường thì nó là Petabyte hoặc Exabyte, thậm chí Zettabyte. Một số ví dụ: Facebook tạo ra khoảng 500TB dữ liệu mỗi ngày, con số này ở Twitter là khoảng 8TB.

ü Velocity: tốc độ dữ liệu được tạo ra. Câu hỏi cũ, bao nhiêu thì là lớn? Câu trả lời thì rất đa dạng, vì nó phụ thuộc vào loại dữ liệu mà bạn đang xử lý, nhưng có thể lấy một vài ví dụ trực quan của các tên tuổi lớn như 90 triệu bức ảnh được upload lên Facebook mỗi ngày, con số cho Twitter là 500 triệu tweets được post, 0.4 triệu giờ video được upload lên Youtube hay 3.5 tỷ lượt tìm kiếm được thực hiện mỗi ngày trên Google.

ü Variety: tính đa dạng của dữ liệu. Cái này chắc dễ hiểu rồi, Big Data là không ngán dạng nào, từ dữ liệu có cấu trúc (structure) như các bảng nơi có hàng và cột trong cơ sở dữ liệu quan hệ RDBMS hay bảng tính excel; đến dữ liệu phi cấu trúc (unstructured) như văn bản (text), ảnh (pictures), video, audio, …; và thậm chí cả dữ liệu bán cấu trúc (semi-structure) như file json hay file xml.

ü Variability: tính biến thiên của dữ liệu phản ánh sự không nhất quán trong dữ liệu, đặc biệt là trong xử lý ngôn ngữ tự nhiên, cùng một từ vựng nhưng trong các ngữ cảnh khác nhau nó sẽ mang các ý nghĩa khác nhau. Tính biến thiên của dữ liệu cũng còn được thể hiện qua sự biến thiên về kích thước và tốc độ dữ liệu được sinh ra, do dữ liệu được thu thập từ nhiều nguồn khác nhau.

ü Veracity: mức độ tin cậy của dữ liệu. Đặc tính này đi ngược chiều với các đặc tính khác của Big Data, khi khối lượng dữ liệu ngày càng tăng, tính đa dạng của dữ liệu ngày càng phong phú và tính biến thiên của dữ liệu ngày càng lớn thì mức độ tin cậy của dữ liệu ngày càng giảm xuống.

ü Value: giá trị của dữ liệu. Sẽ không thể nhắc đến Big Data nếu không thể get value từ dữ liệu. Hàng loạt các công ty đã khai thác “mỏ vàng mới” dữ liệu và phát triển mạnh mẽ: Google, Facebook, Amazon, …

Là một khái niệm còn nhiều tranh luận nên chắc chắn “Dữ liệu lớn (Big Data) là gì” sẽ còn là một chủ đề được thảo luận nhiều. Nếu google Big Data Vs chắc chúng ta sẽ có thêm những chữ V mới 7Vs rồi thậm chí 10Vs. Nhưng chắc dừng lại ở 6 cho nó “lộc” nhỉ 😊. Vui lòng để lại comment bên dưới bài viết nếu bạn đang làm trong lĩnh vực Big Data để xem Việt Nam mình đang có những hệ thống dữ liệu lớn đến mức nào nhé. Tên hệ thống: | Volume: | Velocity:

Một hình ảnh dự đoán về mức độ tăng trưởng dữ liệu:

📷

LEAVE A REPLY

Please enter your comment!
Please enter your name here