BigdataKhái niệm về Dữ liệu lớn (Big Data)

Khái niệm về Dữ liệu lớn (Big Data)

-

- Advertisment -

Cho những người mới. Có rất nhiều định nghĩa khác nhau về dữ liệu lớn (Big Data), theo thời gian đặc tính của Big Data cũng được bổ sung nhiều chữ V hơn, từ định nghĩa truyền thống Big Data = 3V (Volume, Variety, Velocity), đến SAS định nghĩa Big Data = 5V (3V + Variability, Veracity), rồi khi dữ liệu bắt đầu trở thành “mỏ vàng”, thành nguồn doanh thu mới của mỗi doanh nghiệp thì Big Data = 6V (5V + Value). Trong rất nhiều các định nghĩa khác nhau thì có vẻ định nghĩa của Google bao phủ tất cả các ý “Big data refers to data that would typically be too expensive to store, manage, and analyze using traditional (relational and/or monolithic) database systems. Usually, such systems are cost-inefficient because of their inflexibility for storing unstructured data (such as images, text, and video), accommodating “high-velocity” (real-time) data, or scaling to support very large (petabyte-scale) data volumes”, còn hiểu một cách đơn giản thì Big Data là khái niệm đề cập đến việc thu thập, lưu trữ, xử lý “dữ liệu lớn” mà các hệ thống truyền thống không thể xử lý được. Vậy dữ liệu thế nào gọi là “lớn”? “Dữ liệu lớn” có 6 đặc tính với 6 chữ V ở trên: Volume, Variety, Velocity, Variability, Veracity, và Value.

Đặc tính của Big Data: 6Vs:

📷

ü Volume: khối lượng dữ liệu được tạo ra, lưu trữ và xử lý. Bao nhiêu thì là lớn? Ít nhất nó nên được tính bằng hàng tram Terabyte, còn thông thường thì nó là Petabyte hoặc Exabyte, thậm chí Zettabyte. Một số ví dụ: Facebook tạo ra khoảng 500TB dữ liệu mỗi ngày, con số này ở Twitter là khoảng 8TB.

ü Velocity: tốc độ dữ liệu được tạo ra. Câu hỏi cũ, bao nhiêu thì là lớn? Câu trả lời thì rất đa dạng, vì nó phụ thuộc vào loại dữ liệu mà bạn đang xử lý, nhưng có thể lấy một vài ví dụ trực quan của các tên tuổi lớn như 90 triệu bức ảnh được upload lên Facebook mỗi ngày, con số cho Twitter là 500 triệu tweets được post, 0.4 triệu giờ video được upload lên Youtube hay 3.5 tỷ lượt tìm kiếm được thực hiện mỗi ngày trên Google.

ü Variety: tính đa dạng của dữ liệu. Cái này chắc dễ hiểu rồi, Big Data là không ngán dạng nào, từ dữ liệu có cấu trúc (structure) như các bảng nơi có hàng và cột trong cơ sở dữ liệu quan hệ RDBMS hay bảng tính excel; đến dữ liệu phi cấu trúc (unstructured) như văn bản (text), ảnh (pictures), video, audio, …; và thậm chí cả dữ liệu bán cấu trúc (semi-structure) như file json hay file xml.

ü Variability: tính biến thiên của dữ liệu phản ánh sự không nhất quán trong dữ liệu, đặc biệt là trong xử lý ngôn ngữ tự nhiên, cùng một từ vựng nhưng trong các ngữ cảnh khác nhau nó sẽ mang các ý nghĩa khác nhau. Tính biến thiên của dữ liệu cũng còn được thể hiện qua sự biến thiên về kích thước và tốc độ dữ liệu được sinh ra, do dữ liệu được thu thập từ nhiều nguồn khác nhau.

ü Veracity: mức độ tin cậy của dữ liệu. Đặc tính này đi ngược chiều với các đặc tính khác của Big Data, khi khối lượng dữ liệu ngày càng tăng, tính đa dạng của dữ liệu ngày càng phong phú và tính biến thiên của dữ liệu ngày càng lớn thì mức độ tin cậy của dữ liệu ngày càng giảm xuống.

ü Value: giá trị của dữ liệu. Sẽ không thể nhắc đến Big Data nếu không thể get value từ dữ liệu. Hàng loạt các công ty đã khai thác “mỏ vàng mới” dữ liệu và phát triển mạnh mẽ: Google, Facebook, Amazon, …

Là một khái niệm còn nhiều tranh luận nên chắc chắn “Dữ liệu lớn (Big Data) là gì” sẽ còn là một chủ đề được thảo luận nhiều. Nếu google Big Data Vs chắc chúng ta sẽ có thêm những chữ V mới 7Vs rồi thậm chí 10Vs. Nhưng chắc dừng lại ở 6 cho nó “lộc” nhỉ 😊. Vui lòng để lại comment bên dưới bài viết nếu bạn đang làm trong lĩnh vực Big Data để xem Việt Nam mình đang có những hệ thống dữ liệu lớn đến mức nào nhé. Tên hệ thống: | Volume: | Velocity:

Một hình ảnh dự đoán về mức độ tăng trưởng dữ liệu:

📷

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest news

Tổng hợp Paypal limit –Nguyên nhân phòng tránh và cách gỡ paypal limit

Limit Paypal là gì? Khi bạn tham gia kiếm tiền trên mạng hay tạo dựng kinh doanh online thu nhập ổn...

Cài đặt Janus Gateway và Nginx with rtmp module

Janus là một mã nguồn mở của webRTC, cung cấp nhiều tiện ích giúp cho việc Chat, Videos/Audio call,...

“Multitasking làm giảm 10 điểm IQ ở con người”: Khoa học đã chứng minh

Nếu bạn còn đang băn khoăn có nên mutitask (đa tác vụ) hay không, thì hãy dành ra 3...

DECLARATIVE PROGRAMMING!

Chắc hẳn trong công việc, mọi người đều có những mục tiêu riêng, đích đến nhất định qua các...
- Advertisement -

Data Engineer là gì? Mọi thứ bạn cần biết về kỹ sư dữ liệu

Chúng ta rất dễ bỏ qua lượng dữ liệu được tạo ra hàng ngày – từ điện thoại thông...

Dữ liệu là gì? Tầm quan trọng của dữ liệu khách hàng đối với doanh nghiệp

Đa số các bạn marketer hay những nhà quản lý nghĩ rằng; điều khiển dữ liệu (data-driven) có nghĩa...

Must read

“Multitasking làm giảm 10 điểm IQ ở con người”: Khoa học đã chứng minh

Nếu bạn còn đang băn khoăn có nên mutitask...
- Advertisement -

You might also likeRELATED
Recommended to you