Wednesday, January 31, 2018

Tất Cả Những Điều Bạn Cần Biết Về big Data

 

phân tích nhiều dữ liệu chỉ là một phần của việc khiến phân tích big data khác với việc phân tích dữ liệu trước đây. Hãy cùng tìm hiểu các góc cạnh khác.

Có data, và sau đó có big data. Vậy, sự khác biệt là gì?

Big data được định nghĩa

Big data nhìn chung liên quan đến các tập dữ liệu có khối lượng lớn và phức tạp đến mức các phần mềm xử lý dữ liệu truyền thống không có khả năng thu thập, quản lý và xử lý dữ liệu trong một khoảng thời kì hợp lý.

 

Những tập dữ liệu lớn này có thể bao gồm các dữ liệu có cấu trúc, không có cấu trúc và bán cấu trúc, mỗi tập có thể được vỡ hoang để tìm hiểu insights.

bao lăm dữ liệu để đủ gọi là ” big ” vẫn còn được bàn cãi, nhưng nó có thể là các bội số của petabyte – và các dự án lớn nhất với phạm vi exabytes.

Big data thường đặc trưng với ba Vs:

  • Khối lượng dữ liệu
  • Nhiều loại dữ liệu đa dạng
  • véc tơ vận tốc tức thời mà dữ liệu cần phải được xử lý và phân tích

Dữ liệu tạo thành các kho dữ liệu lớn có thể đến từ các nguồn bao gồm các trang web, công cụ truyền thông xã hội, áp dụng dành cho máy tính để bàn và áp dụng trên thiết bị di động, các thử nghiệm khoa học, và các thiết bị cảm biến ngày càng tăng và các thiết bị khác trong internet (IoT).

Khái niệm big data đi kèm với các thành phần có can hệ cho phép các tổ chức đưa dữ liệu vào sử dụng thực tại và giải quyết một số vấn đề kinh dinh, bao gồm cơ sở hạ tầng IT cần thiết để tương trợ big data; các phân tích áp dụng với dữ liệu; công nghệ cấp thiết cho các dự án big data; các bộ kĩ năng can hệ; và các trường hợp thực tại có ý nghĩa đối với big data.

Big data and analytics

Điều đích thực mang lại giá trị từ các tổ chức dữ liệu lớn là phân tích dữ liệu. Nếu không có phân tích, nó chỉ là một tập dữ liệu với việc sử dụng hạn chế trong kinh doanh.

Bằng cách phân tách dữ liệu lớn, các công ty có thể có những ích lợi như tăng doanh thu, dịch vụ khách hàng được cải thiện, hiệu quả cao hơn và tăng khả năng cạnh tranh.

phân tách dữ liệu can hệ đến việc kiểm tra bộ dữ liệu để thu thập thông tin chi tiết hoặc rút ra kết luận về những gì chúng chứa, chả hạn như các xu hướng và dự đoán về hoạt động trong mai sau.

Bằng cách phân tách dữ liệu, các tổ chức có thể đưa ra các quyết định kinh doanh tốt hơn như khi nào và ở đâu nên chạy chiến dịch tiếp thị hoặc giới thiệu một sản phẩm hoặc dịch vụ mới.

Sự phân tích có thể tham khảo các vận dụng kinh doanh sáng ý hay tiền tiến hơn, phép phân tách dự đoán như vận dụng được các tổ chức khoa học sử dụng. Loại phân tích dữ liệu cao cấp nhất là data mining , nơi các nhà phân tách đánh giá các bộ dữ liệu lớn để xác định mối quan hệ, mô hình và xu hướng.

phân tích dữ liệu có thể bao gồm phân tích dữ liệu thăm dò ( để xác định các mẫu và mối quan hệ trong dữ liệu) và phân tích dữ liệu xác nhận ( ứng dụng các kĩ thuật thống kê để tìm ra giả định về một bộ dữ liệu có đúng hay không).

Một mảng khác là phân tách dữ liệu định lượng ( hoặc phân tích dữ liệu số có các biến có thể so sánh theo thống kê) so với phân tách dữ liệu định tính ( tập hợp vào các dữ liệu không phải là dữ liệu cá nhân chủ nghĩa như video, hình ảnh và văn bản).

Cơ sở hạ tầng IT để tương trợ big data

Đối với khái niệm big data để làm việc, các tổ chức cần phải có cơ sở hạ tầng để thu thập và chứa dữ liệu, cung cấp quyền truy cập và bảo đảm thông báo trong khi lưu trữ và chuyển tiếp.

Ở cấp độ cao, bao gồm hệ thống lưu trữ và máy chủ được thiết kế cho big data, phần mềm quản lý và tích hợp dữ liệu, thông tin kinh dinh và phần mềm phân tách dữ liệu, và các ứng dụng big data.

phần đông các cơ sở hạ tầng này sẽ tập kết một chỗ, vì các công ty muốn nối tận dụng các khoản đầu tư vào trọng điểm dữ liệu của mình. Nhưng ngày một có nhiều tổ chức dựa vào các dịch vụ điện toán đám mây để xử lý nhiều yêu cầu big data của họ.

Thu thập dữ liệu đòi hỏi phải có nguồn. Rất nhiều trong số những áp dụng sau đây, như các áp dụng web, các kênh truyền thông tầng lớp, vận dụng di động và lưu trữ email đã được cài sẵn. Nhưng khi IoT trở nên phổ thông hơn, các công ty có thể cần phải triển khai cảm biến trên quơ các loại thiết bị, dụng cụ và sản phẩm để thu thập dữ liệu, cũng như các áp dụng mới tạo ra dữ liệu người dùng. ( phân tách dữ liệu theo định hướng IoT có các kỹ thuật và công cụ chuyên biệt của nó.)

Để lưu trữ tất cả các dữ liệu đến, các tổ chức cần phải có đủ dung lượng lưu trữ tại chỗ. Các tùy chọn lưu trữ bao gồm kho dữ liệu truyền thống, data lakes và lưu trữ trên đám mây.

Các dụng cụ cơ sở hạ tầng bảo mật có thể bao gồm việc mã hóa dữ liệu, xác thực người dùng và các điều khiển truy cập khác, hệ thống giám sát, tường lửa, quản lý di động của doanh nghiệp và các sản phẩm khác để bảo vệ hệ thống và dữ liệu.

Big-data-specific technologies

Ngoài cơ sở hạ tầng IT được sử dụng cho dữ liệu nói chung, có một số công nghệ cụ thể dành cho big data mà cơ sở hạ tầng IT của bạn nên tương trợ.

Hệ sinh thái Hadoop

Hadoop là một trong những công nghệ can dự chặt chịa nhất với big data. Dự án Apache Hadoop phát triển phần mềm mã nguồn mở cho máy tính có khả năng mở rộng và phân tán.

Thư viện phần mềm Hadoop là một khuôn mẫu cho phép xử lý phân tán các bộ dữ liệu lớn trên các nhóm máy tính dùng các mô hình lập trình đơn giản. Nó được thiết kế để mở mang từ một máy chủ độc nhất vô nhị sang hàng ngàn máy khác, mỗi máy cung cấp tính toán và lưu trữ cục bộ.

Dự án bao gồm rất nhiều phần:

  • Hadoop Common, các tiện ích phổ thông tương trợ các phần Hadoop khác
  • Hadoop Distributed File System, cung cấp khả năng truy cập dữ liệu ứng dụng cao
  • Hadoop YARN, một khuôn mẫu cho kế hoạch làm việc và quản lý tài nguyên cụm
  • Hadoop MapReduce, một hệ thống dựa trên YARN để xử lý đồng thời bộ dữ liệu lớn.

Apache Spark

Một phần của hệ sinh thái Hadoop, Apache Spark là một khuôn mẫu tâm tính cụm nguồn mở được dùng làm phương tiện xử lý big data trong Hadoop. Spark đã trở nên một trong những khuôn mẫu xử lý big data quan trọng, và có thể được khai triển theo nhiều cách khác nhau. Nó cung cấp các buộc ràng bản địa đối với Java, Scala, Python (đặc biệt là Anaconda Python distro ), và tiếng nói lập trình R ( R đặc biệt thích hợp với big data ) và tương trợ SQL , streaming data, machine learning  xử lý đồ thị .

Data lakes

Data lakes là các kho lưu trữ chứa khối lượng dữ liệu thô rất lớn ở định dạng gốc của nó cho đến khi những người dùng doanh nghiệp cần dữ liệu. Các nguyên tố giúp tăng trưởng data lakes là những phong trào kỹ thuật số và sự phát triển của IoT. Các data lakes được thiết kế để giúp người dùng dễ dàng truy cập vào một lượng lớn dữ liệu khi có nhu cầu.

NoSQL Databases

Các cơ sở dữ liệu SQL thường ngày được thiết kế cho các giao dịch đáng tin tưởng và các tróc nã ngẫu nhiên, nhưng chúng có những hạn chế như giản đồ cứng nhắc làm cho chúng không thích hợp với một số loại ứng dụng. Cơ sở dữ liệu NoSQL nêu ra những hạn chế, và lưu trữ và quản lý dữ liệu theo những cách cho phép tốc độ hoạt động cao và sự linh hoạt tót vời. Nhiều cơ sở dữ liệu đã được phát triển bởi các công ty tìm cách tốt hơn để lưu trữ nội dung hoặc xử lý dữ liệu cho các trang web lớn. Không giống như các cơ sở dữ liệu SQL, nhiều cơ sở dữ liệu NoSQL có thể được mở rộng theo chiều ngang trên hàng trăm hoặc hàng ngàn máy chủ.

In-memory databases

Cơ sở dữ liệu trong bộ nhớ (IMDB) là một hệ thống quản lý cơ sở dữ liệu chủ yếu dựa vào bộ nhớ chính, thay vì đĩa, để lưu trữ dữ liệu. Cơ sở dữ liệu trong bộ nhớ nhanh hơn các cơ sở dữ liệu được tối ưu hóa trong đĩa, một điểm quan trọng để sử dụng phân tách big data và tạo ra các kho dữ liệu và các siêu dữ liệu.

Các kĩ năng big data

Big data và các vậy phân tách big data yêu cầu kĩ năng cụ thể, dù là từ bên trong tổ chức hay phê chuẩn các chuyên gia bên ngoài.

Nhiều kĩ năng có liên hệ đến các thành phần công nghệ dữ liệu quan yếu như Hadoop, Spark, NoSQL, cơ sở dữ liệu trong bộ nhớ và phần mềm phân tích.

Các lĩnh vực khác cụ thể là về các nguyên tắc như khoa học dữ liệu, khai phá dữ liệu, phân tách thống kê và định lượng, hình dong dữ liệu, lập trình mục đích chung, và cấu trúc dữ liệu và các thuật toán. Ngoài ra cũng cần có những người có kĩ năng quản lý tổng thể để quản lý tiến độ của các dự án big data.

Với độ phổ quát của các dự án phân tách dữ liệu và sự thiếu hụt nhân công về các kĩ năng trên, việc tầng các chuyên gia có kinh nghiệm có thể là một trong những thách thức lớn nhất đối với các tổ chức.

Các trường hợp sử dụng Big data

Big data và phân tách có thể được áp dụng trong nhiều vấn đề kinh dinh và nhiều trường hợp dùng khác nhau. Sau đây là vài ví dụ:

  • phân tách khách hàng. Các công ty có thể kiểm tra dữ liệu khách hàng để nâng cao trải nghiệm của khách hàng, cải thiện tỉ lệ chuyển đổi và giữ khách hàng tốt hơn.
  • phân tích hoạt động. Nâng cao hiệu quả hoạt động và dùng tốt hơn tài sản của công ty là mục tiêu của nhiều công ty. phân tích big data có thể giúp doanh nghiệp vận hành hiệu quả hơn và cải thiện hiệu suất.
  • phòng gian lậu. phân tách dữ liệu có thể giúp các tổ chức xác định các hoạt động khả nghi, và các mẫu có thể chỉ ra hành vi ăn lận và giúp giảm thiểu rủi ro.
  • Tối ưu hóa giá cả. Các công ty có thể sử dụng phân tách big data để tối ưu hóa giá đặt cho sản phẩm và dịch vụ, giúp tăng doanh thu.

No comments:

Post a Comment