Monday, April 2, 2018

9 sai lầm của mọi người về "Machine learning'



Những hiểu lầm và quan niệm sai lệch về machine learning xuất hiện ngày một nhiều do nó ngày càng bị bơm hoá. Bài viết này sẽ cho bạn một cái nhìn tổng quát về những gì machine learning có thể và chẳng thể làm.

Machine learning được tin rằng hữu ích đến nỗi nó có thể giải quyết mọi vấn đề và ứng dụng trong mọi cảnh huống. Giống như các công cụ khác, machine learning rất có ích trong một số lĩnh vực cụ thể, đặc biệt đối với các vấn đề mà bạn trực tính gặp phải nhưng bạn biết rõ rằng bạn sẽ không bao giờ có thể thuê đủ người để giải quyết, hoặc đối với các vấn đề có mục tiêu nhưng không có phương pháp rõ ràng để đạt được nó.



Tuy nhiên, mỗi tổ chức thường ứng dụng machine learning theo những cách khác nhau, như 42% những nhà điều hành cấp cao gần đây nói với Accenture rằng họ trông đợi AI sẽ đứng sau quờ quạng những đổi mới vào năm 2021. Nhưng bạn sẽ khai thác nó tốt hơn nếu bạn không bị ảnh hưởng bởi những luồng ý kiến phóng đại hoá và không quá tin vào những định kiến bằng cách hiểu những gì machine learning có thể và không thể thực hiện. 


1. Machine learning là AI

Machine learning và AI thường được cho là hai từ đồng nghĩa, nhưng trong khi machine learning là kỹ thuật được sử dụng rất nhiều trong các phòng thí nghiệm, AI là một mảng lớn bao gồm các lĩnh vực như tầm nhìn máy tính, robot và xử lý tiếng nói tự nhiên , cũng như những cách tiếp cận khác như giảm sự bằng lòng mà không bao gồm machine learning. Hãy nghĩ suy nó như những thứ làm cho máy móc trở thành thông minh hơn. Không phải lúc nào máy móc cũng sử dụng trí não nhân tạo, thứ mà mọi người nghĩ có thể sẽ đương đầu hoặc thậm chí tiến công loài người.

Hãy chú ý đến các thuật ngữ và sử dụng chúng thật chuẩn xác. Machine learning là về học các mô hình và dự đoán các kết quả từ các tập dữ liệu lớn; các kết quả trông có vẻ ” sáng ý” nhưng thật sự nó đang sử dụng các số liệu thống kê với tốc độ và quy mô chưa từng có.

2. toàn bộ các dữ liệu đều có ích

Bạn cần data cho machine learning, nhưng không phải tất thảy dữ liệu đều hữu ích cho machine learning . Để đào tạo hệ thống của bạn, bạn cần những dữ liệu đại diện bao gồm các patterns và kết quả mà hệ thống machine learning của bạn cần phải xử lý. Bạn cần dữ liệu không có các patterns hệ trọng (chẳng hạn như các ảnh cho thấy vơ những người đàn ông đứng lên và tuốt đàn bà ngồi xuống, hoặc cả thảy những chiếc xe đang ở trong ga-ra và cả thảy những chiếc xe đạp đang ở trong một bãi lầy) vị mô hình machine learning sẽ phản ảnh những patterns cụ thể và tìm chúng trong dữ liệu bạn có. bít tất những dữ liệu bạn dùng cho việc đào tạo nó cần phải được phân loại tốt, và dán nhãn các tính năng bạn hỏi machine learning, điều đó tốn rất nhiều công sức.

Đừng nghĩ rằng dữ liệu bạn có luôn tốt, có thể đại diện cho đa số hoặc có thể dễ dàng gắn nhãn.
3. Bạn luôn cần nhiều data

Những cải tiến lớn đã được thực hành gần đây về khả năng nhận mặt hình ảnh, đọc hiểu của máy, dịch thuật và các lĩnh vực khác đã ra mắt nhờ có sự xuất hiện của các dụng cụ tốt hơn, computing hardware như GPUs có thể xử lý một số lượng lớn dữ liệu và những tập dữ liệu lớn đã được gắn nhãn, bao gồm ImageNet và tập dữ liệu Stanford Question Answering. Nhưng nhờ vào một mẹo gọi là transfer learning, bạn không phải lúc nào cũng cần một tập dữ liệu lớn để đạt được kết quả tốt trong một lĩnh vực cụ thể; thay vào đó, bạn có thể dạy hệ thống machine learning học cách dùng tập dữ liệu để nó dần có thể tự học với những tập dữ liệu nhỏ hơn. Đó là cách custom vision APIs từ Salesforce và Microsoft Azure hoạt động: Bạn chỉ cần 30-50 hình ảnh để chứng minh rằng bạn có thể phân loại nhằm có kết quả tốt hơn.

Transfer learning cho phép bạn tùy chỉnh một hệ thống đã được đào tạo từ trước để giải quyết các vấn đề với lượng dữ liệu tương đối nhỏ.
4. Bất kì ai cũng có thể xây dựng một hệ thống machine learning

Có rất nhiều phương tiện mã nguồn mở và framework dành riêng cho machine learning và có ối các khóa học chỉ bạn cách dùng nó. Nhưng machine learning vẫn là một kĩ thuật chuyên ngành; bạn cần biết cách chuẩn bị dữ liệu và phân vùng cho việc đào tạo và testing, bạn cần biết cách chọn thuật toán tốt nhất và biết heuristics để dùng với nó, cách biến nó thành một hệ thống đáng tin tức để sản xuất. Bạn cũng cần phải theo dõi hệ thống để bảo đảm rằng các kết quả được đồng bộ theo thời gian; cho dù thị trường có thay đổi hay hệ thống machine learning của bạn đủ tốt để phân loại các nhóm khách hàng khác nhau hay không, bạn cần tiếp tục rà soát để xem mô hình ấy vẫn còn phù hợp với vấn đề của bạn hay không.

Việc tìm hiểu machine learning tốn rất nhiều thời gian; nếu bạn mới bắt đầu, hãy nghĩ đến APIs và các mô hình đã được đào tạo từ trước mà code của bạn có thể có trong khi bạn có hoặc thuê data science và chuyên gia machine learning để xây dựng các hệ thống tùy chỉnh.
5. bít tất các patterns trong data đều bổ ích

Người mắc bệnh suyễn, người bị đau ngực hoặc bệnh tim và bất kỳ ai trên 100 tuổi đều có tỉ lệ sống sót cao hơn những người bệnh bị viêm phổi. Trên thực tiễn, một hệ thống machine learning đơn giản được thiết kế để tự động nhập hồ sơ bệnh án có thể gửi chúng về tận nhà của bạn ( một hệ thống được huấn luyện trên cùng một dữ liệu với mạng lưới nơ-ron sẽ thực hiện những việc y sì nhau ). Lí do họ có tỉ lệ sống sót cao như thế là do họ luôn được ưu tiên nhập viện vì bệnh viêm phổi rất nguy hiểm.

Hệ thống đang cỡ một pattern hợp lý trong dữ liệu; nó không phải là một pattern hữu dụng để tuyển lựa bệnh nhân vào viện ( mặc dầu nó giúp công ty bảo hiểm dự đoán tổn phí điều trị khá hiệu quả ). Thậm chí nguy hiểm hơn, bạn sẽ không biết rằng những patterns không hiệu quả ấy có trong tập dữ liệu của bạn trừ khi bạn đã biết về chúng.

Trong các trường hợp khác, một hệ thống có thể học một pattern hợp lý ( như hệ thống nhận dạng khuôn mặt đang gây tranh luận vì dự đoán chuẩn xác thiên hướng tình dục từ selfies) , nhưng nó không thực thụ hiệu quả vì không có lời giải thích rõ ràng ( trong trường hợp các bức ảnh hiển thị các tín hiệu từng lớp như pose chứ không phải hình tự nhiên).

Các mô hình ” Black box ” rất hiệu quả nhưng chúng không làm rõ được chúng đã học được pattern nào. Các thuật toán thông minh như Generalized Additive Models có thể làm rõ được model đã học đươc gì để bạn quyết định xem nó có bổ ích để khai triển hay không..
6. Reinforcement learning luôn sẵn sàng để dùng

Hầu như hết thảy các hệ thống machine learning đang được sử dụng ngày nay đều sử dụng supervised learning; Trong nhiều trường hợp, chúng được đào tạo dựa trên các tập dữ liệu được gắn nhãn rõ ràng mà nhiều người đã cùng chuẩn bị. quản các tập dữ liệu ấy mất rất nhiều thời gian và công sức, cho nên các loại unsupervised learning được yêu thích hơn, đặc biệt là reinforcement learning (RL) – cách một agent học phê duyệt việc thử và sai, bằng cách tương tác với môi trường xung quanh và nhận thưởng khi có hành vi đúng. Hệ thống AlphaGo của DeepMind đã dùng RL bên cạnh supervised learning để đánh bại những người chơi Go hàng đầu, và Libratus, một hệ thống được xây dựng dựa trên một team ở Carnegie Mellon, đã sử dụng RL cùng hai kĩ thuật AI khác để đánh bại những người chơi poker hàng đầu trên thế giới tại Texas Hold’Em ( với chiến lược cá cược dài và phức tạp ). Các nhà nghiên cứu đang thí nghiệm RL với mọi thứ từ robot đến testing security software.

Tuy nhiên, RL chỉ phổ thông trong các trường hợp nghiên cứu. Google sử dụng DeepMind để tùng tiệm năng lượng trong các trung tâm dữ liệu của họ bằng việc làm mát chúng hiệu quả hơn; Microsoft sử dụng một phiên bản hạn chế của RL gọi là “ contextual bandits “ để cá nhân chủ nghĩa hoá các tiêu đề đối với các người dùng mới truy cập vào MSN.com. Vấn đề là chỉ có ít môi trường thực tế có phần thưởng và phản hồi tức khắc, và đặc biệt là lường gạt phần thưởng khi agent thực hiện nhiều hành động trước khi xảy ra bất cứ điều gì.
7. Machine learning không bẩm tính

Vì machine learning học từ dữ liệu, nó sẽ sao chép bất kỳ lệch lạc ​​nào trong tập dữ liệu. cỡ hình ảnh của CEO thường sẽ ra hình ảnh của nam CEO da trắng vì có nhiều CEO là người da trắng và là nam hơn những người còn lại. Nhưng machine learning làm các thiên hướng đã sai trở nên … càng sai hơn.

Tập dữ liệu COCO thường được dùng để huấn luyện hệ thống nhận dạng hình ảnh của cả nam và nữ; nhưng nhiều hình ảnh của phụ nữ sẽ được hiển thị bên cạnh thiết bị nhà bếp hơn và nhiều hình ảnh của đàn ông sẽ được hiển thị bên cạnh bàn phím máy tính và chuột hoặc vợt tennis và ván trượt tuyết. Đào tạo hệ thống trên COCO và gán đàn ông với phần cứng máy tính mạnh hơn các số liệu thống kê trong bức ảnh gốc.

Một hệ thống machine learning cũng có thể tạo thêm xu hướng méo mó cho thông tin. Đào tạo một hệ thống machine learning với các frameworks phổ thông để làm đại diện cho các từ như vectơ bộc lộ mối quan hệ giữa frameworks và hệ thống sẽ học hỏi những định kiến như ” đàn ông gắn với lập trình máy tính, đàn bà gắn với nội trợ”, thầy thuốc và y tá hoặc ông chủ để tiếp tân. Nếu bạn dùng hệ thống đó với một hệ thống dịch giữa các tiếng nói có các đại từ như “ he, she “, như trong tiếng Anh, với những đại từ chỉ giới tính trung lập, như trong tiếng Phần Lan hoặc tiếng Thổ Nhĩ Kỳ, ” Họ là bác sĩ ” trở nên ” Anh ấy là bác sĩ ” và ” Họ là y tá ” trở nên ” Cô ấy là y tá “.

Machine learning có thể đưa ra những gợi ý hao hao trên các trang mua sắm khá tốt, nhưng một số vấn đề về thông báo nhạy cảm và feeback liên hồi có thể xảy ra; nếu bạn tham dự vào một nhóm Facebook không nhất trí với việc tiêm ngừa, dụng cụ gợi ý của Facebook sẽ đưa ra gợi ý những nhóm khác liên hệ đến lý thuyết conspiracy hoặc những nhóm tin rằng hình dáng của địa cầu là một mặt phẳng.

Bạn cần hiểu rõ những sai sót của machine learning. Nếu bạn chẳng thể loại bỏ được chúng trong tập dữ liệu, hãy sử dụng các kĩ thuật như thường nhật hoá các liên kết giới tính với các cặp từ để giảm sơ sót hoặc bổ sung các mục không liên quan đến gợi ý để tránh “ filter bubble “.
8. Machine learning chỉ dùng cho những mục đích tốt

Machine learning cũng được dùng trong các tools chống virus, theo dõi nhất cử nhất động của những vụ tấn công mới để có thể phát hiện ra chúng nhanh nhất có thể khi vừa bùng phát. Tuy nhiên, các hacker đang sử dụng machine learning để nghiên cứu các phương tiện phòng chống virus và gian các cuộc tấn công lường đảo với quy mô lớn bằng cách phân tích một lượng lớn public data hoặc phân tích các vụ lường đảo thành công trước đó.
9. Machine learning sẽ dần thay thế con người

Khá nhiều người lo sợ rằng AI sẽ chiếm dần nhiều công việc và kiên cố nó sẽ thay thế dẫn những công việc do con người làm và cả cách thực hành; hệ thống machine learning giúp cải thiện hiệu quả, quá trình diễn ra mượt mà và giảm phí. Về lâu về dài, nó sẽ tạo ra những ra những công việc mới cũng như làm một số công việc ngày nay trở thành lỗi thời.

Tuy nhiên, không phải công việc nào machine learning cũng có thể thực hành được, vì độ phức tạp hoặc quy mô của công việc; thí dụ, bạn không thể thuê đủ người để kiểm tra mọi bức hình được đăng trên social media để xem chúng có liên tưởng đến thương hiệu của bạn hay không.

Việc machine learning đã bắt đầu tham dự vào là tạo ra những nhịp kinh doanh mới, chả hạn như cải thiện trải nghiệm của khách hàng bằng predictive maintenance, và đưa ra những đề xuất và hỗ trợ cho các nhà lãnh đạo của doanh nghiệp. Giống như các đời tự động hóa trước đó, machine learning có thể giúp viên chức phát huy tối đa chuyên môn và sự sáng tạo của họ.

No comments:

Post a Comment