Để dạy dỗ máy tính nói chuyện như con người, Elon Musk cho đọc Reddit

Ứng dụng 21/08/2016 04:50

Ta gần như có thể chắc chắn rằng DGX-1 sẽ học cách chửi thề từ Reddit.

dedaydoembemaytinhcachnoichuyennhuconnguoielonmusk

CEO của NVIDA, ông Jen-Hsun Huang đã ra cho ra mắt thế giới siêu máy tính DGX-1 với trí thông minh nhân tạo OpenAI của Elon Musk. Và những “bộ não lớn” này đã có cho mình một định hướng dạy dỗ “em bé” này, họ muốn DGX-1 học cách trò chuyện bằng cách tham khảo Reddit.

Sự lựa chọn này được nhiều người cho rằng là không sáng suốt cho lắm, bởi lẽ trên Reddit cũng không thiếu những thành phần “bất hảo” viết nên những comment “bất hảo” không kém, nhưng chính kích cỡ khổng lồ của forum này là thứ đã lôi cuốn đội ngũ nghiên cứu. “Deep learning là một lĩnh vực rất riêng và khi mà bạn tăng được kích cỡ nó lên, deep learning sẽ luôn có một kết quả tốt hơn nhiều”, theo lời của nhà nghiên cứu OpenAI, ông Andrej Karpathy.

DGX-1 là một cỗ máy với GPU là NVIDIA Tesla P100, 7TB bộ nhớ và hai bộ xử lý Xeon. Tốc độ xử lý của DGX-1 là 170 teraflop, tương đương với 250 server (một teraflop tương đương với hiệu suất một nghìn tỷ phép tính/giây). Hơn nữa, cấu trúc song song của DGX-1 khiến nó trở thành một cỗ máy lý tưởng để học thuật toán deep learning của OpenAI. Theo như NVIDIA, chi phí để tạo ra DGX-1 là 2 tỷ USD.

OpenAI, hệ thống được Musk tạo ra để chắc chắn rằng trí thông minh nhân tạo sẽ không tiêu diệt chúng ta như ông lo sợ, sẽ sử dụng sức mạnh của DGX-1 để đọc hết gần 2 tỷ bình luận trên Reddit trong vòng vài tháng. Việc này sẽ giúp OpenAI học nói (hoặc học cả cách chửi thề nữa) một cách nhanh chóng và chính xác hơn. “Bạn có thể lấy một lượng dữ liệu lớn để nó phân tích và có thể huấn luyện được một chatbot học nói, qua cách mà con người sử dụng ngôn ngữ và cách giao tiếp”, nhà nghiên cứ Karpathy nói.

Điều tuyệt vời nhất là các nhà nghiên cứu không cần phải cải tiến nhiều việc học ngôn ngữ cũng như nhận diện hình ảnh của OpenAI. “Chúng tôi không cần thêm đoạn mã mới nào, chỉ cần lấy những mã có sẵn và tăng kích cỡ của chúng lên thôi”, một trong những nhà khoa học nghiên cứu OpenAI, Ilya Sutskever nói.

Chúng ta không thể mong muốn DGX-1 không mắc “sai lầm” giống như siêu máy tính Watson của IBM, ai có thể ngồi lọc tư liệu cho hệ thống này học chữ bây giờ?

Hồi năm 2013, các nhà khoa học đã cho Watson “học” urban dictionary, với mong muốn cho siêu máy tính này có thể hiểu được những từ lóng như “OMG” nhưng mọi chuyện đã trở nên “tồi tệ”, khi Watson bắt đầu sử dụng cụm từ “bulls*#t” thường xuyên. Với việc DGX-1 ngồi đọc cả tỉ bình luận trên Reddit, ta hãy chờ vài tháng nữa xem cậu ta sẽ chửi bậy ác tới mức nào.