HỌC TĂNG CƯỜNG Tiếng anh là gì - trong Tiếng anh Dịch

reinforcement learning

Ví dụ về việc sử dụng Học tăng cường trong Tiếng việt và bản dịch của chúng sang Tiếng anh

{-}
  • Colloquial category close
  • Ecclesiastic category close
  • Computer category close
Thời gian học tăng cường- Khối thời gian 30 phút để học/ hỗ trợ thêm.
Learning Enhancement Time- 30 minute time block for study/extra support.
Sự hợp nhất giữa các mô hình vàkế hoạch trong các hệ thống học tăng cường là một phát triển mới.
The incorporation of models and planning into reinforcement learning systems is a relatively new development.
Học tăng cường liên quan đến việc đưa ra một robot hoặc hệ thống một mục tiêu và cho phép nó học cách đạt được mục tiêu đó.
Reinforcement learning- it involves giving a goal to a system or robot and allowing it to learn how to reach the desired goal.
Nếu xác suất hoặc phần thưởng là chưa biết,bài toán là bài toán học tăng cường( Sutton và Barto, 1998).
If the probabilities or rewards are unknown,the problem is one of reinforcement learning(Sutton and Barto, 1998).
Các bài toán thường được giải quyết bằng học tăng cường là các bài toán điều khiển, trò chơi và các nhiệm vụ quyết định tuần tự( sequential decision making) khác.
Tasks that fall within the paradigm of reinforcement learning are control problems, games and other sequential decision making tasks.
AWS DeepRacer là một chiếc xe đua với tỷ lệ 1/18 giúp bạn bắt đầu học tăng cường( RL) một cách vui nhộn và thú vị.
AWS DeepRacer is a 1/18th scale race car which provides an interesting andfun way to get started with reinforcement learning(RL).
Một trong những thách thức của học tăng cường, không có trong các loại học khác, là sự đánh đổi giữa thăm dò( exploration) và khai thác( exploitation).
One of the challenges that arise in Reinforcement Learning, and not in other kinds of learning, is trade-off between exploration and exploitation.
Với ba phần cuốn sách bao gồm cả nền tảng khái niệm của việc học tăng cường và các phát triển và ứng dụng mới nhất của nó.
With its three sections, the book covers both the conceptual foundations of reinforcement learning and its latest developments and applications.
Khi bạn đisâu vào các lĩnh vực mới của việc học tăng cường, bạn sẽ hiểu được các thuật toán tiên tiến là các thành phần chính đằng sau các trò chơi phổ biến Go, Atari và Dota.
As you delve into newly evolved areas of reinforcement learning, you will gain an understanding of state-of-the-art algorithms that are the main components behind popular games Go, Atari, and Dota.
Để xác nhận giả thuyết, nhómnhà nghiên cứu Google thử nghiệm tất cả các thuật toán học tăng cường hiện đại nhất và nhận ra rằng chúng còn hoạt động kém.
To confirm this hypothesis,the Google team tested all the current state-of-the-art reinforcement-learning algorithms and found that they perform poorly.
Thành công gần đây đãđược báo cáo với ứng dụng của học tăng cường sâu trong các thiết lập tiếp thị trực tiếp, thể hiện sự phù hợp của phương pháp này dành cho tự động hóa CRM.
Recently success has been reported with application of deep reinforcement learning in direct marketing settings, illustrating suitability of the method for CRM automation.
Nếu trí tuệ thực sự là một cái bánh kem thì việc họckhông giám sát là thân bánh, học có giám sát là phần kem còn học tăng cường là những quả cherry trên bánh.
If[artificial] intelligence was a cake, unsupervised learning would be the cake,supervised learning would be the icing on the cake, and reinforcement learning would be the cherry on the cake.
Trong bài viết này,tác giả tóm tắt ngắn gọn khái niệm học tăng cường và cách học sâu tăng cường sự thành công của học tăng cường trong những năm gần đây.
In the presentation, we briefly review notion of reinforcement learning and how deep learning enhance the successof reinforcement learning recent years.
Học tăng cường, loại học máy phổ biến thứ ba nhằm mục đích sử dụng các quan sát thu thập được từ sự tương tác với môi trường của nó để thực hiện các hành động nhằm tối đa hóa phần thưởng hoặc giảm thiểu rủi ro.
Reinforcement learning, the third popular type of machine learning aims at using observations gathered from the interaction with its environment to take actions that would maximize the reward or minimize the risk.
Volkswagen hiện đang sử dụng điện toán lượng tử nhằm cải thiện kỹ thuật học tăng cường cho các đại lý phần mềm để tìm hiểu về tương tác với môi trường của chúng, ví dụ như trong hoạt động đỗ xe tự động”.
Volkswagen is now using quantum computing to improve reinforcement learning techniques for software agents to learn about interacting with their environment, for example in automated parking.”.
Bộ điều khiển sử dụng tìm kiếm expectimax với chức năng đánh giá trạng thái được học từ đầu( không có chuyên môn của con người 2048) bằngmột biến thể sự khác biệt thời gian học tập( một kỹ thuật học tăng cường).
The controller uses expectimax search with a state evaluation function learned from scratch(without human 2048 expertise)by a variant of temporal difference learning(a reinforcement learning technique).
Trong học sâu, mạng nơ- ron có khả năng mạnh mẽ để xử lý dữ liệu chiều cao,một phương tiện tốt để tìm hiểu các tính năng trong khi học tăng cường có thể khiến một hệ thống tự học cho mục tiêu mới và trong môi trường mới.
In Deep Reinforcement Learning, neural networks have strong ability to deal with high dimensional data,a good mean to learn features and functional approximation while reinforcement learning can make a system learn itself for a new goal and in a new environment.
Kỹ năng được học bởi chương trình DeepMind, bị hạn chế đến mức nó không thể phản ứng ngay cả với những thay đổi nhỏ đối với môi trường mà một người thông thường sẽ có- ít nhất làkhông phải học thêm hàng ngàn vòng học tăng cường nữa.
The skill learned by DeepMind's program is so restricted that it cannot react even to tiny changes to the environment that a person would take in their stride-at least not without thousands more rounds of reinforcement learning.
Không gian hành động khổng lồ" của StarCraft 2 khiến nhiều kỹ thuật học tập củng cố hiện tại không hiệu quả,nhưng" AlphaStar sử dụng thuật toán mới để học tăng cường, cho phép nó phát triển những chiến thuật mới thông qua những chiến thuật cũ.”.
The"enormous action space" of StarCraft 2 rendered many existing reinforcement learning techniques ineffective,but"AlphaStar uses a new algorithm for off-policy reinforcement learning, which allows it to efficiently update its policy from games played by an older policy.".
Học tăng cường” đối với AI đã được chứng minh là mang lại hiệu quả rất cao trước đó, với việc DeepMind Technologies biểu diễn AI có thể học chơi các game như cờ vây hay cờ vua, và OpenAI trình làng AI có thể chơi số trận Dota 2 mỗi ngày tương đương với 180 ngày của người chơi thông thường.
Reinforcement learning for AI has been shown to be highly effective before, with DeepMind Technologies showing it can learn how to play games such as Go or Chess and OpenAI showing that its AI plays 180 days worth of Dota 2 every single day.
Khoảnh khắc đầu tiên là vào tháng ba 2016, khi AlphaGo- Một hệ thống học máy được xây dựng bởi Google' s DeepMind vàsử dụng các thuật toán và học tăng cường để đào tạo trên những bộ số liệu lớn và cho ra những kết quả dự đoán- đánh bại nhà vô địch thế giới Lee Sedol tại một trò chơi.
The first came in March 2016, when AlphaGo- a machine learning systembuilt by Google's DeepMind that uses algorithms and reinforcement learning to train on massive datasets and predict outcomes- beat world champion Lee Sedol at the game.
Thay vào đó, DeepMind vàcác viện nghiên cứu khác sử dụng học tăng cường để cho phép các AI tự tìm hiểu cách chơi, đó là lý do tại sao phần mềm thường phát triển được những phong cách chơi kỳ lạ và khó có thể dự báo trước được, và hiện được nhiều game thủ con người có trình độ cao sao chép.
Instead, DeepMind and other research institutions use reinforcement learning to let the agents figure out how to play on their own, which is why the software often develops novel and wildly unpredictable play styles that have since been adopted by top human players.
Trí tuệ nhân tạo mà chúng ta tương tác hàng ngày- những công cụ tìm kiếm của Google, những công cụ gợi ý của Netflix và các trợ lý như Alexa hay Siri- sẽ ngày càng thông dụng và hữu ích,như sự đột phá trong học sâu và học tăng cường giúp mang lại nhiều dịch vụ có khả năng và đáng tin cậy hơn.
The AI we interact with day-to-day- whether it is Google search engines, Netflix recommendation engines or assistants like Alexa or Siri- will become increasingly ubiquitous as well as useful,as breakthroughs in deep learning and reinforcement learning lead to more capable and reliable services.
Bằng cách sử dụng phương pháp học tăng cường sâu này, các nhà nghiên cứu đã có thể xác định một phương pháp điều trị mới cho bệnh nhân đạt tỷ lệ sống 100%( đối với bệnh nhân ít nhất là hệ thống đã được đào tạo), với tỷ lệ tử vong thấp hơn 1% cho 500 bệnh nhân được chọn ngẫu nhiên.
By using this deep reinforcement learning approach, the researchers were able to identify a new treatment for patients that achieved a 100 percent survival rate(for patients the system had been trained on at least), with a lower than 1 percent mortality rate for 500 patients selected at random.
Quy trình quyết định Markov( MDP) cung cấp một framework toán học cho việc mô hình hóa việc ra quyết định trong các tình huống mà kết quả là một phần ngẫu nhiên và một phần dưới sự điều khiển của một người ra quyết định. MDP là rất hữu dụng cho việc học một loạt bài toán tối ưu hóa được giải quyếtthông qua quy hoạch động và học tăng cường.
Markov decision processes(MDPs) provide a mathematical framework for modeling decision making in situations where outcomes are partly random and partly under the control of a decision maker. MDPs are useful for studying a wide range ofoptimization problems solved via dynamic programming and reinforcement learning.
Trong học tăng cường( RL), một thuật toán không mô hình( trái ngược với một thuật toán dựa trên mô hình) là một thuật toán mà không sử dụng các phân bố xác suất chuyển tiếp( và các hàm phần thưởng) được gắn liền với quá trình quyết định Markov( MDP)[ 1], cái mà trong RL dùng để biểu diễn cho vấn đề cần giải quyết.
In reinforcement learning(RL), a model-free algorithm(as opposed to a model-based one) is an algorithm which does not use the transition probability distribution(and the reward function) associated with the Markov decision process(MDP)[1], which, in RL, represents the problem to be solved.
Học tăng cường khác với học có giám sát theo cách học có giám sát, dữ liệu huấn luyện có khóa trả lời, vì vậy mô hình được đào tạo với câu trả lời đúng trong khi học tăng cường, không có câu trả lời nào ngoài tác nhân củng cố quyết định phải làm gì để thực hiện nhiệm vụ nhất định.
Reinforcement learning differs from supervised learning because, in supervised learning, the training data has the answer key with it so the model is trained with the correct answer itself, whereas in reinforcement learning, there is no answer, but the reinforcement agent decides what to do to perform the given task.
Học tăng cường không ổn định hoặc phân kỳ khi xấp xỉ hàm phi tuyến như mạng nơ ron được sử dụng để biểu diễn Q. Sự không ổn định này xuất phát từ các tương quan có trong chuỗi các quan sát, thực tế là các cập nhật nhỏ cho Q có thể thay đổi đáng kể chính sách và dữ liệu phân phối và mối tương quan giữa Q và các giá trị đích.
Reinforcement learning is unstable or divergent when a nonlinear function approximator such as a neural network is used to represent Q. This instability comes from the correlations present in the sequence of observations, the fact that small updates to Q may significantly change the policy and the data distribution, and the correlations between Q and the target values.
Kết quả: 28, Thời gian: 0.0165

Từng chữ dịch

Truy vấn từ điển hàng đầu

Tiếng việt - Tiếng anh