Alimentando robôs mais inteligentes. Simulando redes neurais humanas. Derrubando médicos em diagnósticos médicos e esmagando os melhores jogadores da humanidade em Go e Atari. Embora longe de alcançar o pensamento flexível e rápido que vem naturalmente aos humanos, essa poderosa ideia de aprendizado de máquina parece imparável como um prenúncio de máquinas pensantes melhores.

Exceto que há um grande obstáculo: eles demoram uma eternidade para funcionar. Como o conceito por trás desses algoritmos é baseado em tentativa e erro, um “agente” de IA de aprendizagem por reforço só aprende depois de ser recompensado por suas decisões corretas. Para problemas complexos, o tempo que um agente de IA leva para tentar e não conseguir aprender uma solução pode rapidamente se tornar insustentável.

Mas e se você pudesse tentar várias soluções ao mesmo tempo?