Průzkum versus využití bez zbytečného rizika
Příliš mnoho průzkumu bolí marži, málo průzkumu brzdí učení. Kontextoví bandité používají konfidenční intervaly nebo posteriorní rozdělení, aby nabízeli ceny, které maximalizují očekávaný přínos a současně zvyšují znalost. Guardraily a stropy na lítost chrání výsledek během testování.