Problema întrebărilor vizuale [1]-[6], încearcă să combine două domenii, şi anume computer vision, care se ocupă de înţelegerea informaţiei vizuale, şi prelucrarea limbajului natural, care încearcă să dea înţeles textelor. În forma cea mai obişnuită a întrebărilor vizuale (VQA)...