- Vérifiez votre humanité et travaillez au noir sans être rémunéré ! Ou comment rendre productif un test improductif

,  par Hervé BERNARD dit RVB

Tous les utilisateurs d’Internet connaissent ces tests composés de chiffres et de lettres plus ou moins déformés dont le rôle est d’éviter l’inscription de spammeurs à une pétition ou à un site d’informations. Paradoxe, ces tests automatisés destinés à distinguer un individu d’un programme sont gérés uniquement par des programmes... Malgré cela ils ont un nom : captcha (Acronyme signifiant “Completely Automated Public Turing Test to Tell Computers and Humans Apart”, ou encore en bon français : “test public de Turing entièrement automatisé pour distinguer les humains des ordinateurs”).

Ces tests sont basés sur nos capacités à reconnaître les formes qui composent une image. Habituellement composés de caractères alphanumériques, une nouvelle version beaucoup plus ludique vient cependant d’être mise au point. Beaucoup plus ludique car elle exploite des images. Tout comme les captcha alphanumériques, ce test est en deux étapes. Ici, la première étape est l’identification du le centre de l’une des images constituant un patchwork. La deuxième est de choisir un mot associé à une seconde image dans une liste de termes. Dans cette nouvelle version, les logiciels de reconnaissance de formes sont encore moins efficaces que dans la version des chiffres et des lettres. Si toutefois, vous avez des doutes sur votre humanité, n’hésitez pas à consulter ce lien. Après quelques tests, vous devriez être rassurés...1

Cependant, ce nouveau test, hormis son rôle de gardiens du temple, est tout aussi improductif que les tests précédents. Hors, pour déchiffrer ces captcha, nous travaillions comme de supers logiciels de reconnaissance de caractères et il se trouve que Google a, avec son projet de Bibliothèque numérique, d’énormes besoins de contrôle de ces logiciels.

Par conséquent, Google dans sa grande sagesse a eu l’idée d’associer cette activité de contrôle de notre humanité avec ses problèmes de reconnaissance de caractères dans son activité de numérisation des livres anciens. Scanner est déjà une opération onéreuse mais, corriger les erreurs d’un logiciel de reconnaissance de caractères est une opération longue, nécessitant des compétences et encore plus onéreuse. Comment réduire, les coûts de ces corrections ? En associant les captcha et la reconnaissance de caractères. Si l’un des captcha sert à vérifier votre humanité, l’autre peut non seulement avoir le même rôle mais simultanément vérifier les hypothèses du logiciel de reconnaissance de caractères. En effet, si ce second captcha est envoyé mettons à 500 personnes et que, 98 % de ces personnes en donnent la même interprétation, il y a fort à parier que cette interprétation soit la bonne. Les chances de réussite sont d’autant plus grandes que cette interprétation est faite hors contexte. Le correcteur n’est donc pas influencé par ses présupposés sur le sens de la phrase pas plus qu’il n’essayera de faire de la sémantique. Donc, en vérifiant notre humanité, Google nous fait simultanément travailler à la qualité de la numérisation des ouvrages. C’est pourquoi, Google a fait l’acquisition de la société reCaptcha comme nous l’indique le communiqué de presse ci-dessous (17/09/09). Vous allez me rétorqué où est le problème ? Fondamentalement, aucun, si ce n’est qu’il faut arrêter de nous parler de la gratuité de Google, cette gratuité entre la publicité et ce travail de reconnaissance de caractères est, pour faire une image, un miroir aux alouettes. C’est un mythe qui a la vie dure, et tel Narcisse, nous nous prenons les pieds dedans...

© Hervé Bernard 2009