Un peu de linguistique dans ce monde de brutes... (1)

Publié le par El Charpi

Pour ceux que ça interesserait, je vais vous parler aujourd'hui de linguistique computationelle (haha !).
Un mot très compliqué pour un concept assez simple : chercher la réponse à la question : "comment pourrait-on faire comprendre le langage humain à un ordinateur ?"

Je ne parle pas de comprendre les sons que l'on prononce, aujourd'hui on arrive plutôt bien à faire des commandes vocales (même si ça ne remplacera jamais le clavier, à mon avis).
Non, je parle de vraiment faire comprendre le langage, pour qu'un ordinateur comprenne que la phrase "j'ai mal au bras" a un sens mais "j'ai mal au frigo" n'en a pas.

// Le commentaire de Thomas me fait tout de même préciser que si on arrive à donner des commandes simples à un ordinateur, on arrive pas encore à lui faire de la reconnaissance vocale parfaite. Où on se cantonne à des commandes vocales brèves, ou on doit passer du temps à régler le bidule pour qu'il reconnaisse ta voix - et il ne recconnaîtra que celle-là.


A quoi ça pourrait servir ? A énormément de choses.
Déjà, à faciliter l'interface homme/machine. Qu'est-ce que ce serait simple de pouvoir dire au PC : "tu me télécharges ce document, ensuite tu le mettras dans tel fichier puis tu t'eteindras" sans avoir besoin de connaissances poussées en langage bash...
Ensuite, ça permettrait aux PCs d'enfin traduire correctement d'une langue à une autre. Si vous n'avez jamais utilise les traducteurs automatiques (y'en a une floppée disponibles grattuitement sur le Net), c'est hyper-rigolo. Le meilleur des jeux étant bien sûr de prendre un texte, de le traduire en anglais, puis en néérlandais, puis en espagnol, puis en allemand, et enfin de le faire revenir dans sa langue d'origine pour comparer les deux.
Enfin, sans aller jusque là, ce serait bien pratique pour faciliter le travail des moteurs de recherche. Aujourd'hui, quand on tape dans Google "production laitière", il va rechercher ses deux mots, en ignorant totalement les résultats de "production de lait", par exemple. Si on recherche "poèsie du XIXème siècle", il ne va pas chercher "poètes du XIXème siècle". Ca à l'air plus simple à faire, ça, mais il faut faire attention à ce que notre nouveau Google ne confonde pas "production minière" et "production de mines", par exemple.

// Le commentaire de Thomas (encore lui) me fait dire que Google, en fait, arrive à le faire. Mea culpa.

Bref, cette science est vachement utile.

Ca fait depuis 1949 que les chercheurs se penchent là-dessus. Bien sûr, à l'époque, c'était totalement hors des moyens de la science actuelle. Les recherches ont été arrêtées dans les années 60, tellement les chercheurs étaient sûrs de ne jamais y arriver. Mais elles ont repris ensuite, grâce à un scientifique contemporain dont le nom est vachement connu mais dont peu de gens savent pourquoi, un certain Noam Chomsky.


Commenter cet article

Traduire en anglais 07/10/2009 21:42


Si on maitrise une langue, il faut évidemment bien sure savoir la traduire correctement. Car beaucoup de personne ont encore du mal à faire des traductions.


Aszarsha (Thomas H.) 27/01/2009 17:56

Clément, tu sais combien je t'estime.Cependant, tu traite dans ce post d'un des sujets phares de mon domaine de recherche (sans compter que je suis de toute façon comme ça pour tout... :p), et je ne peut donc laisser certaines erreurs non rectifiées.Premièrement, non, la reconnaissance de la parôle est très loin d'être résolue. Oui, on sais reconnaitre certains mot prédéfinis et en petite quantité, mais rien de plus. Le problème est bien plus profond qu'il n'y parrait, et l'on se retrouve soit avec un modèle capable d'apprendre plusieurs mots mais étant "overfitté" (comme on dit) à la voix d'une personne, soit un modèle capable de reconnaitre les voix d'une majorité de personne mais pour seulement une poignée de mots...Par ailleurs, ton assertion quand à la non-sémantique dans les algorithmes de Google est fausse. Tous les algos d'apprentissage machine (ce qu'utilise Google) extraient une sémantique dans leur ensemble de données. Les résultats ne sont pas toujours ceux que l'on s'attendrait à avoir, mais la sémantique est bien déduite, je peux t'en assurer. *Le problème majeur avec ton texte, c'est que tu suppose encore l'utilisation de technique archaiques des années 70-80 à base de règles. Ce qui est incroyablement loin d'être le cas.(*) Même une analyse de texte à base de n-gram (considéré comme de l'IA classic à base de règles) peut être considérée comme extrayant une sémantique d'un mot à partir de son entourage.

El Charpi 27/01/2009 19:46


J'adore ton disclaimer ^^
Mais t'inquiète pas, pas la peine de me prendre avec des pincettes j'ai rien contre le fait qu'on me reprenne.

Pour la reconnaissance de parole, je ne me trompe pas, je parle bien de "commandes vocales". Je ne savais pas si c'était allé plus loin donc dans le doute je n'ai rien dit.
J'ai eu raison.
Mais mon texte prêtait à confusion, je le reconnais. Merci de ta précision.

Pour le coup de Google, je te fais confiance. Les exemples que j'ai extrait sont sortis textos de mon cours de cette année, donc j'ai tout de même des circonstances atténuantes. Mais je sais que si
tu me le dis, c'est que tu as raison ^^

Je vais corriger de suite ce texte.