# Extraction mots clefs d'un texte



## g.lebourgeois (5 Avril 2007)

Bonjour,
savez vous s'il existe une bibliothèque de fonctions permettant à partir d'un texte, d'en extraire les mots clefs les plus représentatifs ?


----------



## p4bl0 (5 Avril 2007)

g.lebourgeois a dit:


> Bonjour,
> savez vous s'il existe une biblioth&#232;que de fonctions permettant &#224; partir d'un texte, d'en extraire les mots clefs les plus repr&#233;sentatifs ?


&#231;a m'&#233;tonnerai que &#231;a existe comme &#231;a, c'est tout une branche de l'informatique le data mining (tu le sais d'ailleurs, cf la fil&#232;re de l'UTC* dans la branche GI).

&#192; moins que je m'embrouille et que &#231;a n'est pas de rapport 


Mais sinon tu peux peutr-&#234;tre lire avec des expressions r&#233;guli&#232;res les mot qui reviennent le plus souvent, en faire une liste puis trier cette liste en &#233;liminant les mot comme "le", "la" etc... puis retourner la liste final 



*&#192; propos je monte &#224; Compi&#232;gne bient&#244;t (de marseille ! :s) pour l'entretien d'admission &#224; l'UTC, je t'envoie un MP pour te poser quelque question


----------



## g.lebourgeois (5 Avril 2007)

Tu as bien raison Pablo... et d'ailleurs, plus pr&#233;cis&#233;ment, je cherche &#224; faire du Web Mining.

Ta m&#233;thode est interressante, j'ai pens&#233; aussi &#224; une autre comptant les occurrences de chaque mot... seulement j'aimerais bien trouver quelque chose de plus fin, jouant un peu sur la s&#233;mantique. Ca existe apparemment en Perl (d'apr&#232;s une autre source) je vais voir si c'est adaptable...


----------



## p4bl0 (6 Avril 2007)

g.lebourgeois a dit:


> Tu as bien raison Pablo... et d'ailleurs, plus pr&#233;cis&#233;ment, je cherche &#224; faire du Web Mining.
> 
> Ta m&#233;thode est interressante, j'ai pens&#233; aussi &#224; une autre comptant les occurrences de chaque mot... seulement j'aimerais bien trouver quelque chose de plus fin, jouant un peu sur la s&#233;mantique. Ca existe apparemment en Perl (d'apr&#232;s une autre source) je vais voir si c'est adaptable...


De toute fa&#231;on Perl est le langage _*fait*_ pour &#231;a.

Je ne l'ai pas dis dans mon post, mais je pensais faire ceci en Perl.

_Practical Extraction and Report Language_


----------



## g.lebourgeois (6 Avril 2007)

Ce qui est formidable, c'est qu'on peut faire du Perl au sein d'un programme C/CPP ! Je suis donc un homme combl&#233;. M&#234;me si je vais devoir commencer par me mettre au perl... :-S


----------



## p4bl0 (6 Avril 2007)

g.lebourgeois a dit:


> Ce qui est formidable, c'est qu'on peut faire du Perl au sein d'un programme C/CPP ! Je suis donc un homme combl&#233;. M&#234;me si je vais devoir commencer par me mettre au perl... :-S


http://www.perl.org/ (&#233;videmment...)
http://en.wikipedia.org/wiki/Perl (&#233;videmment aussi)
http://www.cpan.org/ ("_No problem should ever have to be solved twice._")
http://www.oreilly.fr/catalogue/2841772535 (in-dis-pen-sable)
http://sylvain.lhullier.org/publications/intro_perl/ (tuto en fran&#231;ais et bien foutu)


Que les portes du bonheur d'ouvrent &#224; toi :rateau:


----------



## tatouille (6 Avril 2007)

g.lebourgeois a dit:


> Ce qui est formidable, c'est qu'on peut faire du Perl au sein d'un programme C/CPP ! Je suis donc un homme combl&#233;. M&#234;me si je vais devoir commencer par me mettre au perl... :-S



tu auras besoin de linker contre http://www.pcre.org/

il y a un wrapper C++

projet incluant libpcre

Apache,
PHP,
KDE,
Postfix,
Analog ...

sinon tu as regexp.h dans ta libc ...

http://www.gnu.org/software/libc/ma...exp-Compilation.html#POSIX-Regexp-Compilation


----------

