Programmes informatiques visant l'extraction automatique de mots en contexte afin de recueillir un corpus en quantité sur internet.

Ces programmes ont été faits en 2008 au cours de mon Master 1 de Ingénierie Linguistique du cursus Plurital: Nanterre - Sorbonne - Inalco, à l'issu duquel j'ai obtenu la Maîtrise de Sciences du Langage.
- Critique en webdesign: Je n'ai que découvert peu avant la fin de l'année que le charset du français c'était windows-1252 pour Windows Vista Basique (2008).
- Utilisation: vous pouvez soit cliquer sur le premier lien pour voir ce que fait le programme et de quoi il a l'air, soit vous référer au projet (onglet Sciences du Langage) où généralement ils sont expliqués.

J'ai supprimé le TP XML car ça fait trop exercice.

Et sur Linux, je vous rappelle:

cat fichier.txt | grep -Ax -By "motif"


Par exemple si vous voulez créer un dictionnaire de lemmes (sans prendre en compte les expressions et mots composés), allez sur votre terminal UNIX (Mac ou Linux) et tapez: lspci -vvv | grep -i -A9 "EThernet" > test.txt && cat test.txt | tr 'A-Z' 'a-z' | tr -s '[:punct:][:blank:]' '\n' | sort -d | uniq > test2.txt && cat test2.txt
  1. 2xml2html.html Auteur: Del Socorro Françoise 2008, GPL
  2. test-filtreur-arbo.html Auteur: Del Socorro Françoise 2008, GPL
  3. parcours-arborescence-fichiers-2out.html Auteur: Del Socorro Françoise 2008, GPL

Cordial aux normes de Treetagger: Projet Les rubriques Culture et Livres sur lemonde.fr
Dans cette rubrique, ces programmes ont permis de transformer le résultat de Cordial en en résultat de Treetagger.

  1. c-norm-3.html Auteur: Del Socorro Françoise 2008, GPL
  2. cordial2xml.html Auteur: Del Socorro Françoise 2008, GPL
  3. deux2one.html Auteur: Del Socorro Françoise 2008, GPL
  4. ext2html-ext2xml.html Auteur: Del Socorro Françoise 2008, GPL
  5. treetagger2xml.html Auteur: Helmut Schmid 2008, University of Stuttgart (Cf.site officiel de Treetagger)
  6. xml2multi.html Auteur: Del Socorro Françoise 2008, GPL
  7. culture-un-3c-NA.xml Auteur: Del Socorro Françoise 2008, GPL

Programmes d'extraction de patrons: Projet Les rubriques Culture et Livres sur lemonde.fr
Comme j'ai converti les sorties de Cordial en sorties de Treetagger, je ne m'en suis servie que pour les tester.

  1. extract-patron-cordial-nom-prep-nom.html Auteur: Mr Fleury Université Paris 3 et Mr Daube Inalco
  2. extrait-term3.html Auteur: Mr Fleury Université Paris 3 et Mr Daube Inalco

Mes éditeurs HTML en Perl: Projet Les rubriques Culture et Livres sur lemonde.fr
Là je concurrence les autres éditeurs HTML payants et gratuits, mais il faut avoir Perl sur Cygwin ou Linux.

  1. accents.html Auteur: Del Socorro Françoise 2008, GPL
  2. paragraphes.html Auteur: Del Socorro Françoise 2008, GPL
  3. contexte2html.html Auteur: Del Socorro Françoise 2008, GPL
  4. ext2html-ext2xml.html Auteur: Del Socorro Françoise 2008, GPL
  5. perl2html.html Auteur: Del Socorro Françoise 2008, GPL
  6. txt2html.html Auteur: Del Socorro Françoise 2008, GPL
  7. xml2html.html Auteur: Del Socorro Françoise 2008, GPL

Mes éditeurs XML en Perl: Projet Travaux Pratiques en XML
Là je concurrence les autres éditeurs XML payants et gratuits, mais il faut avoir Perl sur Cygwin ou Linux.

  1. deux2one.xml Auteur: Del Socorro Françoise 2008, GPL
  2. perl2xml.xml Auteur: Del Socorro Françoise 2008, GPL
  3. perl-simple2xml.xml Auteur: Del Socorro Françoise 2008, GPL
  4. txt2xml.xml Auteur: Del Socorro Françoise 2008, GPL
  5. txtbalise2xml.xml Auteur: Del Socorro Françoise 2008, GPL
  6. txtsimple.xml Auteur: Del Socorro Françoise 2008, GPL
  7. xml2multi.xml Auteur: Del Socorro Françoise 2008, GPL
  8. xpath.xml Auteur: Del Socorro Françoise 2008, GPL

Projet Multilingue: Projet La langue n'est pas un long fleuve tranquille 1


    Mon index en HTML
  1. index.html Auteur: Del Socorro Françoise 2008, GPL

  2. Mes éditeurs HTML et XML en Perl
  3. deux2one-personnalise.html Auteur: Del Socorro Françoise 2008, GPL
  4. deux2one-version-generale.html Auteur: Del Socorro Françoise 2008, GPL
  5. ext2html-ext2xml.html Auteur: Del Socorro Françoise 2008, GPL
  6. lexico3integre2html.html Auteur: Del Socorro Françoise 2008, GPL
  7. mozillatable2txt.html Auteur: Del Socorro Françoise 2008, GPL
  8. perl2html-pm.html Auteur: Del Socorro Françoise 2008, GPL
  9. sh2html.html Auteur: Del Socorro Françoise 2008, GPL
  10. txtaffichebalise2html-pm.html Auteur: Del Socorro Françoise 2008, GPL
  11. txtsimple2html-pm.html Auteur: Del Socorro Françoise 2008, GPL

  12. Mon tableau en Bash Shell
  13. prepare-environnement-pm.html Auteur: Del Socorro Françoise 2008, GPL
  14. RECOMMENCE-pm.html Auteur: Del Socorro Françoise 2008, GPL
  15. TABV3-pt-fr.html Auteur: Del Socorro Françoise 2008, GPL
  16. TABV4-pt-fr.html Auteur: Del Socorro Françoise 2008, GPL

  17. Simtree et Treetagger
  18. simtree-fr.html Auteur: Del Socorro Françoise 2008, GPL
  19. simtree-pt.html Auteur: Del Socorro Françoise 2008, GPL
  20. treetagger2xml-fr.html Auteur: Helmut Schmid 2008, University of Stuttgart (Cf.site officiel de Treetagger)
  21. treetagger2xml-pt.html Auteur: Helmut Schmid 2008, University of Stuttgart (Cf.site officiel de Treetagger)

Projet Lexico3: Projet La langue n'est pas un long fleuve tranquille 2


    Mon index en HTML
  1. index.xml Auteur: Del Socorro Françoise 2008, GPL
  2. variantes.xml Auteur: Del Socorro Françoise 2008, GPL

  3. Mes éditeurs HTML et XML en Perl
  4. deux2one-personnalise.xml Auteur: Del Socorro Françoise 2008, GPL
  5. deux2one-version-generale.xml Auteur: Del Socorro Françoise 2008, GPL
  6. ext2html-ext2xml.xml Auteur: Del Socorro Françoise 2008, GPL
  7. lexico3integre2xml-lex.xml Auteur: Del Socorro Françoise 2008, GPL
  8. mozillatable2txt.xml Auteur: Del Socorro Françoise 2008, GPL
  9. perl2xml-integre-lex.xml Auteur: Del Socorro Françoise 2008, GPL
  10. sh2xml-lex.xml Auteur: Del Socorro Françoise 2008, GPL
  11. txt2xml-integre-lex.xml Auteur: Del Socorro Françoise 2008, GPL

  12. Mes programmes en SQL et en en r-project
  13. SQL-UTF8.xml Auteur: Del Socorro Françoise 2008, GPL
  14. emplois.xml Auteur: Del Socorro Françoise 2008, GPL
  15. usages8jsq0p4.xml Auteur: Del Socorro Françoise 2008, GPL
  16. usages700jsq50.xml Auteur: Del Socorro Françoise 2008, GPL
  17. usages10400jsq2600.xml Auteur: Del Socorro Françoise 2008, GPL

  18. Mon tableau en Bash Shell
  19. LEX-fr.xml Auteur: Del Socorro Françoise 2008, GPL
  20. LEX-pt.xml Auteur: Del Socorro Françoise 2008, GPL

  21. Simtree et Treetagger
  22. simtree-fr.html Auteur: Del Socorro Françoise 2008, GPL
  23. simtree-pt.html Auteur: Del Socorro Françoise 2008, GPL
  24. treetagger2xml-fr.html Auteur: Helmut Schmid 2008, University of Stuttgart (Cf.site officiel de Treetagger)
  25. treetagger2xml-pt.html Auteur: Helmut Schmid 2008, University of Stuttgart (Cf.site officiel de Treetagger)