Plusieurs solutions existent en logiciel libre.
  • htdig

  • Htdig est un des plus ancien projet libre de moteur de recherche. Associé des programmes de convertion adaptés, Htdig permet de travailler avec n'importe quel type de fichier. Htdig peut typiquement être utilisé comme un robot de recherche sur un intranet.
    Plusieurs fonctionnalités basiques existent:
    • rundig
    • pour créer et initialiser la base d'indexation des documents.
    • htdig
    • permet de retrouver des documents texte en utilisant le protocole HTTP en fournissant des informations techniques sur ces documents afin d'en permettre la manipulation et le classement.
    • htdump/htload
    • export/import de la base d'indexation au format texte.
    • htnotify
    • permet d'avertir (mail) si un document devient obsolète dans la base d'indexation.
    • htfuzzy
    • ajoute une couche de recherche "floue" pour optimiser la recherche.
    • htsearch
    • le moteur de recherche proprement parler.
    Le projet, bien qu'efficace, très utilisé et répandu, et profitant d'une communauté toujours active, n'évolue plus beaucoup.

  • mnoGoSearch

  • mnoGoSearch est un moteur de recherche WEB complet pour serveurs intranet/internet. mnoGoSearch est composé de 2 parties:
    • indexer
    • capable d'indexer tout type de documents au travers des protocoles HTTP, FTP, NEWS ou des fichiers sur le réseau local, c'est dire stocker dans une base de données adaptée, les meta-données de ces fichiers afin de permettre au moteur de recherche de retrouver les fichires dans les meilleures conditions.
    • moteur de recherche
    • exploite les données indexées pour retrouver les fichiers cherchés. Le moteur de recherche fonctionne partir d'une interface WEB standard.
      mnoGoSearch est disponible en 8 langages dont le français.
      mnoGoSearch fonctionne sur Linux et sur MS-Windows. On notera toutefois que seule la version Linux est sous licence libre (GPL). L'implémentation MS-Windows est sous licence propriétaire et commercialisée (de 99$ +1700$ selon l'utilisation)

  • lucene

  • lucene est un moteur de recherche WEB complet basé sur la technologie java, et multi-palteformes.
    De nombreuses fonctionnalités sont offertes en sandard:
    • recherche classée
    • : le meilleur résultat est affiché en 1er.
    • recherche riche
    • : soit par mot clef, soit par phrases entière, soit avec des "wildcard": de nombreux type de recherche sont possibles.
    • recherche par champs
    • : auteur, date, ...
    • classement possible selon ces champs
    • multi-index
    • : lucene peut s'interfacer avec plusieurs bases d'index et regrouper/classer les résultats intelligement.

    lucene est sous licence libre (apache licence)

  • vcoop

  • Vcoop n'est pas un simple moteur de recherche. Il réunit trois types d'usages sur une même plate-forme : outil de veille coopérative, espace de travail individuel et collectif (rédaction, forums, commentaires,...) et outil de publication et d'envoi de newsletters et fils d’info (RSS/Atom). Vcoop est l'outil libre idéal pour ne pas simplement faire de la recherche, mais étendre cette notion la veille technologique ou la recherche d'expertise
    Vcoop utilise mnoGoSearch comme moteur de recherche technique.