InfoCrawler |

GED |

Portail |

KM |

 

InfoCrawler 4.5

 Présentation

InfoCrawler est un progiciel qui vous permet de  fureter et d’indexer plus de 240 types de documents, incluant les formats de fichiers les plus  utilisés sur le marché (Texte, HTML, XML, RTF, Microsoft Word, Microsoft Excel, Microsoft PowerPoint, Adobe Acrobat PDF, WordPerfect, Lotus etc.).        Ces documents peuvent provenir de ressources diverses: Réseaux LAN/WAN, Intranet, Internet, News Group, Sites FTP, disques locaux et distants.

 

 Points forts

Architecture distribuée: InfoCrawler a été conçu dès le départ dans une architecture distribuée se présentant sous forme d’un WEB service 100% Java et s’exécutant en permanence sur une ou plusieurs machines. Communiquant en XML, tous ses éléments peuvent être installés sur des machines différentes : l'administration, le fureteur et le moteur de recherche (Searchserver).

Administration intuitive : Possédant ses propres interfaces de consultation et d'administration intégrées, il permet une utilisation et un suivi très conviviale des sites furetés et des tables indexées. La simplicité et la souplesse de son interface d’administration limite les coûts d’exploitation du logiciel.

Furetage optimisé : Grâce à son architecture multi-thread, InfoCrawler peut fureter plusieurs sites en parallèle, et peut avoir plusieurs threads de furetage pour chaque site.

Puissance de l’indexation : S'appuyant sur le moteur SearchServer (le moteur de recherche le plus puissant du marché) pour indexer les documents, InfoCrawler permet une indexation de supports d'informations diverses : fichiers HTML, DOC, PDF, XML, et plus de 240 formats de documents.

Technologie ouverte: InfoCrawler n'utilise aucune technologie propriétaire, les URL sont gérées avec mySql, l'administration WEB se fait avec Apache Tomcat et les JSP, le dialogue avec le serveur de furetage se fait en XML, et le serveur de furetage est 100% java.

Evolutif : Etant compatibles avec les normes HTML, XML, JSP, Java, et JDBC, InfoCrawler est évolutif et intégrable facilement dans d'autres applications.

Caractéristique uniques : InfoCrawler a des fonctionnalités uniques comme l’interpréteur de java script embarqué, l’indexation en mode natif des documents XML, la catégorisation automatique, ou la gestion intelligente des URL.

 

Caractéristiques

Administration

Facilité de création d'un site: La création d'un site de furetage est aussi simple que de saisir une URL, une interface intuitive permet de paramétrer le furetage plus finement.

Administration souple : Tous les paramètres d'administration des sites peuvent être visualisés et modifiés n'importe quand, à partir de n'importe quel poste, et de n'importe où. L'interface d'administration est 100% WEB.

Administration souple (suite) : L'administrateur peut contrôler différents fureteurs à partir du même poste, il suffit de lui indiquer sur quel serveur se trouve le fureteur.

Administration protégée par mot de passe : L'interface WEB d'administration est protégée par un mot de passe crypté, qui peut-être modifié.

Tableau de bord d'administration: InfoCrawler affiche un tableau de bord de tous les sites qu'il furète, d'un seul coup d’œil l'administrateur peut voir en temps réel l'évolution du nombre d'URL, de documents indexés, du nombre d'erreurs, etc.

Détail d'un site: En choisissant un site particulier, l'administrateur peut surveiller tous les indicateurs de ce site en temps réel, il peut voir la durée du furetage, le nombre total d'URL, le nombre d'URL en attente, le nombre de serveurs sur ce site, il peut même voir toutes ces informations par serveur.

Détail d’une URL ou d’un document indexé: L'administrateur peut voir toutes les informations concernant une URL ou  un document, comme la date de dernière modification ou la raison pour laquelle elle n'a pas été indexée.

Administration personnalisable : étant développés en JSP, les écrans d’administration peuvent être modifiés facilement.

 

Serveur

Architecture distribuée: InfoCrawler a été conçu dès le départ dans une architecture distribuée, tous ses éléments peuvent être installés sur des machines différentes : l'administration, le fureteur, et Searchserver.

100% Java : Le service de furetage est 100% java, le portage de Windows vers Linux s’est effectué en moins d’une heure.

100% XML : L’administration du fureteur se fait a travers XML, pas d’API à apprendre, il suffit d’envoyer les commandes XML à partir de n’importe quel logiciel et de n’importe quel système pour administrer le service de furetage.

Furetage multi-thread: Un furetage multi-thread optimise l'utilisation de la CPU et de la bande passante du réseau. L'administrateur peut configurer le nombre de threads pour chaque site.

Récupération d'Erreurs: En cas d'erreur fatale du système, un redémarrage automatique de produit, et il n'y a aucune perte de données. Le fureteur redémarre automatiquement en cas de problème majeur.

Fureteur non agressif: L'administrateur peut paramétrer un délai d'attente entre deux requêtes HTTP pour ne pas trop charger le serveur WEB qui est fureté.

Pas de CGI: InfoCrawler n'utilise pas de CGI, il en résulte des performances accrues.

Répertoire de données par site: Le fureteur crée un répertoire de données par site, vous pouvez changer ce répertoire, ce qui permet de distribuer les données à travers le réseau.

Gestion du log: Le niveau de trace est complètement configurable.

Rotation du log: Un système de log selon vos besoins. InfoCrawler peut gérer le log quotidiennement, par semaine, ou par mois. Une interface simple permet de configurer et de visualiser le log.

Catégorisation automatique: InfoCrawler analyse les documents furetés et les classes automatiquement dans des catégories.

Planificateur : Vous pouvez planifier le furetage de chaque site pour que celui-ci se déroule pendant des heures précises, cette caractéristique est particulièrement intéressante si vous voulez fureter pendant les heures creuses.

 

Furetage

Sites USENET : Vous pouvez créer un site d'abonnement aux groupes USENET, Il suffit de saisir le serveur et le groupe.

Site à URL multiples: un site peut-être créer avec plusieurs URI de base. Vous pouvez paramétrer la profondeur du furetage en indiquant le nombre de sauts autorisés à partir du serveur de base.

Types de documents multiples: InfoCrawler indexe tout type de documents : Texte, HTML, XML, RTF, Microsoft Word, Microsoft Excel, Microsoft PowerPoint, Adobe Acrobat (PDF), WordPerfect, Lotus, ainsi que plus de 240 formats de documents.

Filtres URL flexibles: Les filtres URL permettent à l'administrateur d'inclure ou d'exclure du contenu. Si vous avez un site qui pointe vers des URL particulières, vous pouvez filtrer les serveurs, les URL, ou des types de fichiers particuliers.

Respect de la netiquette : InfoCrawler peut utiliser le fichier robots.txt pour respecter les règles établies par l'administrateur d'un serveur WEB. Le fureteur reconnaît aussi les balises « NO INDEX » et « NO FOLLOW » ,  L'administrateur peut aussi paramétrer le "user-agent" pour s'identifier aux différents sites WEB qu'il va fureter.

Proxy et Pare-feu: Le fureteur peut opérer à travers un proxy ou un pare-feu. Les sites indexés peuvent se trouver dans un autre endroit du réseau ou même en dehors du réseau, comme pour les sites publics.

Sites protégés pas mot de passe : InfoCrawler peut accéder à des sites protégés par mot de passe.

Détection intelligente d'URL en double: Durant l'extraction des documents, le fureteur vérifie qu'un document n'existe pas déjà dans l'index. La vérification s'effectue au niveau de l'URL, du titre, et du contenu.

Synchronisation intelligente : Le fureteur synchronise les URL et les documents indexés avec le serveur WEB, les documents obsolètes sont supprimés et les nouveaux documents sont insérés pratiquement en temps réél.

Furetage divers: InfoCrawler peut fureter le WEB, des groupes de news, et même une arborescence de fichiers en local.

Suppression des URL en temps réel: Vous pouvez supprimer une URL ou un groupe d'URL. Les URL obsolètes sont retrouvées et supprimées, de même que les URL dupliquées.

Protocoles multiples: Le fureteur peut accéder à des ressources HTTP, FTP, NNTP, et HTTPS.

Limiter le furetage: InfoCrawler vous permet de limiter très finement le furetage. Vous pouvez spécifier un nombre maximum d'URL, de documents indexés, de taille maximum/minimum de fichier téléchargé, la profondeur par rapport à l’URL de base, etc.

Gestion souple des fichiers furetés: Vous pouvez configurer très finement les types de fichiers à fureter, soit en utilisant le type-mime soit en utilisant l'extension du fichier.

Time out de connections: En utilisant l'interface d'administration vous pouvez configurer facilement le timeout de connections vers les serveurs furetés.

Aspiration de site : Par défaut le fureteur aspire les documents, les indexe, puis les supprime pour ne garder que les indexes, mais il peut aussi aspirer un site en reproduisant toute l’arborescence du site en local.

Analyseur de Java script: Contrairement aux2 autres fureteurs, InfoCrawler ne cherche pas les URL "en dur" dans le code java script, car la plupart des URL sont construites dynamiquement et donc ne sont pas détectables. InfoCrawler embarque un interpréteur de Java script pour exécuter le code et en retirer les URL correctement.

 

Indexation

InfoCrawler et SearchServer : Le fureteur exploite toute la puissance et toutes les fonctionnalités de la version 5.3 de SearchServer.

Indexation des METAS: Vous pouvez créer vos propres champs de recherches personnalisés avec les "tags" HTML META, ceux-ci seront automatiquement indexés dans SearchServer (une colonne équivalente sera créée).

Indexation des documents XML: Les éléments contenus dans un document XML seront indexés par SearchServer, vous pouvez choisir exactement quels éléments seront "mappés" dans SearchServer, ce qui vous permettra de faire des recherches sur une partie du document XML.

Elimination des mots vides : InfoCrawler installe plusieurs fichiers de mots vides correspondant aux langues les plus utilisées (Français, Anglais, Allemand, etc.)

Indexation avec proximité : Vous pouvez choisir le type de proximité : caractères, mots, phrases, paragraphe, ou tous.

Périodicité d’indexation : Vous pouvez configurer l’indexation pour qu’elle soit en mode incrémentale ou globale, ainsi que la périodicité d’indexation.

Thésaurus: Un administrateur peut créer un fichier thésaurus particulier et l'intégrer dans InfoCrawler facilement.

Dictionnaires: InfoCrawler utilise par défaut les dictionnaires de SearchServer, un dictionnaire personnalisé peut-être ajouté.

 

Configuration requise`

Plate-forme      : Windows NT4, Windows 2000, Unix, Linux

Mémoire             : 128 MB minimum, 512 MB ou plus recommandé.

Espace Disque : 136 Mo Pour le serveur de furetage

                                       70 Mo Pour l’Administration.

 

Screens Shots

 

 


logo_mbsoft_small

96, rue Didouche Mourad ALGER

  © all rights reserved