|
Administration
Facilité de création d'un site: La création d'un site de furetage est aussi simple que de saisir une URL, une interface intuitive permet de paramétrer le furetage plus finement.
Administration souple : Tous les paramètres d'administration des sites peuvent être visualisés et modifiés n'importe quand, à partir de n'importe quel poste, et de n'importe où. L'interface d'administration est 100% WEB.
Administration souple (suite) : L'administrateur peut contrôler différents fureteurs à partir du même poste, il suffit de lui indiquer sur quel serveur se trouve le fureteur.
Administration protégée par mot de passe : L'interface WEB d'administration est protégée par un mot de passe crypté, qui peut-être modifié.
Tableau de bord d'administration: InfoCrawler affiche un tableau de bord de tous les sites qu'il furète, d'un seul coup d’œil l'administrateur peut voir en temps réel l'évolution du nombre d'URL, de documents indexés, du nombre d'erreurs, etc.
Détail d'un site: En choisissant un site particulier, l'administrateur peut surveiller tous les indicateurs de ce site en temps réel, il peut voir la durée du furetage, le nombre total d'URL, le nombre d'URL en attente, le nombre de serveurs sur ce site, il peut même voir toutes ces informations par serveur.
Détail d’une URL ou d’un document indexé: L'administrateur peut voir toutes les informations concernant une URL ou un document, comme la date de dernière modification ou la raison pour laquelle elle n'a pas été indexée.
Administration personnalisable : étant développés en JSP, les écrans d’administration peuvent être modifiés facilement.
Serveur
Architecture distribuée: InfoCrawler a été conçu dès le départ dans une architecture distribuée, tous ses éléments peuvent être installés sur des machines différentes : l'administration, le fureteur, et Searchserver.
100% Java : Le service de furetage est 100% java, le portage de Windows vers Linux s’est effectué en moins d’une heure.
100% XML : L’administration du fureteur se fait a travers XML, pas d’API à apprendre, il suffit d’envoyer les commandes XML à partir de n’importe quel logiciel et de n’importe quel système pour administrer le service de furetage.
Furetage multi-thread: Un furetage multi-thread optimise l'utilisation de la CPU et de la bande passante du réseau. L'administrateur peut configurer le nombre de threads pour chaque site.
Récupération d'Erreurs: En cas d'erreur fatale du système, un redémarrage automatique de produit, et il n'y a aucune perte de données. Le fureteur redémarre automatiquement en cas de problème majeur.
Fureteur non agressif: L'administrateur peut paramétrer un délai d'attente entre deux requêtes HTTP pour ne pas trop charger le serveur WEB qui est fureté.
Pas de CGI: InfoCrawler n'utilise pas de CGI, il en résulte des performances accrues.
Répertoire de données par site: Le fureteur crée un répertoire de données par site, vous pouvez changer ce répertoire, ce qui permet de distribuer les données à travers le réseau.
Gestion du log: Le niveau de trace est complètement configurable.
Rotation du log: Un système de log selon vos besoins. InfoCrawler peut gérer le log quotidiennement, par semaine, ou par mois. Une interface simple permet de configurer et de visualiser le log.
Catégorisation automatique: InfoCrawler analyse les documents furetés et les classes automatiquement dans des catégories.
Planificateur : Vous pouvez planifier le furetage de chaque site pour que celui-ci se déroule pendant des heures précises, cette caractéristique est particulièrement intéressante si vous voulez fureter pendant les heures creuses.
Furetage
Sites USENET : Vous pouvez créer un site d'abonnement aux groupes USENET, Il suffit de saisir le serveur et le groupe.
Site à URL multiples: un site peut-être créer avec plusieurs URI de base. Vous pouvez paramétrer la profondeur du furetage en indiquant le nombre de sauts autorisés à partir du serveur de base.
Types de documents multiples: InfoCrawler indexe tout type de documents : Texte, HTML, XML, RTF, Microsoft Word, Microsoft Excel, Microsoft PowerPoint, Adobe Acrobat (PDF), WordPerfect, Lotus, ainsi que plus de 240 formats de documents.
Filtres URL flexibles: Les filtres URL permettent à l'administrateur d'inclure ou d'exclure du contenu. Si vous avez un site qui pointe vers des URL particulières, vous pouvez filtrer les serveurs, les URL, ou des types de fichiers particuliers.
Respect de la netiquette : InfoCrawler peut utiliser le fichier robots.txt pour respecter les règles établies par l'administrateur d'un serveur WEB. Le fureteur reconnaît aussi les balises « NO INDEX » et « NO FOLLOW » , L'administrateur peut aussi paramétrer le "user-agent" pour s'identifier aux différents sites WEB qu'il va fureter.
Proxy et Pare-feu: Le fureteur peut opérer à travers un proxy ou un pare-feu. Les sites indexés peuvent se trouver dans un autre endroit du réseau ou même en dehors du réseau, comme pour les sites publics.
Sites protégés pas mot de passe : InfoCrawler peut accéder à des sites protégés par mot de passe.
Détection intelligente d'URL en double: Durant l'extraction des documents, le fureteur vérifie qu'un document n'existe pas déjà dans l'index. La vérification s'effectue au niveau de l'URL, du titre, et du contenu.
Synchronisation intelligente : Le fureteur synchronise les URL et les documents indexés avec le serveur WEB, les documents obsolètes sont supprimés et les nouveaux documents sont insérés pratiquement en temps réél.
Furetage divers: InfoCrawler peut fureter le WEB, des groupes de news, et même une arborescence de fichiers en local.
Suppression des URL en temps réel: Vous pouvez supprimer une URL ou un groupe d'URL. Les URL obsolètes sont retrouvées et supprimées, de même que les URL dupliquées.
Protocoles multiples: Le fureteur peut accéder à des ressources HTTP, FTP, NNTP, et HTTPS.
Limiter le furetage: InfoCrawler vous permet de limiter très finement le furetage. Vous pouvez spécifier un nombre maximum d'URL, de documents indexés, de taille maximum/minimum de fichier téléchargé, la profondeur par rapport à l’URL de base, etc.
Gestion souple des fichiers furetés: Vous pouvez configurer très finement les types de fichiers à fureter, soit en utilisant le type-mime soit en utilisant l'extension du fichier.
Time out de connections: En utilisant l'interface d'administration vous pouvez configurer facilement le timeout de connections vers les serveurs furetés.
Aspiration de site : Par défaut le fureteur aspire les documents, les indexe, puis les supprime pour ne garder que les indexes, mais il peut aussi aspirer un site en reproduisant toute l’arborescence du site en local.
Analyseur de Java script: Contrairement aux2 autres fureteurs, InfoCrawler ne cherche pas les URL "en dur" dans le code java script, car la plupart des URL sont construites dynamiquement et donc ne sont pas détectables. InfoCrawler embarque un interpréteur de Java script pour exécuter le code et en retirer les URL correctement.
Indexation
InfoCrawler et SearchServer : Le fureteur exploite toute la puissance et toutes les fonctionnalités de la version 5.3 de SearchServer.
Indexation des METAS: Vous pouvez créer vos propres champs de recherches personnalisés avec les "tags" HTML META, ceux-ci seront automatiquement indexés dans SearchServer (une colonne équivalente sera créée).
Indexation des documents XML: Les éléments contenus dans un document XML seront indexés par SearchServer, vous pouvez choisir exactement quels éléments seront "mappés" dans SearchServer, ce qui vous permettra de faire des recherches sur une partie du document XML.
Elimination des mots vides : InfoCrawler installe plusieurs fichiers de mots vides correspondant aux langues les plus utilisées (Français, Anglais, Allemand, etc.)
Indexation avec proximité : Vous pouvez choisir le type de proximité : caractères, mots, phrases, paragraphe, ou tous.
Périodicité d’indexation : Vous pouvez configurer l’indexation pour qu’elle soit en mode incrémentale ou globale, ainsi que la périodicité d’indexation.
Thésaurus: Un administrateur peut créer un fichier thésaurus particulier et l'intégrer dans InfoCrawler facilement.
Dictionnaires: InfoCrawler utilise par défaut les dictionnaires de SearchServer, un dictionnaire personnalisé peut-être ajouté.
|