Question d'origine :
Bonjour,
J'aimerais créer une base de données de sites internet. Quels champs devraient figurer dans ma base données pour que mes recherches soient efficaces. Pourriez-vous m'orienter vers des documents ou me donner des pistes de réflexion?
Merci par avance.
Réponse du Guichet
gds_se
- Département : Équipe du Guichet du Savoir
Le 22/10/2016 à 08h57
Bonjour
L’Enssib s’est déjà intéressée au catalogage de sites web :
« Les sites Internet sont des ressources documentaires qui peuvent être cataloguées et référencées dans un catalogue de bibliothèques.
1. Catalogage classique
Il s’agit de la rédaction d’une notice bibliographique normalisée dans un format de type MARC (UNIMARC par exemple) qui sera intégrée dans le catalogue d’une bibliothèque.
Le catalogage des sites Web diffère selon les pays. […]
En France, les sites Web sont considérés différemment. Ils sont catalogués en suivant la norme AFNOR de catalogage des ressources électroniques FD Z44082 de décembre 1999.
2. Attribution de métadonnées à un site Web
Du fait de leurs caractéristiques (accès distant, pas de ressource tangible, mise à jour continue, pas de possession d’exemplaires), les sites Web font assez rarement l’objet de notices bibliographiques dans les catalogues de bibliothèques.
En revanche, l’attribution de métadonnées descriptives à un site Internet est très répandue. Ces métadonnées sont généralement intégrées à la ressource. Elles permettent d’être indexées par les moteurs de recherche ou moissonnées pour alimenter des bases de données, par exemple avec le protocole OAI PMH. On trouve généralement des métadonnées dans l’en tête (Head) de la page d’accueil d’un site. Pour visualiser l’en tête d'une page Web, cliquer sur « affichage > source » dans Internet Explorer, ou « affichage > code source de la page » pour Firefox.
L’ensemble de métadonnées le plus connu dans le monde de la documentation est le Dublin Core. Il s’agit d’un jeu de 13 éléments descriptifs de base et d’éléments et attributs complémentaires. Le Dublin Core est devenu une norme internationale, ISO 15836, en 2003. Il est maintenu par le DCMI (Dublin Core Metadata Initiative) : http://dublincore.org/ (consulté le 10/12/2010) »
Bonjour, je souhaiterais savoir si les sites Internet sont catalogués, et si oui comment. / Enssib
Dans son article Catalogage du Web : c’est possible (Archimag, 2005, n°184), Jean-Philippe Accart revient sur cette thématique :
« Qu’en est-il du Web ? Faut-il le cataloguer à l’instar des autres supports ? La réponse est oui, mais l’entreprise apparaît immense, coûteuse et incertaine tant les informations sont versatiles sur le Net. […]
Quelques questions préliminaires à se poser
Le catalogage du Web impose de se demander dès l’abord quelle ressource électronique est intéressante à sélectionner : est-ce un site Internet dans son ensemble ? Une page seulement ? Ou un document contenu dans le site (un rapport par exemple) ? Plusieurs critères sont déterminants et dépendent avant tout de la politique de catalogage mise en place : celle-ci est définie par rapport à la politique d’acquisition des documents dans son ensemble, du ou des publics à servir, des fonds à proposer et des moyens alloués. Même si un site Web n’a pas besoin d’être « acheté », son traitement (sélection, description, saisie de la notice) est quasiment le même qu’un document traditionnel. La bibliothèque municipale de Fresnes 3 catalogue les sites WEB en format Intermarc comme n'importe quelle monographie : les catalogueurs utilisent essentiellement les zones de titre et de mention de responsabilité, ainsi que la zone de note où un copier/coller de la page de présentation est fait. Les liens avec les autorités Rameau et collectivité auteur répondent aux mêmes règles que pour les autres documents. […]
Différentes manières de cataloguer le Web : le choix d’un format de catalogage
L’adoption d’un format standard apparaît comme une solution raisonnable : quel format de description choisir ? Quels champs utiliser dans le format choisi ? Quelles données convient-il de rendre obligatoires ? Quelles règles de catalogage retenir ? Le catalogage au niveau complet des ressources électroniques implique la création d'une notice relativement longue. Il y a plusieurs champs fixes à remplir, souvent plusieurs titres, et plusieurs notes de format. Les formats Marc ou InterMarc proposent d’ajouter des champs. […]
Mais il existe d’autres formats utiles tels AACR2 (Anglo-American Cataloguing Rules), LCRI 1.0 (Library of Congress Cataloguing Policy) ou Dublin Core …
Selon les producteurs du site CISMEF (Catalogue et index des sites médicaux francophones), le format Dublin Core semble être actuellement le plus utilisé, notamment par les sites institutionnels. Dans ce format, quinze « éléments » sont définis : Title, Creator, Subject, Description, Publisher, Contributor, Date, Type, Format, Identifier, Source, Language, Relation, Coverage, Rights. Tous ne sont pas obligatoires et il est possible d’ajouter des éléments supplémentaires, pour des besoins spécifiques. CISMEF ajoute ainsi les éléments suivant : institution, ville, département, pays, coût, parrainage, public concerné. Ces éléments qui ne sont pas standards doivent être documentés. Des qualificateurs permettent aussi de préciser un élément de base. Dublin Core est interchangeable avec le format USMARC comme dans l’application CORC d’OCLC. Le format Dublin Core présente ainsi l’avantage considérable d’une interopérabilité entre systèmes d'information. »
Ainsi, à minima, les champs de votre base de données devraient intégrer les éléments (pertinents) de description du format Dublin Core :
« L'objectif du Dublin Core est de fournir un socle commun d'éléments descriptifs pour améliorer le signalement et la recherche de ressources au-delà des diverses communautés et des nombreux formats descriptifs propres à chaque spécialité, tout en restant suffisamment structuré. »
« Dublin Core et bonne pratiques
1. Title (trad. fr. : Titre ).
Nom donné à la ressource : le titre est généralement le nom formel sous lequel la ressource est connue. […]
2. Creator (trad. fr. : Créateur ).
L’entité principalement responsable de la création du contenu de la ressource.
Les exemples de créateur comprennent une personne, une organisation ou un service. Généralement, on utilisera le nom du créateur pour désigner cette entité. […]
3. Subject (trad. fr. : Sujet ).
Thème du contenu de la ressource.
Généralement, le sujet est exprimé sous forme de mots clés ou d’expressions ou par des codes de classification décrivant un thème de la ressource. La pratique recommandée est de choisir une valeur dans un vocabulaire contrôlé ou dans un plan de classification. […]
4. Description (trad. fr. : Description ).
Une présentation du contenu de la ressource.
Les exemples de description comprennent notamment : résumé, table des matières, référence à une représentation graphique du contenu, exposé du contenu en texte libre. […]
5. Publisher (trad. fr. : Editeur ).
L’entité responsable de la mise à disposition ou diffusion de la ressource. Les exemples d’éditeur comprennent une personne, une organisation ou un service. Généralement, on utilisera le nom de l’éditeur (le nom d’une maison d’édition) pour désigner cette entité. […]
6. Contributor (trad. fr. : Contributeur ).
Entité responsable de contributions au contenu de la ressource.
Les exemples de contributeur comprennent une personne, une organisation ou un service. Généralement, on utilisera le nom d’un contributeur pour désigner cette entité. […]
7. Date (trad. fr. : Date ).
Date d’un événement dans le cycle de vie de la ressource. Il s’agira généralement de la date de création ou de mise à disposition de la ressource.
Il est recommandé d’encoder la valeur de la date conformément au profil défini dans la norme ISO 8601 ou recommandation Date and Time Formats du W3C, qui comprend (notamment) des dates suivant la forme AAAA MM JJ. […]
8. Type (trad. fr. : Type ).
Nature ou genre du contenu de la ressource.
L’élément type contient des termes qui décrivent des catégories, des fonctions, des genres généraux ou des niveaux d’agrégation de contenu. La pratique recommandée est de choisir une valeur dans un vocabulaire contrôlé (par exemple, dans la liste du DCMI Type Vocabulary). Pour décrire la manifestation physique ou numérique de la ressource, utiliser l’élément Format. […]
9. Format (trad. fr. : Format ).
La manifestation (ou matérialisation) physique ou numérique de la ressource.
Typiquement, le format peut comprendre le type de medium ou les dimensions de la ressource. L’élément Format peut être utilisé pour identifier le logiciel, le matériel ou tout autre équipement nécessaire pour afficher ou exploiter la ressource. Les exemples de dimensions comprennent la taille et la durée. Il est recommandé de sélectionner une valeur dans un vocabulaire contrôlé (par exemple, la liste des Internet Media Types définissant les formats de supports informatiques).
10. Identifier (trad. fr. : Identifiant de la ressource ).
Référence univoque à la ressource dans un contexte donné.
Il est recommandé d’identifier la ressource au moyen d’une chaîne de caractères ou d’un numéro conforme à un système formel d’identification. Les systèmes d'information officiels comprennent notamment le « Uniform Resource Identifier » (URI / identificateur de ressources uniformes), qui inclut le « Uniform Resource Locator » (URL), le « Digital Object Identifier » (DOI / identificateur d’objet numérique) et le « International Standard Book Number » (ISBN).
11. Source (trad. fr. : Source
Référence à une ressource dont la ressource décrite est dérivée.
La ressource décrite peut être dérivée de la source en tout ou partie. La pratique recommandée est d’identifier la ressource mentionnée dans l’élément Source par une chaîne de caractères ou par un numéro en conformité avec un système formel d’identification. […]
12. Language (trad. fr. : Langue ).
La langue du contenu intellectuel de la ressource.
Il est recommandé d’utiliser une des valeurs définies dans la RFC 3066 qui, avec la norme ISO 639, définit des codes de langues primaires à deux et à trois caractères, ainsi que des sous codes facultatifs. Exemples : « en » ou « eng » pour l’anglais, « fr » ou « fre » pour le français, « akk » pour l’akkadien et « en-UK » pour l’anglais utilisé au Royaume-Uni. […]
13. Relation (trad. fr. : Relation ).
Référence à une ressource apparentée.
Il est recommandé d’identifier la ressource apparentée par une chaîne de caractères ou d’un numéro conforme à un système d’identification officiel. […]
14. Coverage (trad. fr. : Couverture ).
Périmètre ou domaine d’application du contenu de la ressource, c’est à dire ou la couverture spatio temporelle de la ressource.
Généralement, l’élément couverture inclut une position géographique (le nom d’un lieu ou les coordonnées d’une entité administrative).Il est recommandé de sélectionner une valeur dans un vocabulaire contrôlé (par exemple, le thésaurus de noms géographiques TGN Thesaurus of Geographic Names et d’utiliser, quand cela est approprié, des noms de lieux ou de périodes plutôt que des identifiants numériques tels que des coordonnées ou des intervalles de dates. […]
15. Rights (trad. fr. : Gestion des droits ).
Informations sur les droits associés à la ressource.
Généralement, l’élément gestion des droits contient une mention de la gestion des droits afférents à la ressource ou une référence au service fournissant cette information. L’information sur les droits englobe souvent les droits de propriété intellectuelle (IPR), le copyright et divers droits de propriété. Si l’élément gestion de droits est absent, aucune hypothèse ne peut être émise sur les droits associés à la ressource. »
Dublin Core / Bibliothèque nationale de France
Voir aussi Métadonnées et Dublin Core / Open Web Group
Vous pouvez également décrire les sites web que vous souhaitez enregistrer avec les différents standards de description bibliographique qui existent :
• ISBD (International Standard Bibliographic Description)
• AACR2 (Anglo-American Cataloguing Rules)
Bon travail
L’Enssib s’est déjà intéressée au catalogage de sites web :
« Les sites Internet sont des ressources documentaires qui peuvent être cataloguées et référencées dans un catalogue de bibliothèques.
1. Catalogage classique
Il s’agit de la rédaction d’une notice bibliographique normalisée dans un format de type MARC (UNIMARC par exemple) qui sera intégrée dans le catalogue d’une bibliothèque.
Le catalogage des sites Web diffère selon les pays. […]
En France, les sites Web sont considérés différemment. Ils sont catalogués en suivant la norme AFNOR de catalogage des ressources électroniques FD Z44082 de décembre 1999.
2. Attribution de métadonnées à un site Web
Du fait de leurs caractéristiques (accès distant, pas de ressource tangible, mise à jour continue, pas de possession d’exemplaires), les sites Web font assez rarement l’objet de notices bibliographiques dans les catalogues de bibliothèques.
En revanche, l’attribution de métadonnées descriptives à un site Internet est très répandue. Ces métadonnées sont généralement intégrées à la ressource. Elles permettent d’être indexées par les moteurs de recherche ou moissonnées pour alimenter des bases de données, par exemple avec le protocole OAI PMH. On trouve généralement des métadonnées dans l’en tête (Head) de la page d’accueil d’un site. Pour visualiser l’en tête d'une page Web, cliquer sur « affichage > source » dans Internet Explorer, ou « affichage > code source de la page » pour Firefox.
L’ensemble de métadonnées le plus connu dans le monde de la documentation est le Dublin Core. Il s’agit d’un jeu de 13 éléments descriptifs de base et d’éléments et attributs complémentaires. Le Dublin Core est devenu une norme internationale, ISO 15836, en 2003. Il est maintenu par le DCMI (Dublin Core Metadata Initiative) : http://dublincore.org/ (consulté le 10/12/2010) »
Bonjour, je souhaiterais savoir si les sites Internet sont catalogués, et si oui comment. / Enssib
Dans son article Catalogage du Web : c’est possible (Archimag, 2005, n°184), Jean-Philippe Accart revient sur cette thématique :
« Qu’en est-il du Web ? Faut-il le cataloguer à l’instar des autres supports ? La réponse est oui, mais l’entreprise apparaît immense, coûteuse et incertaine tant les informations sont versatiles sur le Net. […]
Quelques questions préliminaires à se poser
Le catalogage du Web impose de se demander dès l’abord quelle ressource électronique est intéressante à sélectionner : est-ce un site Internet dans son ensemble ? Une page seulement ? Ou un document contenu dans le site (un rapport par exemple) ? Plusieurs critères sont déterminants et dépendent avant tout de la politique de catalogage mise en place : celle-ci est définie par rapport à la politique d’acquisition des documents dans son ensemble, du ou des publics à servir, des fonds à proposer et des moyens alloués. Même si un site Web n’a pas besoin d’être « acheté », son traitement (sélection, description, saisie de la notice) est quasiment le même qu’un document traditionnel. La bibliothèque municipale de Fresnes 3 catalogue les sites WEB en format Intermarc comme n'importe quelle monographie : les catalogueurs utilisent essentiellement les zones de titre et de mention de responsabilité, ainsi que la zone de note où un copier/coller de la page de présentation est fait. Les liens avec les autorités Rameau et collectivité auteur répondent aux mêmes règles que pour les autres documents. […]
Différentes manières de cataloguer le Web : le choix d’un format de catalogage
L’adoption d’un format standard apparaît comme une solution raisonnable : quel format de description choisir ? Quels champs utiliser dans le format choisi ? Quelles données convient-il de rendre obligatoires ? Quelles règles de catalogage retenir ? Le catalogage au niveau complet des ressources électroniques implique la création d'une notice relativement longue. Il y a plusieurs champs fixes à remplir, souvent plusieurs titres, et plusieurs notes de format. Les formats Marc ou InterMarc proposent d’ajouter des champs. […]
Mais il existe d’autres formats utiles tels AACR2 (Anglo-American Cataloguing Rules), LCRI 1.0 (Library of Congress Cataloguing Policy) ou Dublin Core …
Selon les producteurs du site CISMEF (Catalogue et index des sites médicaux francophones), le format Dublin Core semble être actuellement le plus utilisé, notamment par les sites institutionnels. Dans ce format, quinze « éléments » sont définis : Title, Creator, Subject, Description, Publisher, Contributor, Date, Type, Format, Identifier, Source, Language, Relation, Coverage, Rights. Tous ne sont pas obligatoires et il est possible d’ajouter des éléments supplémentaires, pour des besoins spécifiques. CISMEF ajoute ainsi les éléments suivant : institution, ville, département, pays, coût, parrainage, public concerné. Ces éléments qui ne sont pas standards doivent être documentés. Des qualificateurs permettent aussi de préciser un élément de base. Dublin Core est interchangeable avec le format USMARC comme dans l’application CORC d’OCLC. Le format Dublin Core présente ainsi l’avantage considérable d’une interopérabilité entre systèmes d'information. »
Ainsi, à minima, les champs de votre base de données devraient intégrer les éléments (pertinents) de description du format Dublin Core :
« L'objectif du Dublin Core est de fournir un socle commun d'éléments descriptifs pour améliorer le signalement et la recherche de ressources au-delà des diverses communautés et des nombreux formats descriptifs propres à chaque spécialité, tout en restant suffisamment structuré. »
« Dublin Core et bonne pratiques
1.
Nom donné à la ressource : le titre est généralement le nom formel sous lequel la ressource est connue. […]
2.
L’entité principalement responsable de la création du contenu de la ressource.
Les exemples de créateur comprennent une personne, une organisation ou un service. Généralement, on utilisera le nom du créateur pour désigner cette entité. […]
3.
Thème du contenu de la ressource.
Généralement, le sujet est exprimé sous forme de mots clés ou d’expressions ou par des codes de classification décrivant un thème de la ressource. La pratique recommandée est de choisir une valeur dans un vocabulaire contrôlé ou dans un plan de classification. […]
4.
Une présentation du contenu de la ressource.
Les exemples de description comprennent notamment : résumé, table des matières, référence à une représentation graphique du contenu, exposé du contenu en texte libre. […]
5.
L’entité responsable de la mise à disposition ou diffusion de la ressource. Les exemples d’éditeur comprennent une personne, une organisation ou un service. Généralement, on utilisera le nom de l’éditeur (le nom d’une maison d’édition) pour désigner cette entité. […]
6.
Entité responsable de contributions au contenu de la ressource.
Les exemples de contributeur comprennent une personne, une organisation ou un service. Généralement, on utilisera le nom d’un contributeur pour désigner cette entité. […]
7.
Date d’un événement dans le cycle de vie de la ressource. Il s’agira généralement de la date de création ou de mise à disposition de la ressource.
Il est recommandé d’encoder la valeur de la date conformément au profil défini dans la norme ISO 8601 ou recommandation Date and Time Formats du W3C, qui comprend (notamment) des dates suivant la forme AAAA MM JJ. […]
8.
Nature ou genre du contenu de la ressource.
L’élément type contient des termes qui décrivent des catégories, des fonctions, des genres généraux ou des niveaux d’agrégation de contenu. La pratique recommandée est de choisir une valeur dans un vocabulaire contrôlé (par exemple, dans la liste du DCMI Type Vocabulary). Pour décrire la manifestation physique ou numérique de la ressource, utiliser l’élément Format. […]
9.
La manifestation (ou matérialisation) physique ou numérique de la ressource.
Typiquement, le format peut comprendre le type de medium ou les dimensions de la ressource. L’élément Format peut être utilisé pour identifier le logiciel, le matériel ou tout autre équipement nécessaire pour afficher ou exploiter la ressource. Les exemples de dimensions comprennent la taille et la durée. Il est recommandé de sélectionner une valeur dans un vocabulaire contrôlé (par exemple, la liste des Internet Media Types définissant les formats de supports informatiques).
10.
Référence univoque à la ressource dans un contexte donné.
Il est recommandé d’identifier la ressource au moyen d’une chaîne de caractères ou d’un numéro conforme à un système formel d’identification. Les systèmes d'information officiels comprennent notamment le « Uniform Resource Identifier » (URI / identificateur de ressources uniformes), qui inclut le « Uniform Resource Locator » (URL), le « Digital Object Identifier » (DOI / identificateur d’objet numérique) et le « International Standard Book Number » (ISBN).
11.
Référence à une ressource dont la ressource décrite est dérivée.
La ressource décrite peut être dérivée de la source en tout ou partie. La pratique recommandée est d’identifier la ressource mentionnée dans l’élément Source par une chaîne de caractères ou par un numéro en conformité avec un système formel d’identification. […]
12.
La langue du contenu intellectuel de la ressource.
Il est recommandé d’utiliser une des valeurs définies dans la RFC 3066 qui, avec la norme ISO 639, définit des codes de langues primaires à deux et à trois caractères, ainsi que des sous codes facultatifs. Exemples : « en » ou « eng » pour l’anglais, « fr » ou « fre » pour le français, « akk » pour l’akkadien et « en-UK » pour l’anglais utilisé au Royaume-Uni. […]
13.
Référence à une ressource apparentée.
Il est recommandé d’identifier la ressource apparentée par une chaîne de caractères ou d’un numéro conforme à un système d’identification officiel. […]
14.
Périmètre ou domaine d’application du contenu de la ressource, c’est à dire ou la couverture spatio temporelle de la ressource.
Généralement, l’élément couverture inclut une position géographique (le nom d’un lieu ou les coordonnées d’une entité administrative).Il est recommandé de sélectionner une valeur dans un vocabulaire contrôlé (par exemple, le thésaurus de noms géographiques TGN Thesaurus of Geographic Names et d’utiliser, quand cela est approprié, des noms de lieux ou de périodes plutôt que des identifiants numériques tels que des coordonnées ou des intervalles de dates. […]
15.
Informations sur les droits associés à la ressource.
Généralement, l’élément gestion des droits contient une mention de la gestion des droits afférents à la ressource ou une référence au service fournissant cette information. L’information sur les droits englobe souvent les droits de propriété intellectuelle (IPR), le copyright et divers droits de propriété. Si l’élément gestion de droits est absent, aucune hypothèse ne peut être émise sur les droits associés à la ressource. »
Dublin Core / Bibliothèque nationale de France
Voir aussi Métadonnées et Dublin Core / Open Web Group
Vous pouvez également décrire les sites web que vous souhaitez enregistrer avec les différents standards de description bibliographique qui existent :
• ISBD (International Standard Bibliographic Description)
• AACR2 (Anglo-American Cataloguing Rules)
Bon travail
DANS NOS COLLECTIONS :
Ça pourrait vous intéresser :
Où peut-on trouver "Mes vingt leçons de culture psychique"...
Commentaires 0
Connectez-vous pour pouvoir commenter.
Se connecter