Transformer une extraction MARC ISO2709 des notices de thèses du SUDOC en notice TEF

Pour toute remarque relative à cette procédure, écrivez à : ledrezen@univ-metz.fr

 

I Obtenir vos thèses du SUDOC

Demandez une extraction de vos thèse au SUDOC en MARC ISO2709 en UTF8.
Vous obtiendrez un fichier similaire à celui-ci :

Echantillon-Theses-Nancy1-932r97A001.raw

 

 

II Convertir votre fichier SUDOC en MARC XML

Installez le logiciel gratuit MARCEDIT :
http://people.oregonstate.edu/~reeset/marcedit/html/downloads.html


Démarrez l'application.
Sélectionnez Marc Tools Main Window.

 

Sélectionnez votre fichier d'entrée (le fichier fourni par le SUDOC).
Définissez votre fichier de sortie (vous le nommerez marc-xml.xml).
Sélectionnez l'option MARC => MARC21XML

Cliquez sur Execute.

Le fichier marc-xml.xml est créé.

 

Attention : de nombreux résumés et titres sont mal encodés (problèmes liés a des copier-coller et non usage de la barre des diacritiques de WinIBW). Nous vous conseillons de remplacer ces caractères dans le fichier marc-xml.xml par des rechercher/remplacer dans un éditeur de texte (par exemple Notepad ++ ).

Certains caractères semblent corrects (comme par exemple des apostrophes) mais peuvent être mal encodés. Pour les détecter :
- Faites un rechercher « ' » et remplacer par « 99999999 ».
- Toutes les apostrophes restantes sont mal encodées. Remplacez-les par de vraies apostrophes.
- Remplacez les « 99999999 » par des apostrophes.

 

III Convertir votre fichier MARC XML en TEF

Copiez les 3 fichiers suivants dans un répertoire de travail :

marc-to-tef.bat

Marc to Tef fichier .bat

 
Marc to Tef fichier .txt (octet-stream-68 o)

altova.exe

altova.exe

 
altova.exe (octet-stream-14,37 Mo)

( http://www.altova.com/altovaxml.html )

marctotef.xsl

marctotef.xsl

 

marc-to-tef.xsl

marctotef.txt (xslt+xml-16,96 ko)

(corrigé le 4 octobre 2010)

 

Ouvrez le fichier marctotef.xsl avec un éditeur de texte (notepad ++) et modifiez les lignes 21 à 24 en fonction de votre établissement.

Copiez le fichier marc-xml.xml dans le répertoire de travail.
Double-cliquez sur le fichier marc-to-tef.bat
Un répertoire « out » est créé dans le répertoire de travail.
Ce répertoire contient les fichiers TEF.

Remarques :

  • dc:subject est rempli avec un « . ». Ceci pour éviter un message d'erreur avec ORI-OAI.
  • Le Mesh présent dans le SUDOC n'est pas récupéré.
  • La date de naissance de l'auteur est reconstruite en 01-01-1900 car l'année de naissance de l'auteur est peu souvent renseignée.
  • La date de soutenance est 01-01-année de soutenance