1- Est-ce possible ?

Pour faire court : NON ! Pour avoir une explication plus longue, continuez la lecture et voyez les illustrations à la fin de cet article.

2- La tâche à accomplir

Je me réfère à ceux qui veulent sans doute utiliser l'enregistrement d'un spectacle musical complet ; disons, un opéra tout entier, avec l'orchestre et les voix, les solos et les choeurs, ou un groupe de rock avec les chanteurs. Je pars de ce principe car nous vouons convertir du MP3 ou d'autres fichiers audio issus pratiquement toujours d'un spectacle musical complet, pré-enregistré, sans doute avec un copyright. Nous espérons en tirer un beau fichier MUS qui aurait déjà toutes les pistes transcrites avec précision sur des portées, avec les paroles à leur place pour Virtual Singer et peut-être même avec le paramétrage de VS réglé pour coller au plus près à la voix, les inflexions et l'accent de chacun des chanteurs, etc... Tous les instruments seraient déjà définis et modifiés pour correspondre aux instruments réels de l'enregistrement. Les effets numériques seraient déjà appliqués et réglés pour correspondre à l'espace acoustique de l'enregistrement original. Etc, etc... Voilà une fonction extrêmement demandée pour un logiciel de musique. Je reconnais volontiers que ce serait très sympa, mais ça n'est tout simplement pas possible avec la technologie d'aujourd'hui.

3- Pourquoi ce n'est pas possible

Une telle demande reviendrait à demander à un logiciel de graphique vectoriel (Illustrator, FreeHand, CorelDraw!, Canvas's draw, Xara X, etc...) de posséder une fonction qui puisse prendre une photo scannée et en convertir tous les objets en objets vectoriels, avec toutes les courbes de Bézier et leurs poignées, regroupant automatiquement les objets qui vont ensemble (les roues d'une voiture seraient regroupées avec la carrosserie, les feuilles avec l'arbre, les traits du visage d'une personne avec son corps, etc...) Même si des logiciels ou des fonctions de conversion vectorielle existent effectivement (Adobe Streamline, par exemple), aucun d'entre eux ne serait capable de gérer les photos et de reconnaître les liens qui lient les différents objets entre eux. La plupart se bornent à gérer une image scannée monochrome ou, dans de rares cas, du dessin en couleurs, en convertissant le images matricielles scannées en vrai dessin vectoriel au format EPS ou autre format vectoriel à résolution indépendante.

L'analogie est valable pour les fichiers audio et la musique parce que les fichiers MIDI (et ses variantes comme le KAR et ABC), SEQ et MUS (etc...) sont analogues à l'EPS, EMS, QuickDraw, AI, FH, CNV, WEB et autres formats vectoriels, alors que les fichiers aux formats non compressés ou compressés sans perte WAV, AIFF ou AU seraient analogues aux formats non compressés ou compressés sans perte (TIFF, TIF, RIFFn PSD, BMP, PNG, etc;;;) et les formats MP3, ASF, WMA, RA ou compressés avec pertes WAV, AIFF, etc... seraient analogues au JPEG/JPG ou autres formats d'image compressés avec pertes.

En résumé, les formats de fichiers matriciels (images bitmap/pixelmap, peu importe comment ils sont compressés) et leurs pendants audio-numériques sont fabriqués à partir d'informations analogiques et ils dépendent donc de la numérisation d'une information analogique.

Alors qu'il peuvent paraître, aux yeux ou aux oreilles, contenir des objets indépendants ou des pistes instrumentales, il ne sont en fait qu'une image ou un enregistrement sonore (deux pour la stéréo et les couches d'un RIFF ou PSD seraient considérées comme des pixelmaps, mais pour chacun la même restriction s'appliquerait) L'ordinateur ne les voit que comme une suite de 1 et de O qui ne contiennent que l'information brute pour tel ou tel point de l'image (par exemple, les valeurs RGB ou autres d'un pixel particulier) ou de la piste audio (l'échantillon de l'image audio) et n'a pas besoin de les gérer (mis à part la décompression s'ils ont été compressés) pour les afficher ou les jouer sous une forme que le cerveau humain, alimenté par les informations visuelles ou auditives, reconnaîtrait comme extrêmement proches de l'image ou du son original. Quand vous regardez un fichier TIFF de la Joconde, vous voyez une belle femme devant un arrière-plan de nuage et de campagne, mais l'ordinateur ne "voit" que des rangées de pixels, chaque pixel ayant une valeur de Rouge, Vert et Bleu (ou Cyan, Magenta et Jaune), chaque valeur étant composée de huit ou seize bits. Quand vous écoutez la Cinquième Symphonie de Beethoven sous forme de fichier WAV, vous entendez les cordes, les cuivres, les bois et les percussions jouant des notes particulières à un rythme particulier, mais tout ce que l'ordinateur "entend" ce sont des échantillons audio codés sur 8 ou 16 bits qui disent à la carte son comment faire vibrer le haut-parleur dans le temps pour reproduire le son enregistré.

Mais des formats d'image comme le AI et l'EPS ou de son comme le MID et le MUS ne contiennent pas la vraie information d'image ou de son, mais plutôt les commandes nécessaires pour la générer. Un fichier EPS d'une esquisse de la Joconde contiendrait les courbes réelles de l'esquisse dans un format que l'ordinateur comprend et peut afficher pour l'utilisateur. L'ordinateur peut manipuler chaque courbe de façon indépendante, même aux endroits où elle croise d'autres courbes sans les influencer. De la même façon, un fichier MIDI de la Cinquième Symphonie possède des pistes ou des canaux pour chacun des instruments, et les notes, vélocités et autres commandes pour chacun d'entre eux codés de façon à ce que l'ordinateur puisse les comprendre et les manipuler. Vous pourriez changer certaines notes de tel instrument sans affecter les autres sons produits au même moment. Vous ne pouvez pas faire cela avec du WAV ou du MP3.

4- Ce qui existe actuellement

Exactement comme des programmes de dessin vectoriel existent, il y a aussi des programmes de conversion monophonique Audio vers MIDI. Et comme avec la conversion d'images matricielles, la plupart ne sont pas très bons même avec la limite d'une source mono, bien que quelques uns se démarquent des autres (Streamline). Les quelques uns qui essayent de dépasser la limite du mono ont tendance à accomplir un travail encore pire que les autres. A moins que, si le format d'échantillonnage audio est du Wav (ou AIFF, AU, MP3 Real Audi, WMA, Quick Time Audio ou autre, compressé ou pas) le fichier en question ne représente le jeu d'un seul instrument solo, d'un instrument qui ne joue qu'une seule note à la fois. Ce pourrait aussi être une personne qui chante, siffle de manière détachée, etc... une mélodie sans accompagnement (pas même un rythme ou un métronome).

Un programme bon marché du nom de "Digital Ear" peut fournir une conversion MIDI correcte de tels fichiers . A la différence des programmes concurrents, Digital Ear peut reconnaître et réagir aux changement non seulement de hauteur, mais aussi de volume et de brillance, pour les convertir en événement MIDI (par exemple le volume en expression MIDI [CC n° 11] ou le contrôleur de respiration [CC n° 2], les messages de Contrôle Continu, et la brillance [CC n°74] ou le contenu harmonique [CC n° 71], si je me souviens bien). Le fichier MIDI produit peut, bien sûr, être importé dans Melody ou Harmony Assistant ou dans n'importe quel autre programme qui gère le MIDI.

Mais si vous voulez pouvoir prendre un fichier WAV de, disons, un concert de rock ou de jazz ou du Mormon Tabernacle Choir chantant le refrain de l'Alléluia accompagné par un grand orchestre et un orgue à tuyaux, ou même un quatuor de Barbershop en train d'interpréter un chant populaire, et convertir tout ça proprement en pistes ou portées musicales séparées (sans parler des paroles !) alors, non, ça n'est tout simplement pas réalisable avec la technologie actuelle, et pas davantage envisageable avec n'importe quelle technologie dans un avenir proche. Certains logiciels prétendent être capables de gérer de l'audio polyphonique, mais en pratique ils ne peuvent que gérer les fichiers sources d'un seul instrument polyphonique à la fois (par exemple le piano ou la guitare) de préférence utilisé en chambre sourde (pour éliminer la réverbération qui pourrait être prise pour des notes supplémentaires) ou d'instruments doux, faibles en harmoniques (le piano à queue Baldwin, par exemple, mais pas le piano Kawai, une guitare nylon, mais pas une guitare à cordes d'acier), etc... et ce uniquement si le paramétrage est réglé très finement (ce qui n'est pas toujours facile à faire), etc... Un vrai convertisseur Audio vers MIDI qui fonctionne effectivement est à des années lumières et nécessitera des microprocesseurs des dizaines de fois plus puissants que les Pentiums 4, Athlons ou PowerPC G4 d'aujourd'hui (ou même que les Itaniums et les Hammers ou les G5) ainsi qu'une technologie logicielle et des algorithmes bien meilleurs.

5- Et l'avenir ?

Sera-t-il possible de faire ce que j'ai décrit dans le premier paragraphe ? Comme je l'ai précisé, pas avec la technologie informatique classique. Les réseaux neuronaux, toutefois, sont une autre histoire. La plupart des enfants peuvent entendre un morceau de musique complexe et reconnaître les gens qui chantent des paroles, entendre tous les instruments particuliers (ou des pupitres qui jouent les mêmes notes) à partir du fichier mixé, même s'ils ne connaissent pas les noms des instruments, ils sont capables d'entendre que les sons issus d'une flûte sont très différents de ceux émis par un violon, qui à leur tour sont différents de ceux émis par une guitare électrique avec une forte distortion ou un effet de fuzz. De plus, l'enfant fait cela en temps réel et n'a pas besoin de réfléchir à l'exécution. Les transformations de Fourier et autres analyses mathématiques complexes sur des courbes audio analogiques entrent dans sons cerveau par les nerfs de la cochlée, dans l'oreille interne, qui réagit aux vibrations du tympan.

Alors, pourquoi est-ce si difficile pour les ordinateurs ? Parce que les ordinateurs sont linéaires, ils font les tâches à la suite, par séquence. De telles tâches, cependant, nécessitent plus qu'une approche de reconnaissance matricielle, là où le cerveau humain excelle. Les réseaux neuronaux fonctionnent un peu comme le cerveau. Une autre possibilité est l'ordinateur quantique (à base de molécules. J'ai vu la photo d'une éprouvette qui contenait des trillions de telles molécules, et on aurait dit un petit tube de bonbons Kool au citron, un peu trop foncés, mais rien à voir avec ce qu'on attendrait d'un ordinateur !) qui est aussi (en théorie) très bon à des tâches non linéaires.

Mais ils appartiennent encore au futur (au moins une ou deux décennies) et nous devrons patienter avant d'en avoir qui puissent traiter n'importe quel fichier audio et en recracher une représentation exacte dans un format fondé sur des commandes ou des objets (comme le MIDI ou le MUS).

Un ordinateur bâti sur la technologie numérique binaire de Von Neuman/Babbage (et c'est ce que la plupart des gens appellent ordinateur, que ce soit le microcontrôleur d'un magnétoscope ou d'un four micro-ondes, un méga ordinateur du Pentagone ou un ordinateur portable ou de bureau, que ce soit un PC sous Windows ou un PowerMac G4, ou même les générations suivantes, comme l'Itanium 64-bits, le Hammer de chez AMD ou le PowerPC G5) quelle qu'en soit la vitesse, ne peut tout simplement pas accomplir cette tâche, du moins à la manière dont travaille notre cerveau. Notre cerveau n'est pas une machine numérique binaire de Von Neuman/Babbage. Il ne travaille pas comme une machine numérique binaire de Von Neuman/Babbage et, par-dessus tout, l'inverse n'est pas vrai.

La même remarque s'applique pour la vision : vous pouvez regarder la photo de quelqu'un que vous connaissez et reconnaître dans la seconde qui est cette personne sans même y réfléchir, sans aucunement accomplir de tâche complexe de détection des bords, d'analyse des contenus, mais même le plus puissant logiciel d'analyse numérique doit passer par ces étapes pour arriver à la reconnaissance du visage, et même dans ce cas, il n'y arrive pas de manière aussi complète et aussi facile qu'un jeune enfant.

Pour avoir une idée de la complexité du chemin qu'un ordinateur doit parcourir pour pouvoir accomplir cette tâche, essayez d'inverser les sens : notre cortex visuel n'est pas plus fait pour traiter le son et extraire les information sur les instruments, les notes, les paroles, etc... que ne l'est un ordinateur. Donc, faites enregistrer numériquement un ami trois échantillons WAV (ou AIFF si vous avez un Mac) : un enregistrement de musique de concert, en direct, avec des voix et des instruments multiples, un enregistrement dans une usine bruyante et un enregistrement d'une galerie marchande, un jour d'affluence avant Noël. Votre ami doit donner aux fichiers des noms ordinaires qui ne décrivent pas leur contenu, par exemple A.WAV, B.WAV; C.WAV, au hasard. Votre tâche est simple : vous éteignez le son de votre ordinateur (ou vous débranches les haut-parleurs si nécessaire), chargez les fichiers dans un programme d'édition de son qui vous permette de voir la représentation des courbes sonores et essayez de deviner quel fichier est la musique, lequel est celui de l'usine ou d'un bruit non-musical similaire et lequel est celui de la galerie marchande. Si vous arrivez seulement à faire cela, je serai impressionné. Maintenant, en ne vous servant que de vos yeux, essayez de retrouver les notes et les instruments dans l'enregistrement de la musique, ou ce que disent les gens dans l'enregistrement de la foule.

Voici un échantillon graphique de deux sons différents. A première vue, que sont-ils ? Voici un tuyau, vous avez 3 choix : ce sont tous les deux de la musique, l'un est de la musique et l'autre de la voix parlée, les deux sont de la voix parlée. Si l'un est celui d'une personne qui parle et l'autre de la musique, pouvez-vous les différencier ? Quels mots sont prononcés, si ce sont des paroles ? Quelles notes sont jouées et par quel instrument si c'est de la musique ?

C'est la musique	Ce sont les paroles

Tentez l'expérience inverse. Enregistrez une image dans un format bitmap non compressé, puis chargez-la dans un logiciel audio en tant qu'échantillon brut et jouez-le, cette fois avec le son en marche et voyons si vous pouvez "entendre" la nature graphique de l'image en quoi que ce soit.

Donc, il EST effectivement possible de faire des conversions simples en MIDI de sources audio monophoniques et même de sources polyphoniques simples d'un instrument unique qui joue des accords (piano, guitar, etc...) Pour le moment, Digital Ear reste mon logiciel favori pour la conversion d'audio monophonique en MIDI car il ne se borne pas à convertir les notes en MIDI, il analyse et traduit les fluctuations de tessiture comme le vibrato, les pull-on à la guitare, les coulisses au trombone, les slides à la guitare, etc... et le convertir en chute de hauteur sonore, Portamento MIDI, et peut même saisir les changements de volume et de brillance pour les convertir en événements MIDI du controlleur de hauteur du son, à votre convenance. Vous pourriez donc fredonner un air dans le micro de votre ordinateur, en utilisant un son vocalique comme "ou" ou "ah", et varier la puissance comme vous le désirez, disons à la manière d'un saxophone, et Digital Ear le convertirait en MIDI.

6- Et la conversion de fichiers MIDI ou MUS en fichier audio ?

Il est TRES FACILE d'aller dans l'autre sens, de transformer un fichier MIDI en WAV, aussi facilement que de transformer un fichier EPS en matrice (TIFF, etc...) En fait, comme les fichiers MIDI et EPS ne contiennent pas vraiment de son ou d'image, vous ne pouvez même pas entendre un fichier MIDI ou voir un fichier EPS tant qu'il n'a pas été converti en audio ou en matrice, même temporairement. Le convertir de manière permanente revient simplement à stocker les résultats de la conversion qu'il faut bien faire malgré tout pour que les résultats des commandes contenues dans le fichier soient perceptibles.

Par exemple, quand on utilise Adobe Illustrator ou n'importe quel autre programme du même type, on ne voit PAS les courbes de Bézier réelles sur l'écran. On en voit le rendu matriciel puisque l'écran est au départ un périphérique matriciel (dans cet exemple, il y a des exceptions : les traceurs, les moniteurs à scan vectoriel, etc... mais en général ce que j'ai dit se vérifie) Quand vous imprimez un tel fichier sur une imprimante ordinaire (même une imprimante laser Postcript) vous voyez des points qui ont été produits par une rastérisation dans l'imprimante qui a converti les commandes graphiques en matrice.

Quand vous jouez un fichier MIDI, de quelque façon que ce soit, le dispositif MIDI interprète les commandes et génère des courbes sonores. Une fois qu'elle ont été générées, elles ont la même nature que des courbes générées par des fichiers audio enregistrés.

Dans les deux cas, la sortie de la conversion peut être stockée dans un fichier et le fichier résultat es un fichier ordinaire, compressé ou non, graphique (TIFF, JPG, etc...) ou un fichier audio (WAV, AIFF, MP3), selon le cas.

7- Qu'en dit Myriad ?

Dans la toute première version d'Harmony Assistant, en 1994, nous avions intégré un module de reconnaissance de fréquence (notes). Il marchait très bien quand un seul instrument jouait une seule note à la fois, comme c'est le cas pour la voix ou les instruments à vent. Il marchait aussi pour la plupart des instruments polyphoniques qui jouent des accords, par exemple une guitare seule, un piano seul, etc... Mais il ne marchait pas du tout avec une orchestration complexe, la batterie, etc...

Comme beaucoup d'utilisateurs avaient essayé d'utiliser cette fonction dans un cadre pour lequel elle n'avait pas été développée, puis s'étaient plaints auprès de notre assistance technique qu'elle ne fonctionnait pas, nous l'avons supprimée dans les versions suivantes du logiciel. De cet ensemble de fonction originel ne reste plus dans Harmony Assistant que la fonction "Accord fin" à laquelle nous n'avons pas touché depuis 7 ans.

Comme la puissance des ordinateurs ne fait que croître, nous avons jeté un oeil à ce qui est actuellement disponible dans ce domaine. Il semble que les choses ne se soient pas beaucoup améliorées ces dernières années. Beaucoup de logiciels peuvent traiter des échantillons d'un instrument monophonique unique, certains essaient de reconnaître les notes d'un instrument polyphonique, avec plus ou moins de succès, mais "aucun" d'entre eux est capable de sortit une partition propre à partit d'une source complexe, comme le fichier numérique issu d'une pièce orchestrale ou même d'un petit groupe de rock. En fait, On peut se demander si c'est vraiment possible. A mon avis, il n'est pas possible, à l'heure actuelle, d'obtenir de bons résultats pour de tels fichiers.

Si vous lisez soigneusement le mode d'emploi de la plupart de ces logiciels, vous remarquerez qu'on dit clairement que ca ne marche que pour des instruments solo, que ce n'est pas destiné à traiter des pistes numériques tirées d'un CD Mais la première chose que l'utilisateur fait pour évaluer le logiciel (c'est ce que j'ai fait, moi aussi) est de l'essayer sur des morceaux aussi complexes que la 9° symphonie de Beethoven, ou un extrait du dernier CD d'Iron Maiden, selon ses goûts. Et bien sûr, ça ne marche pas, et les utilisateurs se plaignent soit dans les "newsgroups" soit auprès du service d'assistance de la société (ce que moi je n'ai pas fait)

C'est la raison pour laquelle nous ne voulons pas produire une telle fonction dans Harmony Assistant. Car nous savons bien que, même si nous écrivez en gros caractères rouges la manière dont elle est censée être utilisée, la plupart des utilisateurs vont la tester au-delà de ses limites pour ensuite casser les pieds de l'assistance technique...

Donc, nous ne créerons sans doute jamais de fonction de reconnaissance telle que vous l'attendez. En tout cas, un tel module ne serait pas capable de sortir une partition de 30 portées à partir d'une symphonie. Si nous faisons quelque chose dans ce domaine, ce sera intégré dans un module plus global, tourné vers la voix, par exemple, de façon à ce qu'il n'y ait aucune confusion possible quant aux limites de la fonction.

==============================

Analogie entre un logiciel de dessin
et un logiciel de musique

1	2
Voici votre écran d'ordinateur grossi de nombreuses fois. Chaque carré s'appelle un pixel et en fait est un minuscule point qui peut prendre la valeur ON (blanc ou allumé) ou OFF (noir ou éteint)	Si vous tapez la lettre "a" dans un logiciel de dessin, voici ce que vous voyez à l'écran, agrandi de nombreuses fois. Votre fichier sera du type BMP, PICT, PSD, TIFF ou d'un type similaire. C'est la même chose pour des fichiers audio MP3, WAV ou similaires. Dans ce cas, nous n'avons qu'un seul instrument jouant une seule, rien de plus. Si nous avions un mot, cela reviendrait à avoir autant de notes que de lettres dans le mot.
3	4
Voici ce que voit l'ordinateur : une série de 1 et de 0. Le 1 indique qu'un point de lumière (ou pixel) est allumé (ON) et le 0 indique que le pixel est éteint (OFF).	Si vous voulez convertir ce fichier dans un format de type Illustrator (EPS) ou similaire, vous devriez faire un tracé automatique (conversion en dessin vectoriel). C'est exactement la même chose que d'essayer de convertir un fichier WAV en fichier MIDI ou MUS automatiquement. Le résultat est éditable à volonté.
5	6
Votre fichier converti aurait cet aspect. A comparer avec le résultat final d'un fichier MP3 d'une note sur un instrument, converti en MIDI. Le lignes bleues et les points indiquent les points à partir desquels le dessin peut être modifié sans perte de résolution ou de qualité.	Voici ce que vous escomptiez obtenir avec la conversion automatique. C'est ce à quoi le fichier d'origine MUS ou MIDI ressemblerait s'il avait été créé comme tel au départ. Voici ce que vous voyez. Pour voir ce que voit l'ordinateur, cliquez ici. Vous verrez une série de commandes qui disent à l'ordinateur ce qu'il faut qu'il fasse et comment il doit le faire, au lieu d'une série de 1 et de 0.

7	8	9
Donc, voici ce avec quoi vous avez commencé et que vous espériez que votre conversion automatique vous donnerait...	... ce fichier MUS ou MIDI : un fichier qu'il est possible d'éditer à loisir, mais...	... voici le résultat final de votre conversion automatique et c'est le mieux que vous puissiez espérer avec un seul instrument jouant une seule note dans les meilleurs conditions possibles.

10

Bon, tout ceci est proche de l'enregistrement d'un opéra, un orchestre de jazz ou des Rolling Stones en train de jouer et chanter à plusieurs voix, instruments et accords, etc... Ce que vous voulez faire, c'est convertir le tout automatiquement en quelque chose qui serait exactement identique mais qui pourrait être édité comme on veut par la suite, en espérant que tout ce qui appartient à l'arbre sur la droite soit groupé dans un ordre logique et qu'il en soit de même pour tous les autres éléments du tableau, que vous puissiez l'éditer facilement (les notes jouées par le piano sont toutes sur la même portée avec les vélocités, les durées correctes, etc... même chose pour tous les instruments) Pouvez-vous imaginer la tâche ? A l'heure actuelle, il est impossible d'y arriver avec aucun des logiciels graphiques du marché et nous avons de sérieux doutes que ça soit possible dans un proche avenir. C'est la même chose pour la musique.

==============================

Écrit par Joel Ellis Rea "ComaLite J". Commentaire de Myriad Software
Compilé et traité par Laurier Napper
Illustrations et peinture de Laurier Nappert
Novembre 2001
Bidouillage de traduction : Jean-Pierre Butin / janvier 2005

Accueil > Ressources > Partage d'expérience > WAV, AIFF, MP3, MPEG, AU

et la conversion de toutes les autres formes de fichiers audio au format MIDI ou MUS

WAV, AIFF, MP3, AU et la conversion de toutes les autres formes de fichiers audio au format MIDI ou MUS

Joel Ellis Rea

Laurier Nappert