Une étude menée par la WSU a révélé que ChatGPT était efficace dans de vastes tâches financières mais faible dans des domaines nuancés. Alors que ChatGPT 4.0 excellait, un ChatGPT 3.5 affiné rivalisait avec sa précision. L’IA est considérée comme un outil permettant d’aider les professionnels plutôt que de les remplacer, mais elle pourrait avoir un impact sur les rôles financiers débutants effectuant des tâches répétitives.
Les grands modèles linguistiques, tels que ChatGPT, démontrent de bonnes performances sur les questions à choix multiples issues des examens de licence financière, mais ont du mal à effectuer des tâches plus nuancées.
Une étude menée par l’Université de l’État de Washington a évalué plus de 10 000 réponses des modèles d’IA BARD, Llama et ChatGPT aux questions d’examen financier. Les chercheurs sont allés au-delà de l’évaluation de la capacité des modèles’ à sélectionner les bonnes réponses, leur demandant également de fournir des explications sur leurs choix. Ces réponses ont ensuite été comparées aux explications de professionnels humains.
Parmi les modèles testés, deux versions de ChatGPT ont globalement obtenu les meilleurs résultats. Cependant, même ces modèles présentaient des inexactitudes importantes lorsqu’ils abordaient des sujets plus complexes et plus avancés.
“Il est bien trop tôt pour s’inquiéter du fait que ChatGPT accepte complètement des emplois dans le secteur financier”, a déclaré l’auteur de l’étude, DJ Fairhurst, du Carson College of Business de la WSU. “Pour les concepts généraux pour lesquels il existe de bonnes explications sur Internet depuis longtemps, ChatGPT peut faire un très bon travail de synthèse de ces concepts. S’il s’agit d’un problème spécifique et idiosyncratique, cela va vraiment être difficile.”
La portée et les résultats de l’étude
Pour cette étude, publiée dans le Financial Analysts Journal, Fairhurst et le co-auteur Daniel Greene de l’Université de Clemson ont utilisé des questions issues d’examens de licence, notamment l’examen Securities Industry Essentials ainsi que les séries 6, 7, 65 et 66.
Pour aller au-delà de la capacité des modèles d’IA’ à simplement choisir la bonne réponse, les chercheurs ont demandé aux modèles de fournir des explications écrites. Ils ont également choisi des questions en fonction des tâches professionnelles spécifiques que les professionnels de la finance pourraient réellement effectuer.
“Réussir les examens de certification ne suffit pas. Nous devons vraiment creuser plus profondément pour arriver à ce que ces modèles peuvent réellement faire”, a déclaré Fairhurst.
De tous les modèles, la version payante de ChatGPT, version 4.0, a obtenu les meilleurs résultats, fournissant les réponses les plus similaires à celles des experts humains. Sa précision était également de 18 à 28 points de pourcentage supérieure à celle des autres modèles. Cependant, cela a changé lorsque les chercheurs ont peaufiné la version antérieure et gratuite de ChatGPT 3.5, en lui fournissant des exemples de réponses et d’explications correctes. Après ce réglage, il s’est rapproché de ChatGPT 4.0 en termes de précision et l’a même dépassé en fournissant des réponses’ similaires à celles des professionnels humains.
Les faiblesses de l’IA dans les tâches financières spécialisées
Cependant, les deux modèles n’ont toujours pas répondu aux attentes en ce qui concerne certains types de questions. Bien qu’ils aient bien examiné les transactions sur titres et surveillé les tendances des marchés financiers, les modèles ont donné des réponses plus inexactes pour des situations spécialisées telles que la détermination de la couverture d’assurance des clients’ et du statut fiscal.
Fairhurst et Greene, ainsi qu’Adam Bozman, doctorant à la WSU, travaillent désormais sur d’autres moyens de déterminer ce que ChatGPT peut et ne peut pas faire avec un projet qui lui demande d’évaluer d’éventuels accords de fusion. Pour cela, ils profitent du fait que ChatGPT est formé sur des données jusqu’en septembre 2021, et utilisent des transactions conclues après cette date où le résultat est connu. Les résultats préliminaires montrent que jusqu’à présent, le modèle d’IA n’est pas très bon dans cette tâche.
Dans l’ensemble, les chercheurs ont déclaré que ChatGPT est probablement encore mieux utilisé comme un outil d’assistance plutôt que comme un remplacement pour un professionnel de la finance établi. D’un autre côté, l’IA pourrait changer la façon dont certaines banques d’investissement emploient des analystes débutants.
“La pratique consistant à faire appel à un groupe de personnes en tant qu’analystes juniors, à les laisser concourir et à garder les gagnants –cela devient beaucoup plus coûteux”, a déclaré Fairhurst. “Cela peut donc signifier un ralentissement dans ce type d’emplois, mais ce n’est pas parce que ChatGPT est meilleur que les analystes, c’est parce que nous avons demandé à des analystes juniors d’effectuer des tâches plus subalternes.”