Projet pour le cours "De la modélisation au traitement automatique des données linguistiques" dispensé par Iris Eshkol-Taravella à l'Université Paris Nanterre. Nous avons choisi l'article sur la classification automatique de questions spontanées versus préparées dans des transcriptions orales, rédigé par Iris Eshkol-Taravella, Angèle Barbedette, Xingyu Liu, et Valentin-Gabriel Soumah. Nous devions trouver un corpus comparable à celui utilisé dans l'article afin de vérifier si les critères de classification pouvaient être généralisés dans une autre langue. Face au défi de trouver un corpus similaire en anglais, nous avons opté pour un corpus spécifique de openICPSR. 200 questions ont été annotées manuellement.
Qinliang Qi, Schermesser Charlotte