Exercices : chargez SMS pour la science en mémoire vive, via la connexion bureau à distance.
Cette semaine, nous continuons nos exercices sur SMS-pour la science.
- Quand vous visualisez les résultats, expliquez la différence entre « vue texte grille », « vue texte formulaire » et « vue concordance 'texte transcrit' ».
La vue texte grille permet de visualiser rapidement le SMS dans le contexte réel (brut) mais également le texte transcrit, le tout étant présenté en colonnes. La vue texte formulaire permet une visualisation divisée de haut en bas. La vue concordance permet de visualiser le mot clef dans une colonne centrale. Cette visualisation s'intitule KWIC (key word in context ; mot clef en contexte).
- Peut-on obtenir une visualisation « vue concordance 'texte brut' » ? Si oui, comment ?
Oui, lorsqu'on fait des requêtes à partir de SMS brut. On visualise les mots sous forme de concordance.
- Peut-on obtenir une visualisation contenant à la fois « vue concordance 'texte brut' » et « vue concordance 'texte transcrit' » ?
Oui, par exemple, si on fait une requête sur "kan" dans ka partie "brut" et "quand" dans la partie "transcrit" (pour éviter de ramener des formes se référant à "qu'en"), on peut visualiser les concordances pour le texte brut et le texte transcrit.
- Peut-on trier les occurrences du texte brut ?
Oui, par exemple, si je fais une requête de texte "brut", comme "pourkoi+pk+pkoi", par défaut les résultats sous forme de KWIC seront présentés par ordre chronologique. Si on souhaite trier les KWIC pour une visualisation aisée, on sélectionne la colonne centrale (en cliquant sur le haut de la colonne) et on fait un clic droit, puis on choisit "trier" "ordre ascendant" par exemple, si on veut obtenir tous les exemples en "pk" suivis de "pkoi" suivis de "pourquoi".
- À quoi servent les listes de mots ?
Les listes de mots vous permettent de vérifier les mots reconnus par le dictionnaire du logiciel, et ceux qui ne le sont pas. La colonne de gauche, scindée en deux parties, contient les mots (et les lemmes) reconnus. Dans la partie droite, on peut visualiser tous les mots non reconnus, ce qui sera bien sûr le cas de beaucoup de mots contenus dans des SMS.
- Peut-on ensuite sauvegarder les résultats dans un fichier ?
Oui, plusieurs formats sont possibles, en principe : rtf et pdf. xls est indiqué comme étant une possibilité mais avec la connexion CBD, ce format ne semble pas reconnu. En revanche, on peut toujours exporter les résultats en format rtf, puis les importer dans un logiciel tableur par la suite.
- Si on veut effectuer une recherche croisée, par exemple, rechercher des occurrences de SMS pour un mot déterminé, par exemple « kan » qui se réfère à « quand » et non pas à « qu'en », comment faire ? Ou « pk » qui serait uniquement « pourquoi » et non « parce que » ?
On a vu pour "kan" un peu plus haut. Pour "pk", l'écrire ainsi dans le SMS brut, puis écrire "pourquoi" dans le SMS transcrit, ce qui permettra d'exclure toutes les occurrences de "parce que" qui auraient été notées "pk" dans les SMS brut.
- Quelle différence entre la saisie de majuscules et minuscules ? Si on ne veut obtenir que les majuscules ? Que les minuscules ? Comment faire ?
La recherche à l'aide de minuscules inclut les majsucules, c'est-à-dire si je recherche "pk", cela inclut : pk, PK, Pk et pK. En revanche une recherche uniquement en majuscules ne ramène que des majuscules (PK -> PK). Inversément, pour n'obtenir que des minuscules il faut mettre la séquence à rechercher entre guillemets.
- On peut rechercher des annotations en bas de l'interface de requête dans « remarques sur SMS ». Différentes indications montrent des phénomènes divers. Quelques exemples : ":" indique une faute de frappe, par exemple : par:pas. (Si vous mettez ":" sans autre précision vous obtiendrez 1444 réponses) «bof.ADV» indique par exemple que "bof" est utilisé comme adverbe dans le SMS alors que normalement il relève d'une autre catégorie : j'ai bof dormi. MISS indique un élément qui manque, par exemple la négation ne dans : t'as pas. Ceci est indiqué : {ne,.ADV+MISS} (Il faut formuler la requête dans la zone "SMS transcrit, dans ce cas : 5427 réponses)
- Pour rechercher des fautes de frappe sur des mots spécifiques, on peut le faire de la manière suivante :
:viens (dans la zone "remarque sur SMS")
recherche toutes les fautes qui affectent ce mot. Combien en trouvez-vous ? 28
- Que permet la requête suivante ? <je.MISS> (dans la zone : "SMS retranscrit") 2304 réponses. Dans quel contexte cela pourrait être utile ? Lorsque l'on souhaite retrouver toutes les occurrences d'ellipse pour un pronom sujet 1re personne.
- <je.MISS><V> cherche un sous-ensemble de la requête précédente, soit les contextes dans lesquels le pronom qui précède normalement le verbe manque. (1727 réponses)
- Comment rechercher plusieurs pronoms qui auraient dû figurer avant un verbe ? <je.MISS>+<tu.MISS>+<il.MISS>+<elle.MISS>+<on.MISS><V> (4001 réponses)
D'autres exemples de requêtes :
- <pouvoir.V> recherche le verbe pouvoir à toutes ses formes conjugées (4850 réponses)
- <peux,pouvoir.V> recherche uniquement la forme fléchie peux du verbe pouvoir. (1680 réponses).
- <DET><A><N> reconnaît un déterminant suivi d'un adjectif antéposé au nom. (5904 réponses : "de beaux rêves", "mon petit bébé"…)
- <ne.MISS><TOKEN>*<pas.ADV> (va rechercher des exemples comme "je l'ai pas vu")
- <ne.MISS><TOKEN>*<plus.ADV> (recherche des exemples comme "je ne retrouve plus ma carte")
Requêtes plus complexes (mais plus précises, pourquoi ?):
- <ne.MISS><TOKEN>*<V>*<TOKEN>*<!V><TOKEN>*<pas.ADV>
- <ne.MISS><TOKEN>*<V>*<TOKEN>*<!V><TOKEN>*<plus.ADV>
Cette requête plus complexe permet de ne pas retenir un exemple comme : "je ne vois que toi mon amour t'es la seule que j'aime je t'aime plus que tout" (et donc d'éviter un superlatif)
Au niveau des listes de mots, on peut effectuer également des requêtes, appelés filtres. Deux exemples de requêtes à essayer :
% (zéro, un ou plusieurs caractères) -> %er = tous les mots se terminant par 'er' (en bas de la colonne de gauche)
Le '%' fonctionne également avec les catégories grammaticales (intitulés "codes lexicaux") : V% affiche tous les verbes, par exemple.
Comment faire pour faire afficher tous les verbes du premier groupe, à l'infinitif ? Mettre %er dans la colonne de gauche (intitulée "forme") et V% dans la colonne de droite (intitulée "codes lexicaux").
Vous pourrez ensuite consulter le tutoriel pour d'autres exemples de requêtes.
Références bibliographiques
Liens liés au projet SMS pour la science :
Retour à la page d'accueil