# Cha√Ænes de caract√®res

Les cha√Ænes de caract√®res sont des s√©quences de caract√®res. En Python, on peut d√©finir une cha√Æne de caract√®res avec des guillemets simples (`'`) ou doubles (`"`). On peut aussi d√©finir une cha√Æne de caract√®res sur plusieurs lignes avec des triples guillemets simples (`'''`) ou doubles (`"""`).

Il y a les cha√Ænes de caract√®res brutes (raw strings) qui sont d√©finies avec un `r` devant les guillemets. Ces cha√Ænes de caract√®res ne sont pas interpr√©t√©es, c'est-√†-dire que les caract√®res sp√©ciaux (comme `\n` pour un retour √† la ligne) ne sont pas interpr√©t√©s.

Il y a les cha√Ænes de caract√®res format√©es (formatted strings) qui sont d√©finies avec un `f` devant les guillemets. Ces cha√Ænes de caract√®res permettent d'ins√©rer des variables dans la cha√Æne de caract√®res.

## D√©claration d'une cha√Æne de caract√®res

In [1]:
# po√©sie sur les poules (par Copilote)
poesie = """
Quand trois poules vont au champ
La premi√®re va devant
La deuxi√®me suit la premi√®re
La troisi√®me va derri√®re
"""

print(poesie)

# exemple de caract√®res sp√©ciaux
# \' pour une apostrophe
# \" pour un guillemet
print("C'est une \"citation\"")
print('C\'est une "citation"')
# \n pour un retour √† la ligne
# \t pour une tabulation
# \\ pour un antislash
print("Une phrase avec un retour √† la ligne\net quelques\tta\tbu\tla\ttions\net un antislash\\")
# la diff√©rence entre \u et \U est que \u est pour les caract√®res unicode de 16 bits 
# et \U est pour les caract√®res unicode de 32 bits
print("On peut avoir aussi des caract√®res par leur unicode ¬´¬†\u00e7\u00e0¬†¬ª... ou \U0001F600")



Quand trois poules vont au champ
La premi√®re va devant
La deuxi√®me suit la premi√®re
La troisi√®me va derri√®re

C'est une "citation"
C'est une "citation"
Une phrase avec un retour √† la ligne
et quelques	ta	bu	la	tions
et un antislash\
On peut avoir aussi des caract√®res par leur unicode ¬´¬†√ß√†¬†¬ª... ou üòÄ


## Parcourir une cha√Æne de caract√®res

In [2]:
phrase = "Une voiture üöó !"

# en utilisant "in"
for c in phrase:
    print(c, end="-")

print()

# en utilisant "range" et "len"
for i in range(len(phrase)):
    print(phrase[i], end="-")

print("\n"+"-"*42)

# parcourir par mots
for w in phrase.split():
    print(w, end="-")

print("\n"+"-"*42)

# parcourir par lignes
for l in poesie.splitlines():
    print(l, end="|")

U-n-e- -v-o-i-t-u-r-e- -üöó- -!-
U-n-e- -v-o-i-t-u-r-e- -üöó- -!-
------------------------------------------
Une-voiture-üöó-!-
------------------------------------------
|Quand trois poules vont au champ|La premi√®re va devant|La deuxi√®me suit la premi√®re|La troisi√®me va derri√®re|

## Modifier une cha√Æne de caract√®res

Par exemple pour supprimer les espaces de d√©but et de fin on utilise la m√©thode `strip()`.

In [3]:
# on enl√®ve les espaces en d√©but et fin de po√©sie
# les passages √† la ligne sont des espaces
poesie = poesie.strip()
# on imprimes les lignes sans les lignes vide du d√©but et de la fin
for l in poesie.split("\n"):
    print(l, end="|")

Quand trois poules vont au champ|La premi√®re va devant|La deuxi√®me suit la premi√®re|La troisi√®me va derri√®re|

On peut transformer en liste avec `split` *(d√©j√† vu plus haut)*.

In [4]:
# on compte le nombre de mots dans la po√©sie
print("La po√©sie contient", len(poesie.split()), "mots.")

# on compte le nombre de lignes dans la po√©sie
print("La po√©sie contient", len(poesie.splitlines()), "lignes.")

La po√©sie contient 19 mots.
La po√©sie contient 4 lignes.


In [5]:
# la fonction valeur retourne la valeur associ√©e √† un mot
valeur = lambda m : {"un":1, "deux":2, "trois":3}.get(m, 0)

# on peut aussi scinder en utilisant un autre s√©parateur
[valeur(mot) for mot in "un,deux,trois,autre".split(",")]

[1, 2, 3, 0]

On peut utiliser aussi une compr√©hension pour transformer en liste ou en ensemble.

In [6]:
# on r√©cup√®re tous les lettres (sans les espaces) de la po√©sie en minuscule
lettres = {c.lower() for c in poesie if c.isalpha()}
print("La po√©sie contient", len(lettres), "lettres diff√©rentes.")

# on peut aussi reconstruire une cha√Æne √† partir d'une liste
print(":".join(["un", "deux", "trois"]))

La po√©sie contient 19 lettres diff√©rentes.
un:deux:trois


On peut r√©cup√©rer une sous-cha√Æne avec la notation `s[i:j]`.

In [7]:
print("Les d√©but de la phrase est:", phrase[:7])
print("Les milieu de la phrase est:", phrase[4:11])
print("Les fin de la phrase est:", phrase[-7:])

Les d√©but de la phrase est: Une voi
Les milieu de la phrase est: voiture
Les fin de la phrase est: ure üöó !


On peut transformer la casse avec les m√©thodes `upper()`, `lower()` et `capitalize()`.

In [8]:
print("La phrase en majuscule :", phrase.upper())
print("La phrase en miniuscule :", phrase.lower())
print("La poesie en titre :\n",poesie.title()) # premi√®re lettre de chaque mot en majuscule

La phrase en majuscule : UNE VOITURE üöó !
La phrase en miniuscule : une voiture üöó !
La poesie en titre :
 Quand Trois Poules Vont Au Champ
La Premi√®re Va Devant
La Deuxi√®me Suit La Premi√®re
La Troisi√®me Va Derri√®re


## Rechercher dans une cha√Æne de caract√®res

Pour v√©rifier si une sous-cha√Æne est pr√©sente dans une cha√Æne on utilise l'op√©rateur `in`.

Mais on peut aussi utiliser les m√©thodes `find()` et `index()`. La diff√©rence entre ces deux m√©thodes est que `find()` renvoie `-1` si la sous-cha√Æne n'est pas trouv√©e alors que `index()` l√®ve une exception.

In [9]:
if "voiture" in phrase:
    print("La phrase contient le mot 'voiture' (mais o√π ?)")

# avec 'find'
pos = phrase.find("voiture")
if pos != -1:
    print(f"La phrase contient le mot 'voiture' qui commence √† la position {pos}.")

La phrase contient le mot 'voiture' (mais o√π ?)
La phrase contient le mot 'voiture' qui commence √† la position 4.


Pour chercher toutes les occurrences d'une sous-cha√Æne on peut combiner une boucle `while` et la m√©thode `find()` avec un deuxi√®me argument qui est l'indice de d√©part de la recherche.

In [10]:
# Trouver toutes les occurrences d'un mot
transport = "On peut se d√©placer en üöó, en ‚úàÔ∏èÔ∏è, en üö≤, en üõ¥, en üõµ..."
mot = "en"
pos = transport.find(mot) # premi√®re occurrence
while pos != -1:
    print(f"Le mot '{mot}' est √† la position {pos}.")
    pos = transport.find(mot, pos+1) # occurrence suivante

Le mot 'en' est √† la position 20.
Le mot 'en' est √† la position 26.
Le mot 'en' est √† la position 34.
Le mot 'en' est √† la position 40.
Le mot 'en' est √† la position 46.


Pour v√©rifier si une phrase commence ou se termine par une sous-cha√Æne on utilise les m√©thodes `startswith()` et `endswith()`.

Mais on peut aussi utiliser extraire le d√©but ou la fin d'une cha√Æne et comparer.

In [11]:
if phrase.startswith("Une"):
    print(f"La phrase ¬´¬†{phrase}¬†¬ª commence par 'Une'")
if phrase.endswith("üöó !"):
    print(f"La phrase ¬´¬†{phrase}¬†¬ª finit par 'üöó !'")

# ou
if phrase[:3] == "Une":
    print("La phrase commence par 'Une'")
if phrase[-1] == "!":
    print("La phrase finit par '!'")

La phrase ¬´¬†Une voiture üöó !¬†¬ª commence par 'Une'
La phrase ¬´¬†Une voiture üöó !¬†¬ª finit par 'üöó !'
La phrase commence par 'Une'
La phrase finit par '!'


# Remplacer dans une cha√Æne de caract√®res

Pour remplacer une sous-cha√Æne par une autre on utilise la m√©thode `replace()`.

In [12]:
print(transport.replace("d√©placer", "tuer"))

On peut se tuer en üöó, en ‚úàÔ∏èÔ∏è, en üö≤, en üõ¥, en üõµ...


## Les expressions rationnelles<br>(regular expressions ou regex)

Les expressions r√©guli√®res sont un outil puissant pour rechercher et manipuler des cha√Ænes de caract√®res. En Python, le module `re` permet de travailler avec les expressions r√©guli√®res.

Les expressions rationnelles sont un langage en soi. Il y a des caract√®res sp√©ciaux qui ont une signification particuli√®re. Par exemple, le point `.` signifie n'importe quel caract√®re, l'ast√©risque `*` signifie 0 ou plusieurs occurrences, le crochet `[]` permet de d√©finir un ensemble de caract√®res, etc.

Par exemple pour chercher les mots "premi√®re", "deuxi√®me" et "troisi√®me", mais √©viter "derri√®re", on peut utiliser :
- `\s` pour savoir que c'est un mot pr√©c√©d√© d'un espace,
- `[pdt]` pour savoir que le mot commence par "p", "d" ou "t",
- `.` pour n'importe quel caract√®re qui suit (ce n'est pas une bonne id√©e ici, mais c'est pour l'exemple),
- `[^r]` pour exclure les mots qui ont un `r` √† la 3e position,
- `\S+` pour une suite de caract√®res qui ne sont pas des espaces,
- `√®[rm]e` et qui se termine par "√®re" ou "√®me",
- `\b` pour savoir que c'est un mot qui se termine par une fronti√®re de mot (espace, ponctuation, etc). Le `\b` ne consomme pas de caract√®re, √† la diff√©rence des autres √©l√©ments utilis√©s ici.



### Rechercher avec `re`

In [13]:
import re

expression = r"\s[pdt].[^r]\S+√®[rm]e\b"

# pour v√©rifier si la po√©sie contient la cha√Æne
if re.search(expression, poesie):
    print("La po√©sie contient l'expression.")
else:
    print("La po√©sie ne contient pas l'expression.")

# pour trouver toutes les occurrences
print(re.findall(expression, poesie))

# pour trouver les positions des occurrences
for m in re.finditer(expression, poesie):
    print(f"Le mot '{m.group()}' est √† la position {m.start()}.")

La po√©sie contient l'expression.
[' premi√®re', ' deuxi√®me', ' premi√®re', ' troisi√®me']
Le mot ' premi√®re' est √† la position 35.
Le mot ' deuxi√®me' est √† la position 57.
Le mot ' premi√®re' est √† la position 74.
Le mot ' troisi√®me' est √† la position 86.


### Aide pour construire une expression r√©guli√®re

Pour v√©rifier ou construire une expression r√©guli√®re on peut se servir d'un site comme [regex101.com](https://regex101.com/r/3zxtDQ/1). On peut aussi demander √† ChatGPT de nous aider.



### Remplacer avec `re`

On peut aussi utiliser les expressions r√©guli√®res pour remplacer des sous-cha√Ænes dans une cha√Æne de caract√®res. On utilise la m√©thode `sub()`.

La puissance des expressions r√©guli√®res vient du fait qu'on peut d√©finir des motifs complexes, d'une part, et qu'on peut capturer des sous-cha√Ænes, d'autre part. On capture des sous-cha√Ænes avec des parenth√®ses, puis on peut les r√©utiliser dans le r√©sultat avec `\1`, `\2`, etc. ou avec `\g<1>`, `\g<2>`, etc. Pour faire r√©f√©rence √† l'expression enti√®re on utilise `\g<0>`.

On peut aussi utiliser les expressions r√©guli√®res pour remplacer des sous-cha√Ænes dans une cha√Æne de caract√®res. On utilise la m√©thode `sub()`.

La puissance des expressions r√©guli√®res vient du fait qu'on peut d√©finir des motifs complexes, d'une part, et qu'on peut capturer des sous-cha√Ænes, d'autre part. On capture des sous-cha√Ænes avec des parenth√®ses, puis on peut les r√©utiliser dans le r√©sultat avec `\1`, `\2`, etc. ou avec `\g<1>`, `\g<2>`, etc. Pour faire r√©f√©rence √† l'expression enti√®re on utilise `\g<0>`.

In [14]:
# \1 ou \g<1> pour r√©utiliser le groupe 1
# c.-√†-d. la partie qui est entre le premier couple de parenth√®ses
print(re.sub(r"\s([pdt].[^r]\S+)(√®[rm]e)\b", r" \1-\2 üêî", poesie)) 

Quand trois poules vont au champ
La premi-√®re üêî va devant
La deuxi-√®me üêî suit la premi-√®re üêî
La troisi-√®me üêî va derri√®re



Quelques √©l√©ments de syntaxe des expressions r√©guli√®res :
- `.` : n'importe quel caract√®re
- `^` : d√©but de la cha√Æne
- `$` : fin de la cha√Æne
- `*` : 0 ou plusieurs occurrences
- `+` : 1 ou plusieurs occurrences
- `?` : 0 ou 1 occurrence
- `{n}` : exactement `n` occurrences
- `\s` : espace
- `\S` : tout sauf un espace
- `\d` : chiffre
- `\D` : tout sauf un chiffre
- `\w` : caract√®re alphanum√©rique (a-z, A-Z, 0-9, _)
- `[abc]` : a ou b ou c
- `[^abc]` : tout sauf a ou b ou c
- `a|b` : a ou b
- `( )` : groupe
- `(?: )` : groupe ¬´¬†sans capture¬†¬ª



### scinder avec `re`

On peut aussi utiliser les expressions r√©guli√®res pour scinder une cha√Æne de caract√®res en une liste de sous-cha√Ænes. On utilise la m√©thode `split()`.

In [15]:
# scinder la po√©sie au niveau des espaces (passage √† la ligne y compris) 
# suivis par un 'l' ou un 'L'
print(re.split(r"\s[Ll]", poesie))

# Et si on veut garder le 'l' ou le 'L' ?
# Le s√©parateur est une espace, mais seulement si elle est suivie 
# par un 'l' ou un 'L' qui ne sera pas ¬´¬†consomm√©¬†¬ª, car il est dans un groupe (?=...)
print(re.split(r"\s(?=[Ll])", poesie))

['Quand trois poules vont au champ', 'a premi√®re va devant', 'a deuxi√®me suit', 'a premi√®re', 'a troisi√®me va derri√®re']
['Quand trois poules vont au champ', 'La premi√®re va devant', 'La deuxi√®me suit', 'la premi√®re', 'La troisi√®me va derri√®re']


## Conversion nombres ‚Üí cha√Ænes de caract√®res (formatage)

Pour convertir un nombre en cha√Æne de caract√®res, on peut utiliser la fonction `str`. 


In [16]:
print("000"+str(42))

00042



On peut aussi utiliser les cha√Ænes de caract√®res format√©es.


In [17]:
from math import pi as œÄ

print(f"La valeur de œÄ est {œÄ}.")       # non format√© : par d√©faut, 15 chiffres
print(f"La valeur de œÄ est {œÄ:f}.")     # format√© en flottant : par d√©faut, 6 chiffres apr√®s la virgule
print(f"La valeur de œÄ est {œÄ:.7f}.")   # format√© en flottant : 7 chiffres apr√®s la virgule
print(f"La valeur de œÄ est {œÄ:10f}.")   # format√© en flottant : 10 caract√®res minimum (align√© √† droite)
print(f"La valeur de œÄ est {œÄ:10.7f}.") # format√© en flottant : 10 caract√®res minimum, 7 chiffres apr√®s la virgule

La valeur de œÄ est 3.141592653589793.
La valeur de œÄ est 3.141593.
La valeur de œÄ est 3.1415927.
La valeur de œÄ est   3.141593.
La valeur de œÄ est  3.1415927.


In [18]:
# la fonction `interact` permet de faire varier les param√®tres d'une fonction
# nous allons voir cette fonction dans un prochain cours (avec les graphiques)
from ipywidgets import interact

def Pi(larg_min=5, precision=3, zeros=False):
    zero = '0' if zeros else ''
    print(f"La valeur de est 100œÄ‚âà{100*œÄ:{zero}{larg_min}.{precision}f}!")

interact(Pi, larg_min=(0,50), precision=(0, 50), zeros=False);

interactive(children=(IntSlider(value=5, description='larg_min', max=50), IntSlider(value=3, description='prec‚Ä¶


Dans une cha√Æne de caract√®res format√©e, on peut utiliser des accolades (`{}`) pour ins√©rer des variables. 
On peut aussi sp√©cifier le formatage des nombres en utilisant ':' apr√®s le nom de la variable. On peut utiliser les formats suivants : 
- `:f` pour un nombre √† virgule flottante
- `:e` pour un nombre √† virgule flottante en notation scientifique
- `:d` pour un entier en d√©cimal
- `:x` pour un entier en hexad√©cimal
- `:o` pour un entier en octal
- `:b` pour un entier en binaire
- `:g` pour un nombre √† virgule flottante en notation courte
On peut aussi sp√©cifier la largeur du champ et le nombre de d√©cimales. Par exemple :
- `:10.2f` pour un nombre √† virgule flottante avec une largeur de champ de 10 caract√®res et 2 d√©cimales
- `:10d` pour un entier avec une largeur de champ de 10 caract√®res
- `:10.2e` pour un nombre √† virgule flottante en notation scientifique avec une largeur de champ de 10 caract√®res et 2 d√©cimales  
On peut aussi sp√©cifier le sens de l'alignement avec `<` pour √† gauche, `>` pour √† droite, `^` pour centrer. Par exemple :
- `:<10.2f` pour un nombre √† virgule flottante avec une largeur de champ de 10 caract√®res et 2 d√©cimales align√© √† gauche
- `:>10d` pour un entier avec une largeur de champ de 10 caract√®res align√© √† droite

In [19]:
from math import sin

a = sin(1)

# on affiche la valeur de a
print(a)
print(f"{a:.2f} : arrondi √† deux d√©cimales.")
print(f"{a:07.3f} : arrondi √† deux d√©cimales et affich√©e sur 7 caract√®res, compl√©t√©e par des z√©ros.")
print(f"{a:10.4f} : arrondi √† quatre d√©cimales et affich√©e sur 10 caract√®res.")
print(f"{a:^10.4f} : arrondi √† quatre d√©cimales et affich√©e sur 10 caract√®res, centr√©e.")
print(f"{a:<10.4f} : arrondi √† quatre d√©cimales et affich√©e sur 10 caract√®res, align√©e √† gauche.")
print(f"{a:g} : en notation ¬´¬†courte¬†¬ª.")
print(f"{a:+g} : en notation ¬´¬†courte¬†¬ª avec signe.")
print(f"{a:e} : en notation scientifique.")

0.8414709848078965
0.84 : arrondi √† deux d√©cimales.
000.841 : arrondi √† deux d√©cimales et affich√©e sur 7 caract√®res, compl√©t√©e par des z√©ros.
    0.8415 : arrondi √† quatre d√©cimales et affich√©e sur 10 caract√®res.
  0.8415   : arrondi √† quatre d√©cimales et affich√©e sur 10 caract√®res, centr√©e.
0.8415     : arrondi √† quatre d√©cimales et affich√©e sur 10 caract√®res, align√©e √† gauche.
0.841471 : en notation ¬´¬†courte¬†¬ª.
+0.841471 : en notation ¬´¬†courte¬†¬ª avec signe.
8.414710e-01 : en notation scientifique.


Par exemple pour afficher un nombre dans une autre base que la base 10 :

In [20]:
b = 1234567890

print(f"{b:d} : en notation d√©cimale.")
print(f"({b:x})‚ÇÅ‚ÇÜ = ({b:X})‚ÇÅ‚ÇÜ = {b}")
print(f"({b:o})‚Çà = {b}")
print(f"({b:b})‚ÇÇ = {b}")


1234567890 : en notation d√©cimale.
(499602d2)‚ÇÅ‚ÇÜ = (499602D2)‚ÇÅ‚ÇÜ = 1234567890
(11145401322)‚Çà = 1234567890
(1001001100101100000001011010010)‚ÇÇ = 1234567890


## Conversion cha√Ænes de caract√®res ‚Üí nombres

Pour convertir une cha√Æne de caract√®res en nombre, on peut utiliser les fonctions `int` et `float`.


In [21]:
num1 = '0123456789'
num2 = '9876543210'

print(num1+num2)
print(int(num1)+int(num2))

01234567899876543210
9999999999


In [22]:
# on demande √† l'utilisateur d'entrer un nombre
# le r√©sultat est une cha√Æne de caract√®res
number = input("Entrez un nombre : ")

# on essaie de convertir la cha√Æne en nombre
try:
    number = float(number)
    print(f"Vous avez entr√© le nombre {number} üôÇ")
except ValueError:
    print(f"Vous n'avez pas entr√© un nombre üôÅ")

Vous avez entr√© le nombre 42.0 üôÇ


Pour √©valuer une expression math√©matique, on peut utiliser la fonction `eval`. Le probl√®me avec `eval` est qu'il √©value n'importe quelle expression Python, pas seulement des expressions math√©matiques. Donc, il est dangereux d'utiliser `eval`. Il est pr√©f√©rable d'utiliser `evaluate` du module `numexpr` qui n'√©value que des expressions math√©matiques.

In [23]:
# pour installer numexpr d√©commenter la ligne suivante et ex√©cuter la cellule
# !pip install numexpr

In [26]:
from numexpr import evaluate

number = input("Entrez une expression num√©rique : ")

# on essaie de convertir la cha√Æne en nombre
try:
    number = evaluate(number)
    print(f"Vous avez entr√© le nombre {number:.3f} üôÇ")
except ValueError:
    print(f"Vous n'avez pas entr√© un nombre üôÅ")

Vous avez entr√© le nombre 314.159 üôÇ


# Lecture d'un fichier

Nous allons voir la manipulation des fichiers dans un des prochains cours, mais voici comment lire un fichier texte en entier. On aura besoin de √ßa pour les exercices.

In [25]:
with open("bob.txt", "r") as f:
    texte = f.read()

# Les 99 premiers caract√®res du texte
print(texte[:99])


Blowin‚Äô in the Wind
(by Bob Dylan)

How many roads must a man walk down
Before you call him a man?

