All swedish users - a question
Posted: Sat Nov 19, 2005 9:51 am
Ok, since this is a question aimed specifically at swedish users only I will write this one in swedish. (It's just a question about some details how a swedish breakdown algorithm should be designed, how all the users would like to use it.)
Hej allihopa
Som ni kan se i den här tråden http://www.lostmarble.com/forum/viewtopic.php?t=2347 så håller jag på att hjälpa Myles med att utforma en svensk fonetisk algoritm för att få papagayo att fungera så väl som möjligt även på svenska.
Jag har en idé som jag vill testa på er andra svenskspråkiga användare.
Men först lite bakgrund om regelbaserad text-till-fonem-omvandling för den som inte känner till det:
Algoritmen som Myles jobbar på är alltså en regelbaserad omvandlare. Exempel på en regel: "bokstavskombinationen 'tj' uttalas (enligt CMU-uttalslistan) som ljudet CH om 'tj' befinner sig i början av ett morfem". (exempel: 'tjära')
Hela algoritmen består av en lång, lång rad av liknande regler.
Men en sån här regelbaserad omvandlare blir aldrig 100-procentig, eftersom ett språk av naturen innehåller många irreguljära avvikelser. Vissa överföringar från text till fonem är helt oberäkneliga. Undantagen är ofta många och träffsäkerheten blir aldrig 100 %.
HÄR ÄR NÅGRA AV DE SVÅRASTE PROBLEMEN JAG STÖTT PÅ NÄR DET GÄLLER DEN SVENSKA TEXT-TILL-FONEM-OMVANDLINGEN
Det första har att göra med vokalerna 'e' och 'ä' som båda uttalsmässigt varierar.
exempel: "väldigt fräscha färger på tapeterna här"
Jag har inte hittat några entydiga regler när uttalet ska vara E och när det ska vara Ä. (algoritmens nuvarande felprocent ca 30%?)
Samma problem har vi med vokalen 'o' som varierar lika oberäkneligt mellan O och Å.
exempel: "gå nu min pojke och sno plånboken ur mormors kommod"
(felprocenten ca 50%)
Ett annat svårt problem är svenskans ordsammansättningar, som är svåra för en regelbaserad algoritm att göra rätsida på.
exempel: 'matjord' (det går inte att hitta en regel som kan avgöra att 'mat' och 'jord' är olika fonem och att 'tj' därför INTE ska uttalas som CH)
HÄR KOMMER NU MIN FRÅGA TILL ER:
Jag tänkte att man kunde använda sig av en liten 'workaround' för att fixa de ovanstående problemen med 'e' 'ä' 'o' och svenskans många ordsammansättningar.
Det är väldigt enkelt, men det kräver lite extra av användaren när man skriver in orden i papagayo.
1.
Man skriver helt enkelt ut UTTALET av de tre vokalerna när man skriver in orden i papagayo.
"väldigt fräscha färger på tapeterna här" skriver man så här
"veldigt frescha färgär på tapetärna här"
och
"gå nu min pojke och sno plånboken ur mormors kommod" skrivs som
"gå nu min påjke å sno plånboken ur mormors kåmmod"
2.
Man särar på ordsammansättningar.
man skriver "matjord" som "mat jord"
"dragkedja" blir "drag kedja"
OM VI UTFORMAR DEN SVENSKA ALGORITMEN SÅ ATT DEN SKA ANVÄNDAS PÅ DET HÄR SÄTTET SÅ STIGER TRÄFFSÄKERHETEN BETYDLIGT.
Alternativet är att gå in för att skriva den korrekta svenska stavningen på alla ord, att ta den oundvikliga felprocenten i omvandlingen, och att i stället efteråt gå in och korrigera alla felaktiga Preston shapes som algoritmen gett.
VAD FÖREDRAR NI?
workaround-sättet eller korrigera efteråt?
Skicka gärna svaren till mej per message.
hälsningar
cap
Hej allihopa
Som ni kan se i den här tråden http://www.lostmarble.com/forum/viewtopic.php?t=2347 så håller jag på att hjälpa Myles med att utforma en svensk fonetisk algoritm för att få papagayo att fungera så väl som möjligt även på svenska.
Jag har en idé som jag vill testa på er andra svenskspråkiga användare.
Men först lite bakgrund om regelbaserad text-till-fonem-omvandling för den som inte känner till det:
Algoritmen som Myles jobbar på är alltså en regelbaserad omvandlare. Exempel på en regel: "bokstavskombinationen 'tj' uttalas (enligt CMU-uttalslistan) som ljudet CH om 'tj' befinner sig i början av ett morfem". (exempel: 'tjära')
Hela algoritmen består av en lång, lång rad av liknande regler.
Men en sån här regelbaserad omvandlare blir aldrig 100-procentig, eftersom ett språk av naturen innehåller många irreguljära avvikelser. Vissa överföringar från text till fonem är helt oberäkneliga. Undantagen är ofta många och träffsäkerheten blir aldrig 100 %.
HÄR ÄR NÅGRA AV DE SVÅRASTE PROBLEMEN JAG STÖTT PÅ NÄR DET GÄLLER DEN SVENSKA TEXT-TILL-FONEM-OMVANDLINGEN
Det första har att göra med vokalerna 'e' och 'ä' som båda uttalsmässigt varierar.
exempel: "väldigt fräscha färger på tapeterna här"
Jag har inte hittat några entydiga regler när uttalet ska vara E och när det ska vara Ä. (algoritmens nuvarande felprocent ca 30%?)
Samma problem har vi med vokalen 'o' som varierar lika oberäkneligt mellan O och Å.
exempel: "gå nu min pojke och sno plånboken ur mormors kommod"
(felprocenten ca 50%)
Ett annat svårt problem är svenskans ordsammansättningar, som är svåra för en regelbaserad algoritm att göra rätsida på.
exempel: 'matjord' (det går inte att hitta en regel som kan avgöra att 'mat' och 'jord' är olika fonem och att 'tj' därför INTE ska uttalas som CH)
HÄR KOMMER NU MIN FRÅGA TILL ER:
Jag tänkte att man kunde använda sig av en liten 'workaround' för att fixa de ovanstående problemen med 'e' 'ä' 'o' och svenskans många ordsammansättningar.
Det är väldigt enkelt, men det kräver lite extra av användaren när man skriver in orden i papagayo.
1.
Man skriver helt enkelt ut UTTALET av de tre vokalerna när man skriver in orden i papagayo.
"väldigt fräscha färger på tapeterna här" skriver man så här
"veldigt frescha färgär på tapetärna här"
och
"gå nu min pojke och sno plånboken ur mormors kommod" skrivs som
"gå nu min påjke å sno plånboken ur mormors kåmmod"
2.
Man särar på ordsammansättningar.
man skriver "matjord" som "mat jord"
"dragkedja" blir "drag kedja"
OM VI UTFORMAR DEN SVENSKA ALGORITMEN SÅ ATT DEN SKA ANVÄNDAS PÅ DET HÄR SÄTTET SÅ STIGER TRÄFFSÄKERHETEN BETYDLIGT.
Alternativet är att gå in för att skriva den korrekta svenska stavningen på alla ord, att ta den oundvikliga felprocenten i omvandlingen, och att i stället efteråt gå in och korrigera alla felaktiga Preston shapes som algoritmen gett.
VAD FÖREDRAR NI?
workaround-sättet eller korrigera efteråt?
Skicka gärna svaren till mej per message.
hälsningar
cap