Καταρχήν, τα strings του .NET είναι όλα Unicode, όχι UTF8. Για να διαβάσεις ή να γράψεις UTF8 θα πρέπει να κάνεις την αντίστοιχη μετατροπή. Από εκεί και πέρα, οι Unicode χαρακτήρες χωρίζονται σε
subranges, για παράδειγμα τα ελληνικά είναι μεταξύ 0x0370 και 0x03FF. Μπορείς έτσι να συγκρίνεις την τιμή ενός χαρακτήρα με τα διάφορα subranges για να δεις σε ποιά γλώσσα αντιστοιχεί. Επειδή όμως τα subranges περιλαμβάνουν και περίεργους χαρακτήρες, π.χ. ϱ, Ϝ, Ϟ, ϐ, ϖ, ϑ καλό είναι να ρίξεις μία ματιά στο Character map των Windows για να ξεχωρίσεις ποιοί χαρακτήρες σε ενδιαφέρουν πραγματικά.
Παναγιώτης Καναβός, Freelancer
Twitter: http://www.twitter.com/pkanavos