Καλώς ορίσατε στο dotNETZone.gr - Σύνδεση | Εγγραφή | Βοήθεια
σε

 

Αρχική σελίδα Ιστολόγια Συζητήσεις Εκθέσεις Φωτογραφιών Αρχειοθήκες

Langage Identification

Îåêßíçóå áðü ôï ìÝëïò flougr. Τελευταία δημοσίευση από το μέλος Παναγιώτης Καναβός στις 03-07-2009, 11:18. Υπάρχουν 1 απαντήσεις.
Ταξινόμηση Δημοσιεύσεων: Προηγούμενο Επόμενο
  •  03-07-2009, 00:01 52183

    Langage Identification

    Καλησπέρα,

    Ξέρει κανείς κάποιο τρόπο να κάνω identify τη γλώσσα στην οποία είναι γραμμένο ένα string ; 
    Βασικά έχω προσπαθήσει να κάνω port το TextCat από pelr ή java σε C# αλλά μέχρι τώρα δεν τα έχω καταφέρει.
    Σκεφτόμουνα για αρχή τουλάχιστον να φτιάξω μια πιο "περιορισμένη" μέθοδο που να μου επιστρέφει αν το string περιέχει μόνο αγγλικούς χαρακτήρες ή όχι. Καμμία ιδέα ; Υπάρχει κάποιος τρόπος διαβάζωντας το string ως UTF-8 να μπορέσω να επιβεβαιώσω ότι δεν περιέχει internation characters ; (εντάξει θα μπερδέυει τα αγγλικά με τα ισπανικά αλλά τουλάχιστον θα απορρίπτει τα Ελληνικά και τα Κινέζικα".


    Δημοσίευση στην κατηγορία:
  •  03-07-2009, 11:18 52199 σε απάντηση της 52183

    Απ: Langage Identification

    Καταρχήν, τα strings του .NET είναι όλα Unicode, όχι UTF8. Για να διαβάσεις ή να γράψεις UTF8 θα πρέπει να κάνεις την αντίστοιχη μετατροπή. Από εκεί και πέρα, οι Unicode χαρακτήρες χωρίζονται σε subranges, για παράδειγμα τα ελληνικά είναι μεταξύ 0x0370 και 0x03FF. Μπορείς έτσι να συγκρίνεις την τιμή ενός χαρακτήρα με τα διάφορα subranges για να δεις σε ποιά γλώσσα αντιστοιχεί. Επειδή όμως τα subranges περιλαμβάνουν και περίεργους χαρακτήρες, π.χ. ϱ, Ϝ, Ϟ, ϐ, ϖ, ϑ καλό είναι να ρίξεις μία ματιά στο Character map των Windows για να ξεχωρίσεις ποιοί χαρακτήρες σε ενδιαφέρουν πραγματικά.


    Παναγιώτης Καναβός, Freelancer
    Twitter: http://www.twitter.com/pkanavos
Προβολή Τροφοδοσίας RSS με μορφή XML
Με χρήση του Community Server (Commercial Edition), από την Telligent Systems