Python/other/detecting_english_programmatically.py

import os

UPPERLETTERS = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
LETTERS_AND_SPACE = UPPERLETTERS + UPPERLETTERS.lower() + ' \t\n'

def loadDictionary():
    path = os.path.split(os.path.realpath(__file__))
    dictionaryFile = open(path[0] + '/Dictionary.txt')
    englishWords = {}
    for word in dictionaryFile.read().split('\n'):
        englishWords[word] = None
    dictionaryFile.close()
    return englishWords

ENGLISH_WORDS = loadDictionary()

def getEnglishCount(message):
    message = message.upper()
    message = removeNonLetters(message)
    possibleWords = message.split()

    if possibleWords == []:
        return 0.0

    matches = 0
    for word in possibleWords:
        if word in ENGLISH_WORDS:
            matches += 1

    return float(matches) / len(possibleWords)

def removeNonLetters(message):
    lettersOnly = []
    for symbol in message:
        if symbol in LETTERS_AND_SPACE:
            lettersOnly.append(symbol)
    return ''.join(lettersOnly)

def isEnglish(message, wordPercentage = 20, letterPercentage = 85):
    """
    >>> isEnglish('Hello World')
    True

    >>> isEnglish('llold HorWd')
    False
    """
    wordsMatch = getEnglishCount(message) * 100 >= wordPercentage
    numLetters = len(removeNonLetters(message))
    messageLettersPercentage = (float(numLetters) / len(message)) * 100
    lettersMatch = messageLettersPercentage >= letterPercentage
    return wordsMatch and lettersMatch


import doctest
doctest.testmod()
Added test cases 2016-08-02 17:46:55 +00:00			`import os`

Initial 2016-08-02 15:33:29 +00:00			`UPPERLETTERS = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'`
			`LETTERS_AND_SPACE = UPPERLETTERS + UPPERLETTERS.lower() + ' \t\n'`

			`def loadDictionary():`
Added test cases 2016-08-02 17:46:55 +00:00			`path = os.path.split(os.path.realpath(__file__))`
Improvement 2016-08-02 18:14:38 +00:00			`dictionaryFile = open(path[0] + '/Dictionary.txt')`
Initial 2016-08-02 15:33:29 +00:00			`englishWords = {}`
			`for word in dictionaryFile.read().split('\n'):`
			`englishWords[word] = None`
			`dictionaryFile.close()`
			`return englishWords`

			`ENGLISH_WORDS = loadDictionary()`

			`def getEnglishCount(message):`
			`message = message.upper()`
			`message = removeNonLetters(message)`
			`possibleWords = message.split()`

			`if possibleWords == []:`
			`return 0.0`

			`matches = 0`
			`for word in possibleWords:`
			`if word in ENGLISH_WORDS:`
			`matches += 1`

			`return float(matches) / len(possibleWords)`

			`def removeNonLetters(message):`
			`lettersOnly = []`
			`for symbol in message:`
			`if symbol in LETTERS_AND_SPACE:`
			`lettersOnly.append(symbol)`
			`return ''.join(lettersOnly)`

			`def isEnglish(message, wordPercentage = 20, letterPercentage = 85):`
Added test cases 2016-08-02 17:46:55 +00:00			`"""`
			`>>> isEnglish('Hello World')`
			`True`

			`>>> isEnglish('llold HorWd')`
			`False`
			`"""`
Initial 2016-08-02 15:33:29 +00:00			`wordsMatch = getEnglishCount(message) * 100 >= wordPercentage`
			`numLetters = len(removeNonLetters(message))`
			`messageLettersPercentage = (float(numLetters) / len(message)) * 100`
			`lettersMatch = messageLettersPercentage >= letterPercentage`
			`return wordsMatch and lettersMatch`
Added test cases 2016-08-02 17:46:55 +00:00

			`import doctest`
			`doctest.testmod()`