Välkommen till linuxportalen.se!

Linuxportalen.se är Sveriges största och aktivaste webbplats för användare av öppen- och fri programvara.

Du besöker Linuxportalen.se som gäst vilket begränsar din möjlighet att använda webbplatsens alla funktioner. Genom att registera dig som medlem får du inte bara möjlighet att söka bland webbplatsens innehåll, skapa nya och delta i befintliga diskussioner, skapa din egen blogg, kommunicera med andra medlemmar genom privata meddelanden och delta i omröstningar. Du får också tillgång till Veckans Kadavro - en seriestrip unikt skapad för Linuxportalen.se!

Registeringen sker snabbt och är helt kostnadsfri - tveka inte, bli medlem idag!

Dylan vs. Reed

Jag håller på att skriva python-klasser som ska ägna sig åt ord och språk. Det finns visserligen NLT (Natural Language Toolkit), men dels ingår det paketet inte i ware sig Debians eller Ubuntus repositorys och dels är det roligare att göra själv.
 
Jag har samlat in ett mindre urval av texter av Bob Dylan och Lou Reed och visar här en metod i min klass: frekvensanalys över använda ord.
Textmängden är ännu så länge ganska liten (omkring 5000 ord i texter av vardera artist) men ska byggas ut. Denna textmassa ska senare - så är tankarna i alla fall - bli en chatbot som svarar på input med citat från olika artister.
 

Bob Dylan
i 4%  ,  you 4%  ,  the 3,5%  ,  and 3%  ,  to 2%  ,  a 2%  ,  s 1,5%  ,  it 1,5%  ,  t 1,5%  ,  no 1,5%
Lou Reed
i 5%  ,  the 4%  ,  and 4%  ,  a 3%  ,  you 2,5%  ,  to 2%  ,  it 2%  ,  of 2%  ,  m 1,5%  ,  my 1% 

 
Mina slutledningar:
Både Bob Dylan och Lou Reed fokuserar på sina respektive 'jag'. Det är kanske inte helt ovanligt i sångtexter och just ordet 'I' torde tillhöra bland de absolut mest frekvent använda i engelska språket (beroende lite på vilken typ av text man tittar på). Reed har dock en liten övervikt på ordet och jag vill anse att han i sina texter är mer fokuserad på sitt själv än vad Dylan är.
 
Att Lou Reeds näst vanligaste ord är 'the' medan Dylans är 'you' är ändå något som särskiljer dem. Min slutledning är att Lou Reeds fokus ligger på tingen medan Bob Dylan fokuserar på människor eller relation. Exempel på detta är:
Dylan: "What else you got left?", "that picture of you in your wheelchair".
Reed: "I mean I did the cover", "it's the beginning of a great adventure".
 
orden s,t och m kommer från ord av typen it's, i'm och dont't. Att Lou Reed har 5%-1,5% mellan i och i'm medan Dylan - i denna topp-10 tabell - helt saknar i'm-formen, tillåter mig att anta att Dylan är mer direkt och agerande i sina texter.
 
Lou Reed har orden 'of' och 'my' som frekvent använda medan Dylan saknar dem. Båda förstärker min tes att Dylan är direkt och Lou Reed jämförande.
Ordet 'of' används ofta i sammanhang som 'kind of', 'sort of'... dvs när man vill förminska sina ord eller inte ta dem på allvar. De används också i sammansättningar som 'think of', 'proud of', 'man of', 'out of' där syftet är att bestämma läge eller förhållningssätt..
 
Dylan kontrar genom att ha med ordet 'no' på sin lista, vilket inte Lou Reed har. Detta kan få mig att se Dylan som mer ifrågasättande, förnekande eller aggressiv.
 
EDIT: ändrade ett dåligt exempel

Alternativ för kommentarvisning

Välj ditt önskade sätt att visa kommentarerna och klicka på "Spara" för att verkställa dina ändringar.

iaidokas bild

Då är det bara att börja analysera olika texter/författare, så kan du till slut gissa vem som skrivit en viss text om författaren är okänd. Smile

 
Test.

Test.

marwals bild

Jag skulle nog använda Byesian filter fingerprints (Pythons reverend-modul) + någon annan fingerprinting-teknik där inte bara ordfrekvens utan också andra faktorer togs hänsyn till... längd på meningar, skiljetecken, ord per mening / stavelser per mening, ordpars-frekvens... det finns en massa spännande statistik att plocka fram ur texter.
---