Język polski w Sentiment Analysis

Ucieszyłem się niedawno, że do Cognitive Services – Text API – Sentiment Analysis dodano obsługę języka polskiego. Preview bo preview, ale pierwsze koty za płoty.

Dzisiaj zrobiłem pierwsze próby wykorzystania, luźno inspirowane artykułem dotyczącym analizy emocjonalnej i klasyfikacji tekstów fabularnych.
Polecam źródło, bardzo ciekawe:
The emotional arcs of stories are dominated by six basic shapes

O samej jakości i efektach w polskim się jeszcze nie wypowiem, bo nie zdążyłem zrobić wszystkiego co planowałem. Okazało się też, że próbki, które chcę testować nie są takie idealne znowu i koniec końców mam trochę mało danych.

Za to FYI – jeśli ktoś chciałby skorzystać i też się pobawić i wpadnie na taki pomysł jak ja, żeby sobie użyć nugeta Microsoft.ProjectOxford.Text to należy mieć świadomość, że on out of the box nie wspiera tych nowo dodanych języków.
Jako, że zacząłem od angielskiego i mi wszystko od razu pięknie zaczęło śmigać (eleganckie Function z triggerem łapiącym teksty z Bloba i ładującym CSVki gotowe pod wykresy też na Bloba, a co!) to troszkę się zaciąłem jak przestało działać po wpuszczeniu polskiego. Ponieważ stukałem sobie kod funkcji bezpośrednio w portalu, to oświecenie nie nadeszło od razu (ach ten Visual i jego IntelliSense). Natomiast zerknięcie w źródła na githubie nie pozostawiły za wiele wątpliwości – trzeba sobie po prostu dodać do listy obsługiwany język.

A już się spodziewałem, że lista dozwolonych języków zaciąga się gdzieś z API i teraz będę musiał pół internetu przeszukać jaki jest nowy endpoint dla wersji API z językami w preview 😉

Swoją drogą to odrobinkę zabawne, że podany do API język jest przez klasę via klasa SentimentRequest sprawdzany na okoliczność poprawności/zgodności/wspierania, ale lista wartości dla walidatora jest publiczna i modyfikowalna 🙂

Na koniec mały sneak peek w moje wstępne wyniki. Analiza krótkiego tekstu fabularnego:


Temat jeszcze będę drążył. Jeśli dojdę do jakichś ciekawych wniosków to się pewnie podzielę.

 

Dodaj komentarz