JET 59 JET Volume 14 (2021) p.p. 59-67 Issue 4, December 2021 Type of article 1.01 METHODOLOGY OF IMMERSIVE VIDEO APPLICATION: THE CASE STUDY OF A VIRTUAL TOUR APLIKACIJA IMERZIVNIH VIDEO METOD: PRIMER VIRTUALNEGA OGLEDA Jure Jazbinšek R , Gorazd Hren 1 Keywords: virtual tour, 360 camera, RICOH THETA Z1, 3dVista, Text to Speech Abstract A Virtual Tour is an interactive presentation of real places accessible directly with an Internet browser with no additional installations of apps of plugins. Once, 360° photos are recorded and processed (stitched into spherical panoramas), editing of a Virtual Tour (walk) enables connec- tion of spherical panoramic photos (or videos) into interactive presentations. For an enhanced experience and stand-alone presenting ability, features are added, like natural-sounding voice for text-to-speech descriptions and embedded videos. During multiple virtual tour presentati- ons, users, viewers and presenters reported exceptional usability and an immersive experience. Virtual Tours have great potential to reshape the future education process and establish a new benchmark for presentation. The Virtual Tours application is expected to be used in education, tourism and future building sites or industry, as a key component for workforce briefings, and “as build” documenting of various stages of build, with the possibilities to integrate into Building Information Modelling (BIM) models. R Corresponding author: Jure Jazbinšek, GEN energija, d.o.o., Vrbina 17, 8270 Krško, Slovenija, tel: + 386 7 49 10 112, Email: 1 Faculty of Energy Technology, University of Maribor, Hočevarjev trg 1, Krško, Slovenia 60 JET JET Vol. 14 (2021) Issue 4 Jure Jazbinšek, Gorazd Hren 2  Jure Jazbinšek, Gorazd Hren  JET Vol. 14 (2021)     Issue 4  ‐‐‐‐‐‐‐‐‐‐  Povzetek Virtualni  ogled  je  interaktivna  predstavitev  resničnih  krajev,  dostopnih  neposredno  z  internetnim brskalnikom brez dodatnih namestitev aplikacij ali kakršnihkoli vtičnikov. Ko so 360  ‐stopinjske  fotografije  posnete  in  ustrezno  obdelane,  sledi  urejanje  virtualnega  ogleda  (sprehoda), ki omogoči povezavo sferičnih panoramskih fotografij (ali videov) v interaktivne  predstavitve. Za boljšo izkušnjo in samostojno predstavitev je posameznim panoramam dodan  naravni zvok glasu, ki opisuje prostor ali predstavi  željeno področje. Po večkratnih predstavitvah  uporabniki, gledalci in predstavitelji poročajo o izjemni uporabnosti platforme. Virtualni sprehod  ima zaradi poglobljene izkušnje velik potencial za preoblikovanje novodobnega  izobraževalnega  procesa in vzpostavitev novih meril predstavljanja. Pričakuje se, da se bodo virtualni ogledi  uporabljali predvsem v  izobr a ževanju, turizmu, na gradbiščih prihodnosti ter v industriji kot  ključna tehnologija za napotke delovni sili in dokumentiranje različnih stopenj gradnje in razvoja  z  m o ž n o s t j o vključitve posnetkov v modele gradbenega informacijskega modeliranja (BIM).    1 INTRODUCTION The  COVID‐19  pandemic  has  had  a  significant  impact  on  all  sectors  of  business.  The  development of the information society and the universal access to modern technologies have  resulted in a new form of participation in business. The creation of virtual space may take place  using several forms of presenting data and publishing them on the Internet. These include  exploring the virtual spaces through geoportals (including 3D geoportals), Virtual Tours and  electronically accessible videos, which are appropriate for the information societies.  In  this  paper  we  are  focused  on  Virtual  Tours,  also  called  virtual  walks.  Studies  on  and  explanations for this issue are available mainly on the Internet. In the literature [1‐4] authors  understand them as multimedia presentations containing high quality panoramas, thanks to  which it is possible to see a given place as close to reality as possible. The viewer can look  around, admire the perspective and specific details, move between specific locations, zoom in  or out and move in selected directions. The purpose of this form of presentation is to give the  user the impression of being in each place. Thanks to the use of multimedia solutions, it is  possible to attach voice and text effects. The development and evaluation of a Virtual Tour  prototype were performed mainly for tourist destinations [2,5] (museums, sightseeing, etc.).  In the new, COVID‐19 time, the Education and every‐day Communication has taken a sudden  swing  towards  digitalisation.  The  established  routines  of  standard  meetings  and  classroom  presentations  were  not  possible  during  lockdown  periods.  A  few  new  platforms  for  communication  have  arisen,  but  for  presenting  anything  to  partners  or  students,  MS  PowerPoint is still a standard. With the lowering cost of 360 photography and more processing  power and connectivity, new platforms for 3D Virtual Tours have risen to their potential. The  option to simplify the process of taking high‐quality 360° photos, edit them, arrange them in a  Virtual Tour, add interactive features and attach media files and publish them, is still a semi‐ complicated process. New 3D editing programs that will enable simplification of this process will  establish a new sandbox for education, presentation of infrastructure and equipment and other  fields of use.  Panoramic, or wide format photographs, are pictures that depict horizontally elongated fields of  view, or pictures that depict a field of view that is wider than the natural human field of view. It  JET 61 Metodology of immersive video application: The case study of a virtual tour   Metodology of immersive video application: The case study of a virtual tour  3       ‐‐‐‐‐‐‐‐‐‐  can be classified into 3 types: The cylindrical, spherical/cubical and planar panoramas, and all 3  types can be either conventional 2D or stereoscopic.   Spherical panoramas are used for virtual‐reality purposes, and they show the entire field of  view from a single point, 360° horizontally and 180° vertically, allowing the viewer to look in  every direction. The image is wrapped into a sphere and viewed from the centre. The horizontal  and vertical directions of a spherical panorama are    distorted when flattened. A spherical panorama can be flattened and stretched to become  cubic, each cube face representing a planar image that looks normal to the human eye.  Cylindrical panoramas, used primarily in stills photography, depict a 360° horizontal field of view  that has vertical constraints, depending on the equipment used or the editing of the image. If  flattened  out,  straight  horizontal  lines  become  curved,  while  straight  vertical  lines  remain  straight. There are two types of cylinder panoramas. In the case of inner‐cylinder panoramas  the setting of the camera stays fixed, and the picture is captured by rotating the 360° camera. In  the case of outer‐cylinder panoramas the subject is kept fixed and the camera takes photos of  the whole circle of the subject. A cylindrical panorama is intended to be viewed as if it were  wrapped into the shape of a cylinder and viewed from within.  A Planar panorama is a panoramic photo that is produced by the combination of a series of  frames. This method is used mainly in cases where the other two methods cannot be used (e.g.  streets or building groups). The camera is positioned halfway along the subject until the whole  subject is captured.   Stereoscopic photos are pairs of images, taken simultaneously with two lenses corresponding to  the two human eyes, looking in the same direction. When viewed with a stereoscope, such as a  View Master, these images create an impression of depth and solidity, and give viewers the  impression of seeing a 3D space. This can be applied to the case of panoramas of any type, with  the combination of a pair of 360° images, which, when viewed with synchronised Panorama  viewers, present a stereo pair. The most popular stereoscope for viewing stereo panoramas is a  virtual reality headset.    1.1 Virtual Tours A Virtual Tour is a simulation of an existing area, usually composed of a sequence of still images  or videos, showing the geometrical properties of the location, and supplying information via  multimedia, giving users a wrap‐around feeling and the impression that they are navigating  locations and experiencing them in real time [6]. In using techniques and characteristics that  represent  a  location  accurately,  namely  the  exact  depiction  of  all  entities  (e.g.,  buildings,  objects, facilities), the precise layout, and a high level of interactivity with the user to control  and navigate in the virtual environment freely, a virtual tour can manage to provide the user  with an experience similar to visiting the real location. Design guidelines for immersive video  applications, with an application example, are listed in [7] for a cultural heritage virtual tour.  Google Street View is an innovative Virtual Tour application that was launched by Google in  May 2007, can be found in both Google Maps and Google Earth, and provides 360° horizontal  and 290° vertical panorama street level views of the surrounding area of a certain spot.  62 JET JET Vol. 14 (2021) Issue 4 Jure Jazbinšek, Gorazd Hren 4  Jure Jazbinšek, Gorazd Hren  JET Vol. 14 (2021)     Issue 4  ‐‐‐‐‐‐‐‐‐‐  It is a creation of interactive 360º virtual tours with 360º views (panoramas), 360º videos,  embedded sounds, videos and photos, floorplans and fully customisable frames. It has the  ability of presenting the recorded space with multifunctional hotspots and clickable objects that  the audience can explore when walking through the tour. Virtual Tours can be seen on any  computer, tablet, or phone (Android & iOS) ‐ no installation or plugins are needed, Online or  Offline, they are VR compatible. The application has shown enormous usability during the time  of restricted gatherings due to COVID‐19 restrictions, and was used twice for the purpose of  presenting Faculty laboratories to future students.  2 HARWARE FOR 360° PHOTOS The Full Spherical Camera model RICOH THETA Z1 presented in Figure 1 was used for shooting  Virtual Tours.     Fi g u r e  1: Full Spherical Camera model RICOH THETA Z1  The camera is capable of shooting videos with 4K resolution (3840×1920 with 30 FPS). It has an  internal memory of 19 GBs, which can store 350 photos in RAW format, 2400 photos in JPEG  format or 40 minutes of 4K video (max. 5 minutes time per recording). The full specifications of  the RICOH THETA Z1 are presented in Table 1 [8].  Table  1: Specifications of the Full Spherical Camera model RICOH THETA Z1 [2]  Name of product:  RICOH THETA Z1  Lens F number  F2.1, 3.5, 5.6  Object distance  Approx. 40 cm ‐ ∞ (from the front of the lens)  Image Sensor Size  1.0‐ inch type (x2)  Image Sensor  Effective Pixels  Approx. 20 M (x2)  File Size Still Images  RAW: 7296×3648 JPEG: 6720×3360  File Size Videos  4K: 3840×1920/29.97 fps/56 Mbps  2K: 1920×960/29.97 fps/16 Mbps  File format  Still  image:  RAW  (DNG)*2,  JPEG  (Exif  Ver.  2.3)Video:  MP4(Video:MPEG‐4  AVC/H.264,Audio: AAC‐LC (monaural) +Linear PCM (4ch Spacial audio))Live  Streaming: Video: H.264, Audio: Linear PCM (4ch)  Recording medium  Internal memory: Approx. 19GB  Number of photos  that can be recorded,  time  Still image: RAW+ Approx. 350 photos, JPEG Approx. 2400 photosVideo (time  per recording): Max. 5minutes/Max. 25 minutes*3*4Video (total recording  time): (4K) Approx. 40 minutes, (2K) Approx. 130 minutes  Shooting mode  Still  image,  Video:  Auto,  Aperture  priority,  Shutter  priority,  ISO  priority,  Manual*3Live Streaming : Auto  Shooting Functions  Still  image:  Noise  reduction,  DR  compensation,  HDR  Rendering,  Interval  To be continued JET 63 Metodology of immersive video application: The case study of a virtual tour   Metodology of immersive video application: The case study of a virtual tour  5       ‐‐‐‐‐‐‐‐‐‐  shooting, Interval Composite shooting, Multi bracket shooting, Self‐timer (2,  5, 10 sec.), MY SettingsVideo: Self‐timer (2, 5, 10 sec.), MY Settings  OLED Panel  0.93  inch  Organic  Light  Emitting  Display  Panel,128x36  dots,  Automatic  brightness adjustment function  Wireless  Communications  Standard  IEEE802.11 a/b/g/n/ac (2.4 GHz/5 GHz)*5, IEEE802.11 b/g/n (2.4 GHz Only),  Bluetooth 4.2  External interface  USB Type‐C, USB3.0  Power source  Lithium ion battery (built in)  Battery life  Still image: Approx. 300 photos*7 Video: Approx. 60 minutes*7  Exterior/external  dimensions  48 mm (W) x 132.5 mm (H) x 29.7 mm (24 mm)  Weight  Approx. 182 g  Usage temperature  range  0°C ‐ 40°C  The camera has two image sensors, and was set with custom macro to shoot multiple (4)  snapshots  for  every  location:  1x  JPEG  (6720×3360  pixels)  and  3  snapshots  in  RAW  mode  (7296×3648  pixels).  The  recorded  360°snapshots  were  merged  in  the  program  Adobe  Lightroom, in order to achieve more realistic colours, and, finally, stitched into a single spherical  360° photo with the specially dedicated 3dVista plugin software.     3 SOFTWARE FOR THE CREATION OF A VIRTUAL TOUR The Multimedia Virtual Tour was created with the software 3dVista VIRTUAL TOUR PRO, which  enables stitching 360°panoramas and connecting multifunctional hotspots and clickable objects  that a user discovers when walking through the tour.  A Virtual Tour lets you see a place on the screen in a way that is most like experiencing it in real  life. Virtual Tours can generally contain many different types of media and tools, such as photos,  panoramas,  videos  and  audio.  Technically,  a  Virtual  Tour  is  the  transformation  of  a  flat  panorama image into a spherical format. The Virtual Tour allows the viewer to walk virtually  through the recorded scenery using his computer, TV or mobile phone. Within this Virtual Tour  you can show panoramas, videos, photos, floor plans or maps, and you can play different  sounds, depending on where your viewer looks (immersive audio).  The 3dVista Virtual Tour Suite enables creation and publishing of  spherical Virtual Tours that  will give viewers the impression of being in the room. They can then pan around, look up, down,  left and right, and feel like they are actually in the middle of the scene. On top of that, you can  add interactivity, audio, photos, videos and much more, to enrich the experience. [9]  Once, 360° panoramas of laboratories were merged from 3 360° photos with various exposure  times, colour corrected in Adobe Lightroom and stitched, but now, the assembly of a Virtual  Tour  takes  place  in  3dVista  VIRTUAL  TOUR  PRO.  Hotspots  buttons  (clickable  objects)  that  connect panoramas should be added to define transitions between the presented content  (another panorama, text, video, …) – an example of the workflow of 3dVista VIRTUAL TOUR  PRO, where hotspots between panoramas are edited, is presented in Figure 2.  Continuation 64 JET JET Vol. 14 (2021) Issue 4 Jure Jazbinšek, Gorazd Hren 6  Jure Jazbinšek, Gorazd Hren  JET Vol. 14 (2021)     Issue 4  ‐‐‐‐‐‐‐‐‐‐    Figure  2: Example of the workflow of the 3dVista VIRTUAL TOUR PRO    4 TEXT TO SPEECH The Text to Speech Feature converts any written text inside your Virtual Tour into spoken  words, so it reads digital text aloud. This is not only useful in terms of Web accessibility, where  alt text options are essential for people with disabilities, such as blindness or dyslexia. It’s useful  for all Virtual Tour visitors. Content can be read aloud for people who prefer to listen, for  example, while navigating the tour rather than having to stop and read a whole lot of text. This  is particularly useful for users exploring the Virtual Tour in VR or AR headsets, which are simply  not meant for reading texts.  4.1 3D Vista Text to Speech The Text To Speech feature can be applied to all sorts of text you can find in a Virtual Tour. It  can read out info window texts, tool tips, buttons, or even play an audio description of the  current media, within a panorama, or even a 360º video. [10]   4.2 MS Office Text to Speech Speak is a built‐in feature of Word, Outlook, PowerPoint and OneNote. You can use Speak to  have text read aloud in the language of your version of Office. Text‐to‐speech (TTS) is the ability  of  your  computer  to  play  back  written  text  as  spoken  words.  Depending  upon  your  configuration and installed TTS engines, you can hear most text that appears on your screen in  Word, Outlook, PowerPoint and OneNote. For example, if you're using the English version of  Office, the English TTS engine is installed automatically.  JET 65 Metodology of immersive video application: The case study of a virtual tour   Metodology of immersive video application: The case study of a virtual tour  7       ‐‐‐‐‐‐‐‐‐‐  MS Office Text To Speech offers  reading in the Slovenian language (Pregled / Govor / Glasno  branje) with the voice option name Microsoft Lado, and only the most basic option of adjusting  the speed of reading is available.   4.3 MS Azure Text to Speech There are some limitations with the supported languages in the Text To Speech Feature and the  Slovenian language is not yet supported as an option. This challenge was solved with the  Microsoft Azure ‐ Text to Speech demo application, built on JavaScript SDK and available free  online. [11]     F i g u r e  3: Example of using MS Azure  There are three options to choose from in Azure Voice options: Petra and Rok (both are Neural  voices) and the voice Lado from the basic MS office option. Next to settings of the Speaking  speed, it is also possible to adjust the Pitch of the chosen voice (Figure 3).  The Microsoft Azure  ‐ Text to Speech demo app gives the best loud reading results of the  Slovenian language but does not allow  saving speech as a recording directly. To solve this, the  Windows 10 Game Bar was activated, and a video of the screen was recorded during the Text to  Speech. The recorded mpeg4 file was then converted to an mp3 file with the VLC player.    4.4 Publishing a Virtual Tour At the end of the editing process, the Virtual Tour needs to be published to a web server to  share users easily via the Internet. Using the 3dVista hosting service is the easiest way to get  your Virtual Tour online. This is an optional service to upload a Virtual Tour fast and easily, a  service which is paid for annually for the hosting space you contract.  Another option is to upload a Virtual Tour to a server other than the 3dVista hosting service, in  which case an FTP client is needed. An FTP client is a program that helps transfer files like the  66 JET JET Vol. 14 (2021) Issue 4 Jure Jazbinšek, Gorazd Hren 8  Jure Jazbinšek, Gorazd Hren  JET Vol. 14 (2021)     Issue 4  ‐‐‐‐‐‐‐‐‐‐  Virtual Tour file, between the computer and the external server where the domain is located.  An FTP client called FileZilla was used, because it is free and easy to use.    4 CONCLUSIONS Because of COVID‐19, there were a lot of restrictions on public gatherings, and therefore it was  not possible to perform a lot of typical events, such as information day of Faculties and other  laboratory presentations.   A variety of industries use the Virtual Tour technology to help promote their services and  products. For most business purposes, a Virtual Tour must be accessible from everywhere,  therefore, a major solution is a web‐based Virtual Tour. Over the last few years the quality and  accessibility of Virtual Tours has improved considerably, with some websites allowing the user  to navigate the tours by clicking on maps or integrated floor plans. The main areas where this  new technology is applied is mainly universities, the Tourism and Culture sectors and the Real‐ estate industry.  With the help of a 360° camera, 3dVista software and existing material (pdf text, photos, and  videos), a Virtual Tour was created of the Institute of Energy Technology located in Krško.  Within this Virtual Tour, a user can move between laboratories, inspect laboratory equipment,  read technical specifications, watch embedded movies about the Faculty, and even listen to  text‐to‐speech descriptions of laboratories.  With  the  help  of  the  Virtual  Tour  of  the  laboratories,  a  virtual  conference  with  a  virtual  walkthrough of the laboratories was performed with great success. The moderator was able to  present all the rooms, and the Professors could describe the equipment available and the field  of work of every laboratory.    F i g u r e  4: Snapshot fromthe Virtual Tour  JET 67 Metodology of immersive video application: The case study of a virtual tour   Metodology of immersive video application: The case study of a virtual tour  9       ‐‐‐‐‐‐‐‐‐‐    References [1]  N.L. Yeo, M.P.White, I.Alcock, R.Garside, S.G.Dean, A.J.Smalley, B.Gatersleben: What  is  the  best  way  of  delivering  virtual  nature  for  improving  mood?  An  experimental  comparison of high‐definition TV, 360◦ video, and computer generated virtual reality,  Journal of Environmental Psychology, 72, 2020  [2]  A.Osmani, N.A.Wahab, M.H.Ismail: Development and Evaluation of an Interactive 360°  Virtual Tour for Tourist Destinations, Journal of Information Technology Impact, Vol. 9,  No. 3, pp. 173‐182, 2009  [3]  L.Argyriou,  D.Economou,  V.Bouki:  Design  methodology  for  360°  immersive  video  applications: The case study of a cultural heritage virtual tour, Personal and Ubiquitous  Computing, Vol:24, pp.843–859, 2020  [4]  A.S.Pahlevi,  J.Sayono,  Y.A.L.Hermanto:  Design  of  a  Virtual  Tour  as  a  Solution  for  Promoting the Tourism Sector in the Pandemic Period, ICADECS, 2021  [5]  A.A. Pilarska, P. Tomczykowska: Virtual tourism space of cities, Journal of Modern  Science, Vol.38, pp. 317‐333, 2018  [6]  M.Colasante:  Nicola  Building  Virtual  Tour;  Considering  simulation  in  the  equity  of  experience concept, ASCILITE, 2011  [7]   HM.Chiao,  YL.Chen,  WH.Huang:  Examining  the  usability  of  an  online  virtual  tour‐ guiding platform for cultural tourism education, Journal of Hospitality, Leisure, Sport &  Tourism Education, Vol.23, pp.29‐38, 2018  [8]  THETA: RICOH THETA Z1 camera specifications,  [9]  3DVISTA ESPAÑA S.L.: 3DVista Virtual Tour Suite, 01/08/2014‐QuickGuide.pdf  [10]  3DVista: Tutorial: Text To Speech  ‐ Automatic Narration of Texts inside Virtual Tours‐nO6GDUABfw   [11]  Azure: Text to Speech  ‐ A Speech service feature that converts text to lifelike speech,‐us/services/cognitive‐services/text‐to‐ speech/#overview